# Scikit-learn 실습: 붓꽃 분류하기

분류는 대표적인 지도학습이다.
1. 문제와 답이 정해져있는 많은 양의 학습데이터를 가지고 ML 알고리즘을 적용해 모델을 학습시킨다.
2. 그렇게 학습시킨 모델에다가 테스트 데이터의 문제를 넣어서 어떤 답을 뽑아내는지 확인한다.
3. 테스트 데이터의 답도 이미 사람이 알고 있기 때문에, 정답률을 이용해 모델의 분류성능 등 여러 지표를 평가한다.


In [8]:
import numpy as np
import pandas as pd

import sklearn
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
# a package to distinguish between learning data and test data
from sklearn.model_selection import train_test_split

In [16]:
# 데이터 세트 로딩
iris = load_iris()
iris_data = iris.data  # Feature에 해당하는 데이터셋.
iris_label = iris.target  # Target에 해당하는 데이터셋.

print('iris target값:\n', iris_label)
print('iris target명:\n', iris.target_names)

# 데이터셋 더 자세히 보기 위해 DataFrame 형으로 변경.
# ndarray -> DataFrame
# 데이터 값은 iris.data로 하고, 컬럼명은 iris.target_names로 하고 싶다.
# iris_data_df= pd.DataFrame(data=iris_data, columns=iris.target_names)
iris_data_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
display(iris_data_df.head())

iris target값:
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명:
 ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [17]:
# 학습데이터와 테스트 데이터를 분리.
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)
# X means feature. Y means target. 
# test_size=0.2 : 전체 데이터 중 20%만 테스트로 만들어라.
# random_state : 랜덤함수의 시드 같은 역할. 반복가능한 경우로 쓰기 위해 정해진 정수값을 넣는다.

In [18]:
# 학습 데이터 셋으로 학습(Train) 수행
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행
dt_clf.fit(X_train, y_train)

In [22]:
# 테스트 데이터 세트로 예측 (Predict) 수행
# 학습 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
pred = dt_clf.predict(X_test)
print(f'{type(pred)}:\n{pred}')

<class 'numpy.ndarray'>:
[2 2 1 1 2 0 1 0 0 1 1 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]


In [20]:
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [24]:
# 예측 정확도 평가
from sklearn.metrics import accuracy_score

# 소수점 아래 4자리까지 정확도 표현.
print(f'예측 정확도: {accuracy_score(y_test, pred):.4f}')

예측 정확도: 0.9333


In [29]:
# iris 예제데이터 keys 확인
from sklearn.datasets import load_iris

iris_data = load_iris()  # iris 예제데이터를 가져온다. Bunch 타입.
# <class 'sklearn.utils._bunch.Bunch'>

keys = iris_data.keys()  # iris 데이터의 key를 확인.
# <class 'dict_keys'>
print(keys)
# -> dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [42]:
print(type(iris_data.data))
print(iris_data.data)
# -> <class 'numpy.ndarray'>

<class 'numpy.ndarray'>
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3

In [43]:
print(f'{type(iris_data.target)}')
print(iris_data.target)
# -> <class 'numpy.ndarray'>

<class 'numpy.ndarray'>
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [46]:
print(f'{type(iris_data.target_names)}')
print(iris_data.target_names)

<class 'numpy.ndarray'>
['setosa' 'versicolor' 'virginica']


In [45]:
print(f'{type(iris_data.feature_names)}')
print(iris_data.feature_names)

<class 'list'>
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [47]:
print(f'{type(iris_data.DESCR)}')
print(iris_data.DESCR)

<class 'str'>
.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.n

In [49]:
print(f'{type(iris_data.filename)}')
print(iris_data.filename)

<class 'str'>
iris.csv


In [50]:
print(f'{type(iris_data.data_module)}')
print(iris_data.data_module)

<class 'str'>
sklearn.datasets.data


In [48]:
print(f'{type(iris_data.frame)}')
print(iris_data.frame)

<class 'NoneType'>
None


# 교차검증

In [55]:
# K 폴드
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()  # 데이터 로딩
features = iris.data  # Feature 데이터
label = iris.target  # Label 데이터
dt_clf = DecisionTreeClassifier(random_state=156)  # DecisionTreeClassifier 객체 생성

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성.
kfold = KFold(n_splits=5)
cross_validation_accuracy = []  # 교차검증 정확도를 담을 리스트 객체 생성.
print(f'붓꽃 데이터 세트 크기: {features.shape}')

# KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환.
n_iter = 0
for train_index, test_index in kfold.split(features):
    # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출.
    X_train, X_test = features[train_index], features[test_index]  # 학습용 피처데이터, 검증용 피처데이터
    y_train, y_test = label[train_index], label[test_index]  # 학습용 타겟값, 검증용 타겟값
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    # 반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print(f'#{n_iter} 교차 검증 정확도: {accuracy}, 학습 데이터 크기: {train_size}, 검증 데이터 크기: {test_size}')
    print(f'#{n_iter} 검증 세트 인덱스: {test_index}')
    cross_validation_accuracy.append(accuracy)

# 개별 iteration별 정확도를 합하여 평균 정확도 계산.
print(f'## 평균 검증 정확도: {np.mean(cross_validation_accuracy)}')

붓꽃 데이터 세트 크기: (150, 4)
#1 교차 검증 정확도: 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
#2 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]
#3 교차 검증 정확도: 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]
#4 교차 검증 정확도: 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]
#5 교차 검증 정확도: 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
## 평균 검증 정확도: 0.9


In [3]:
# Stratified K Fold
import pandas as pd
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
features = iris.data
label = iris.target
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
print(iris_df['label'].value_counts())
dt_clf = DecisionTreeClassifier(random_state=156)

# StratifiedKFold 객체 생성
skfold = StratifiedKFold(n_splits=3)
n_iter = 0
cv_accuracy = []

# StratifiedKFold의 split() 호출시 반드시 레이블 데이터 셋도 추가 입력 필요.
for train_index, test_index in skfold.split(iris_df, iris_df['label']):
    n_iter += 1
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    # print(f'#{n_iter} train index: {train_index}')
    # print(f'#{n_iter} test index: {test_index}')
    print(f'## 교차 검증: {n_iter}')
    print(f'학습 레이블 데이터 분포:\n{label_train.value_counts()}')
    print(f'검증 레이블 데이터 분포:\n{label_test.value_counts()}')
    dt_clf.fit(X_train, y_train)  # 모델 학습
    pred = dt_clf.predict(X_test)  # 예측
    accuracy = np.round(accuracy_score(y_test, pred))  # 정확도 측정
    cv_accuracy.append(accuracy)

    print(f'#{n_iter} 교차 검증 정확도: {accuracy}, 학습 데이터 크기: {X_train.shape[0]}, 검증 데이터 크기: {X_test.shape[0]}')

print(f'## 교차 검증별 정확도: {cv_accuracy}')

label
0    50
1    50
2    50
Name: count, dtype: int64
## 교차 검증: 1
학습 레이블 데이터 분포:
label
2    34
0    33
1    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
label
0    17
1    17
2    16
Name: count, dtype: int64
#1 교차 검증 정확도: 1.0, 학습 데이터 크기: 100, 검증 데이터 크기: 50
## 교차 검증: 2
학습 레이블 데이터 분포:
label
1    34
0    33
2    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
label
0    17
2    17
1    16
Name: count, dtype: int64
#2 교차 검증 정확도: 1.0, 학습 데이터 크기: 100, 검증 데이터 크기: 50
## 교차 검증: 3
학습 레이블 데이터 분포:
label
0    34
1    33
2    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
label
1    17
2    17
0    16
Name: count, dtype: int64
#3 교차 검증 정확도: 1.0, 학습 데이터 크기: 100, 검증 데이터 크기: 50
## 교차 검증별 정확도: [1.0, 1.0, 1.0]


# cross_val_score(), GridSearchCV

In [22]:
# cross_val_score()
# 학습 및 테스트데이터 설정, 학습, 테스트, 검증에 쓰이는 코드가 좀 길게 느껴져서 이걸 한 묶음으로 메소드화

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score

# 데이터 불러오기
iris = load_iris(as_frame=True) # DataFrame으로 불러오기.
iris_data_df= iris.data
iris_label = iris.target
print(f'{type(iris_label)}\n{iris_label}')

print(iris.target_names)

# 학습모델 객체 생성
dt_clf = DecisionTreeClassifier(random_state=156)

# cross_val_score 이용해서 k=3인 stratified k fold로 교차검증.
# 각각의 검증 정확도와 평균검증정확도를 평가.

cv_accuracy = cross_val_score(dt_clf, iris_data_df, iris_label, scoring='accuracy', cv=3)
# cross_val_score() 각 패러미터 들에 대한 설명:
# dt_clf: 학습모델 객체
# iris_data_df: Feature 데이터
# iris_label: Label 데이터
# scoring='accuracy': 정확도 측정
# cv=3: 3개의 폴드 세트로 분리하는 KFold로 교차검증 수행.
# cross_val_score() 메소드 반환 타입: ndarray
print(f'교차 검증별 정확도: {cv_accuracy}')
# print(np.mean(cv_accuracy))

<class 'pandas.core.series.Series'>
0      0
1      0
2      0
3      0
4      0
      ..
145    2
146    2
147    2
148    2
149    2
Name: target, Length: 150, dtype: int64
['setosa' 'versicolor' 'virginica']
교차 검증별 정확도: [0.98 0.94 0.98]


0.9666666666666667

In [11]:
# GridSearchCV

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split, GridSearchCV

# 데이터 준비. DataFrame 형으로.
iris = load_iris(as_frame=True)
iris_data_df = iris.data
iris_label=iris.target

# train data와 test data로 분리.
# X_train, X_test = train_test_split(iris_data_df, test_size=0.2, random_state=11)
# y_train, y_test= train_test_split(iris_label, test_size=0.2, random_state=11)
X_train, X_test, y_train, y_test = train_test_split(iris_data_df, iris_label, test_size=0.2, random_state=11)

# parameter들을 dictionary 형태로 설정.
parameters = {'max_depth':[1,2,3],'min_samples_split':[2,3]}


# params_grid의 하이퍼 패러미터들을 3개의 train, test set fold로 나누어 테스트 수행 설정.
# refit=True 가 기본값. True면 가장 좋은 패러미터 설정으로 재학습시킴.
# GridSearchCV
dt_clf=DecisionTreeClassifier(random_state=156)
grid_dtree=GridSearchCV(estimator=dt_clf, param_grid=parameters, cv=3, refit=True, return_train_score=True)

# 붓꽃 train 데이터로 param_grid의 하이퍼 패러미터를 순차적으로 학습/평가.
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과는 학습된모델.cv_results_ 라는 딕셔너리로 저장 됨.
cv_results_df= pd.DataFrame(grid_dtree.cv_results_)
display(cv_results_df)

# 최적 파라미터는 학습된모델.best_params_, 최고 정확도는 학습된모델.best_score_
print(f'최적 파라미터: {grid_dtree.best_params_}')
print(f'최고 정확도: {grid_dtree.best_score_}')

# refit=True로 설정된 GridSearchCV 객체가 fit() 수행 시, 최적 패러미터로 학습완료된 Estimator를 내포하고 있으므로 predict() 수행 가능.
pred=grid_dtree.predict(X_test)
print(f'예측 정확도: {accuracy_score(pred,y_test)}')

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score,split0_train_score,split1_train_score,split2_train_score,mean_train_score,std_train_score
0,0.00311,0.000418,0.001957,6.3e-05,1,2,"{'max_depth': 1, 'min_samples_split': 2}",0.675,0.675,0.675,0.675,1.110223e-16,5,0.675,0.675,0.675,0.675,1.110223e-16
1,0.002865,2.3e-05,0.002195,0.000212,1,3,"{'max_depth': 1, 'min_samples_split': 3}",0.675,0.675,0.675,0.675,1.110223e-16,5,0.675,0.675,0.675,0.675,1.110223e-16
2,0.00335,0.000748,0.001976,0.000263,2,2,"{'max_depth': 2, 'min_samples_split': 2}",0.925,1.0,0.95,0.958333,0.03118048,3,0.9875,0.95,0.975,0.970833,0.01559024
3,0.003167,0.000399,0.002021,0.000207,2,3,"{'max_depth': 2, 'min_samples_split': 3}",0.925,1.0,0.95,0.958333,0.03118048,3,0.9875,0.95,0.975,0.970833,0.01559024
4,0.003039,8.2e-05,0.001884,0.000102,3,2,"{'max_depth': 3, 'min_samples_split': 2}",0.925,1.0,0.975,0.966667,0.03118048,1,0.9875,0.9625,0.9875,0.979167,0.01178511
5,0.002888,0.000251,0.001857,7.1e-05,3,3,"{'max_depth': 3, 'min_samples_split': 3}",0.925,1.0,0.975,0.966667,0.03118048,1,0.9875,0.9625,0.9875,0.979167,0.01178511


최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
최고 정확도: 0.9666666666666667
예측 정확도: 0.9333333333333333
