# Classification : iris data

In [25]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np

In [2]:
iris = load_iris()

iris_data = iris.data # Xdata
iris_label = iris.target # target

In [3]:
iris_df = pd.DataFrame(iris_data, columns=iris.feature_names) #feature_names : 피쳐이름

In [4]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [5]:
iris_df['label'] = iris.target #label이라는 컬럼 추가.

In [6]:
iris_data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [7]:
Xtrain, Xtest, ytrain, ytest = train_test_split(iris_data, iris_label, test_size=0.2, random_state=777) 

In [8]:
print(Xtrain.shape, Xtest.shape, ytrain.shape, ytest.shape)

(120, 4) (30, 4) (120,) (30,)


In [17]:
dt_clf = DecisionTreeClassifier(random_state=777)

In [18]:
dt_clf.fit(Xtrain,ytrain) #학습

DecisionTreeClassifier(random_state=777)

In [19]:
pred = dt_clf.predict(Xtest) #예측

In [20]:
from sklearn.metrics import accuracy_score

print("예측 정확도: {0:.2f}".format(accuracy_score(ytest, pred)))

예측 정확도: 1.00


# 1. 교차검증 : KFold / StratifiedKFold 

In [24]:
from sklearn.model_selection import KFold

kfold = KFold(n_splits=5) #5fold
cv_accuracy = []
print('붓꽃 데이터 세트 크기:', iris_data.shape[0]) #행 출력(전체 데이터 갯수)

붓꽃 데이터 세트 크기: 150


In [35]:
n_iter = 0

for train_idx, test_idx in kfold.split(iris_data):  
    Xtrain, Xtest = iris_data[train_idx], iris_data[test_idx]
    ytrain, ytest = iris_label[train_idx], iris_label[test_idx]
    
    dt_clf.fit(Xtrain, ytrain)
    pred = dt_clf.predict(Xtest)
    n_iter+=1
    
    acc =  np.round(accuracy_score(ytest, pred),2)
    train_size = Xtrain.shape[0]
    test_size = Xtest.shape[0]
    
    print('\n#{0} 교차검증 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}'.format(n_iter, acc, train_size, test_size))
    
    cv_accuracy.append(acc)

print('\n=> 평균 정확도: {0}'.format(np.average(cv_accuracy))) #평균 정확도


#1 교차검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

#2 교차검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

#3 교차검증 정확도 : 0.9, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

#4 교차검증 정확도 : 0.93, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

#5 교차검증 정확도 : 0.8, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

=> 평균 정확도: 0.9260000000000002


In [38]:
# Stratified KFold : 불균형한 분포도를 가진 레이블을 데이터 집합을 위한 K 폴드 방법.
from sklearn.model_selection import StratifiedKFold
StratifiedKFold = StratifiedKFold(n_splits=5) #5fold
cv_accuracy = []

for train_idx, test_idx in StratifiedKFold.split(iris_data, iris_label):  
    Xtrain, Xtest = iris_data[train_idx], iris_data[test_idx]
    ytrain, ytest = iris_label[train_idx], iris_label[test_idx]
    
    dt_clf.fit(Xtrain, ytrain)
    pred = dt_clf.predict(Xtest)
    n_iter+=1
    
    acc =  np.round(accuracy_score(ytest, pred),2)
    train_size = Xtrain.shape[0]
    test_size = Xtest.shape[0]
    
    print('\n#{0} 교차검증 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}'.format(n_iter, acc, train_size, test_size))
    
    cv_accuracy.append(acc)

print('\n=> 평균 정확도: {0}'.format(np.average(cv_accuracy))) #평균 정확도가 kfold 보다 더 올라감


#6 교차검증 정확도 : 0.97, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

#7 교차검증 정확도 : 0.97, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

#8 교차검증 정확도 : 0.9, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

#9 교차검증 정확도 : 0.97, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

#10 교차검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

=> 평균 정확도: 0.962


# 2. 교차 검증을 한번에 : cross_val_score()

Kfold 의 일련의 과정을 한꺼번에 수행하는 api

In [41]:
from sklearn.model_selection import cross_val_score, cross_validate

score = cross_val_score(dt_clf, iris_data, iris_label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(score, 2))
print('평균 교차 검증별 정확도:', np.mean(score))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 교차 검증별 정확도: 0.9666666666666667


# 3. 교차검증과 하이퍼파라미터 튜닝 

In [53]:
from sklearn.model_selection import GridSearchCV

iris = load_iris()

Xtrain, Xtest, ytrain, ytest = train_test_split(iris.data, iris.target, test_size=0.2, random_state=777) 

dtree = DecisionTreeClassifier()

#파라미터를 딕셔너리 형태로 설정.
param = {'max_depth': [1,2,3], 'min_samples_split': [2,3]}
grid_tree = GridSearchCV(dtree, param_grid=param, cv=3, refit=True) #refit옵션: True이면 가장 좋은 파라미터로 재학습 시킴.

In [54]:
grid_tree.fit(Xtrain, ytrain)

GridSearchCV(cv=3, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]})

In [57]:
print('최적의 파라미터:' , grid_tree.best_params_)
print('최고의 정확도:', grid_tree.best_score_)

최적의 파라미터: {'max_depth': 2, 'min_samples_split': 2}
최고의 정확도: 0.9333333333333332


In [59]:
#최고의 파라미터로 예측

best_gt = grid_tree.best_estimator_
pred = best_gt.predict(Xtest)

print('테스트 세트 정확도 : {0:.4f}'.format(accuracy_score(ytest, pred)))

테스트 세트 정확도 : 0.9333
