### Ronald Fisher's Iris Data

- Setosa, Versicolor, Virginica로 분류
- 꽃받침 길이 & 너비, 꽃잎 길이 & 너비 총 4개의 features
- 데이터 수 : 150개
- 데이터는 scikit-learn 패키지에 기본적으로 포함

In [1]:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeClassifier

In [2]:
iris = datasets.load_iris()

In [3]:
print('Features :\n',iris.data[:5])
print('Labels :\n',iris.target[:5])
print('Names of Labels :\n',iris.target_names)

Features :
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
Labels :
 [0 0 0 0 0]
Names of Labels :
 ['setosa' 'versicolor' 'virginica']


In [4]:
print(type(iris.data), iris.data.shape)
print(type(iris.target), iris.target.shape)

<class 'numpy.ndarray'> (150, 4)
<class 'numpy.ndarray'> (150,)


In [5]:
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=7)

In [6]:
print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)

(90, 4) (60, 4) (90,) (60,)


In [7]:
clf = DecisionTreeClassifier(random_state=7)
clf.fit(x_train,y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=7,
            splitter='best')

In [8]:
y_predict = clf.predict(x_test)   # 40개의 testset에 대해 결과를 예측
print(y_predict)

[2 1 0 1 2 0 1 1 0 1 2 1 0 2 0 2 2 2 0 0 1 2 1 1 2 2 1 1 2 2 2 1 0 2 1 0 0
 0 0 2 2 1 2 2 1 0 1 1 2 0 0 0 2 0 2 1 1 1 0 0]


In [9]:
accuracy = np.mean(y_test==y_predict)
print("Accuracy is %.2f%%"%(accuracy*100))

Accuracy is 95.00%


In [10]:
y_test==y_predict   # np.mean이 True 갯수의 비율을 구해준다.

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True, False,  True,  True,  True,  True, False,  True,  True,
        True,  True,  True,  True,  True, False,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True])

In [11]:
# score 메소드를 이용한 평가
print("Accuracy by score() is %.2f%%"%(clf.score(x_test, y_test)*100))

Accuracy by score() is 95.00%


In [12]:
print(clf.score(x_test, y_test))   # score 메소드를 쓰면 바로 정확도를 알 수 있다.

0.95


#### 과적합(Overfitting) 문제

- 과적합을 확인하기 위해 training set에서 validation set을 분리하여 모델을 검증하는데 이용한다.
- 학습데이터 자체가 적을 경우, 위 과정은 학습데이터를 더욱 줄이게 되고 모델이 학습데이터에 더 의존적이 된다.
- 교차검증으로 해결한다.

In [13]:
clf = DecisionTreeClassifier(random_state=7)
scores = cross_val_score(clf, iris.data, iris.target, scoring='accuracy', cv=5)
print("Accuracy : %.1f (+/- %.2f)"%(np.mean(scores)*100, np.std(scores)))

Accuracy : 96.0 (+/- 0.03)


In [14]:
scores

array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ])

- dataset에 결정트리 방법을 적용하는 것이 적합한지 확인