## 의사결정나무 (Decision Tree)


[예제 ] 붓꽃(Iris) 품종 

- 꽃잎(petal)과 꽃받침(sepal)의 폭과 길이를 측정하여 품종을 예측한다
- 150개의 데이타에서 3가지 품종(setosa, versicolor, virginica)로 분류한다

In [3]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import numpy as np

In [4]:
# --------------------------------------------------
# 1. 데이타 로딩

iris = datasets.load_iris()

# 데이터 key 확인
print(iris.keys())

# 데이터셋에 대한 설명
print(iris['DESCR'])

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])
.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Cr

In [5]:
#[참고] 데이타 뜯어보기

# 예측하려는(타겟) 품종의 이름
print("타겟의 이름 : {}".format(iris['target_names']))

# 특성(컬럼)명
print("특성의 이름 : {}".format(iris['feature_names']))

# 데이타의 크기
print("데이타의 행과 열수 : {}".format(iris['data'].shape))

타겟의 이름 : ['setosa' 'versicolor' 'virginica']
특성의 이름 : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
데이타의 행과 열수 : (150, 4)


In [6]:
# 2. 데이터셋을 데이타프레임으로 변환
import pandas as pd
df = pd.DataFrame( iris.data )
df.head()

# 컬럼명 지정
df.columns = iris.feature_names
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [7]:
# petal 요소만 선택 - 2,3열 (3,4번째 필드)만 선택
# X = iris.data[:, [2,3]]
X = iris.data
y = iris.target

# 3. 데이타셋을 분리 ( 학습용:검증용 = 7:3 )
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
        # test_size : 학습용과 테스트용 데이타분리 비율
        # random_state : 난수 발생을 위한 seed값

# 4. 데이타 표준화 작업 ( 0.0~1.0 사이의 값으로 표준화 )
sc = StandardScaler()
sc.fit(X_train)

# 표준화된 데이터셋 확인
X_train_std = sc.transform(X_train)
X_test_std=sc.transform(X_test)
print(X_train[:5])
print(X_train_std[:5])

[[5.  2.  3.5 1. ]
 [6.5 3.  5.5 1.8]
 [6.7 3.3 5.7 2.5]
 [6.  2.2 5.  1.5]
 [6.7 2.5 5.8 1.8]]
[[-1.02366372 -2.37846268 -0.18295039 -0.29318114]
 [ 0.69517462 -0.10190314  0.93066067  0.7372463 ]
 [ 0.92435306  0.58106472  1.04202177  1.63887031]
 [ 0.1222285  -1.92315077  0.6522579   0.35083601]
 [ 0.92435306 -1.24018291  1.09770233  0.7372463 ]]


In [8]:
# 5. 트리 모델 생성

from sklearn.tree import DecisionTreeClassifier

iris_tree = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=0)
        # 분류 알고리즘 종류 : criterion='entropy'
        # 나중에 max_depth=3의 값을 조절하면서 확인(****)
        # max_depth=5로 하면 과적합에 가깝다

iris_tree.fit(X_train, y_train)

print('학습용 데이터셋 정확도: {:.3f}'.format(iris_tree.score(X_train, y_train)))
print('검증용 데이터셋 정확도: {:.3f}'.format(iris_tree.score(X_test, y_test)))

학습용 데이터셋 정확도: 0.981
검증용 데이터셋 정확도: 0.978


# 결정트리 시각화

[ 참고 ] graphviz 설치

- pip install graphviz


- 아래 설치와 환경설정이 필요한가?

- http://www.graphviz.org/download/ 

   > Windows > Stable 2.38 Windows install packages > graphviz-2.38.msi 다운로드 받아 실행

- 환경변수 지정 (소스에서 ) : C:/Program Files (x86)/Graphviz2.38/bin/



        import os

        os.environ['PATH'] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'


In [1]:
# !pip install graphviz

In [2]:
# pydotplus 설치
# ! pip install pydotplus

In [2]:
from sklearn.tree import export_graphviz
import pydotplus
import graphviz
from IPython.display import Image

In [4]:
# graphviz의 경로를 환경변수 PATH에 등록
import os
os.environ['PATH'] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'

dot_data = export_graphviz(iris_tree, out_file=None, feature_names=iris.feature_names,
                          class_names=iris.target_names, filled=True, rounded=True, special_characters=True)

        #dot_data = export_graphviz(iris_tree, out_file=None, feature_names=['petal length', 'petal width'],
        #                          class_names=iris.target_names, filled=True, rounded=True, special_characters=True)


# 그래프 생성
# graph = pydotplus.graph_from_dot_data(dot_data)
# 그래프를 이미지로 변환
# Image(graph.create_png())