# [DataMining] 지도학습 - DecisionTree

* 머신러닝 with python 교재 실습 내용입니다.


## * Decision Tree

- 분석과정을 나무구조로 도형화하여 분류분석 or 회귀분석을 수행하는 데이터마이닝의 대표적인 분석기법
- targetdata가 범주형인 경우 => classification tree / 숫자형인 경우 => regression tree
- 장점: 분류분석과 회귀분석의 과정이 나무구조에 의해 표현되므로 분석자가 그 과정을 쉽게 이해하고 설명할 수 있음
- 일부 변수들의 조합이 가지는 특별한 효과를 찾을 수 있음


## * 엔트로피

- 성능평가를 위해 엔트로피 개념을 사용
- 엔트로피: 불순도 정도를 측정하며 낮을수록 좋음
- 불순도: 노드에 서로 다른 데이터가 얼마나 섞여 있는지를 의미
- $Entropy(d) = -\sum P(x)logP(x) = -\sum_ P(i|d)log_2 (P(i|d)) $
- P(i|d): 노드 d가 주어질 때 i 클래스가 속할 확률


## * 지니계수

- 데이터 셋에서 랜덤으로 선택한 데이터에 임의로 라벨링을 정했을 때, 틀릴 확률
- 엔트로피와 함께 불순도 측정하는 방법
- $ G(Test) = 	\sum_{j=1}^d (R_j ( 1 - \sum_{i=1}^k p(i|j)^2 )) $
- 데이터 셋에서 랜덤으로 선택한 데이터에 임의로 라벨링을 정했을 때 틀릴 확률을 의미


In [2]:
'''1. 데이터 불러오기'''

from sklearn import datasets
raw_wine = datasets.load_wine()

In [5]:
'''2. feature, target data 지정'''

X = raw_wine.data
y = raw_wine.target

In [6]:
'''3. training, test data 분할'''

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [7]:
'''4. data 표준화'''

from sklearn.preprocessing import StandardScaler

std_scale = StandardScaler()  # 사용할 표준화 스케일러를 지정
std_scale.fit(X_train)

X_train_std = std_scale.transform(X_train)
X_test_std = std_scale.transform(X_test)

In [20]:
'''5. 데이터 학습 (fit)
: training data를 이용해 decision tree에 fit 시키는 단계'''

from sklearn import tree
clf_tree = tree.DecisionTreeClassifier(random_state=0)  # wine dataset은 분류문제 / 회귀문제는 tree.DecisionTreeRegressor 사용
clf_tree.fit(X_train_std, y_train)

DecisionTreeClassifier(random_state=0)

In [25]:
from sklearn.tree import DecisionTreeClassifier
tree_clf = DecisionTreeClassifier(max_depth=5)
tree_clf.fit(X_train_std, y_train)

DecisionTreeClassifier(max_depth=5)

In [9]:
'''6. 데이터 예측 (predict)
: test data를 이용해 훈련시킨 decision tree 모델로 predict하는 단계'''

pred_tree = clf_tree.predict(X_test_std)
print(pred_tree)

[0 2 1 0 1 1 0 2 1 1 2 2 0 1 2 1 0 0 2 0 1 0 1 1 1 1 1 1 1 2 0 0 1 0 0 0 2
 1 1 2 1 0 1 1 1]


In [10]:
'''7. F1 score 평가'''

from sklearn.metrics import f1_score

f1 = f1_score(y_test, pred_tree, average='macro')
print(f1)

0.9349141206870346


In [11]:
'''8. Confusion Matrix 확인'''

from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_test, pred_tree)
print(conf_matrix)

[[14  2  0]
 [ 0 20  1]
 [ 0  0  8]]


In [13]:
'''9. 분류 리포트 확인'''

from sklearn.metrics import classification_report

class_report = classification_report(y_test, pred_tree)
print(class_report)

              precision    recall  f1-score   support

           0       1.00      0.88      0.93        16
           1       0.91      0.95      0.93        21
           2       0.89      1.00      0.94         8

    accuracy                           0.93        45
   macro avg       0.93      0.94      0.93        45
weighted avg       0.94      0.93      0.93        45



In [15]:
'''10. 결정트리 시각화 (graphviz)'''

print(raw_wine.feature_names)

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


In [17]:
conda install python-graphviz

Collecting package metadata (current_repodata.json): ...working... done
Note: you may need to restart the kernel to use updated packages.
Solving environment: ...working... done


## Package Plan ##

  environment location: C:\Users\user\anaconda3

  added / updated specs:
    - python-graphviz


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    graphviz-2.38              |       hfd603c8_2        29.3 MB
    python-graphviz-0.16       |     pyhd3eb1b0_1          20 KB
    ------------------------------------------------------------
                                           Total:        29.3 MB

The following NEW packages will be INSTALLED:

  graphviz           pkgs/main/win-64::graphviz-2.38-hfd603c8_2
  python-graphviz    pkgs/main/noarch::python-graphviz-0.16-pyhd3eb1b0_1



Downloading and Extracting Packages

python-graphviz-0.16 | 20 KB     |            |   0% 
python-graphviz-0.1

In [27]:
from sklearn.tree import export_graphviz

export_graphviz(tree_clf, out_file = image_path("wine_tree.dot"), feature_names=raw_wine.feature_names, class_names=raw_wine.target_names, rounded=True, filled=True)

NameError: name 'image_path' is not defined

In [28]:
with open("wine_tree.dot", encoding='UTF8') as f:
     dot_graph = f.read()

g1 = graphviz.Source(dot_graph)
g1.render('a1', cleanup=True)

# C:\Users\user\tree.dot  에 워드파일로 저장

# C:\Users\user\a1.pdf  에 pdf파일로 저장

# https://pbj0812.tistory.com/204

FileNotFoundError: [Errno 2] No such file or directory: 'wine_tree.dot'