#### 결정 트리(Decision Tree)
- 매우 쉽고 유연하게 적용될 수 있는 알고리즘으로서 데이터의 스케일링, 정규화 등의 데이터 전처리의 의존도가 매우 적다.
- 학습을 통해 데이터에 있는 규칙을 자동으로 찾아내서 Tree기반의 분류 규칙을 만든다.
- 각 특성이 개별적으로 처리되어 데이터를 분할하는데 데이터의 스케일의 영향을 받지 않으므로 결정트리에서는 정규화나 표준화 같은 전처리 과정이 필요없다.
- 영향을 가장 많이 미치는 feature를 찾아낼 수도 있다.
- 예측 성능을 계속해서 향상시키면 복잡한 규칙 구조를 가지기 때문에 <sub>※</sub>과적합(Overfitting)이 발생해서 예측 성능이 저하될 수 도 있다.
- 가장 상위 노드를 "루트 노드"라고 하며, 나머지 분기점은 "서브 노드", 결정된 분류값 노드를 리프노드 "리프 노드"라고 한다.

<img src="./images/decision_tree.png"  width="550" style="margin: 20px 0 20px 20px">

- 복잡도를 감소시키는 것이 주목적이며, 정보의 복잡도를 불순도(Impurity)라고 한다.
- 이를 수치화한 값으로 지니 계수(Gini coefficient) 가 있다.
- 클래스가 섞이지 않고 분류가 잘 되었다면, 불순도 낮다.
- 클래스가 많이 섞여 있고 분류가 잘 안되었다면, 불순도 높다.
- 통계적 분산 정도를 정량화하여 표현한 값이고, 0, 1 사이의 값을 가진다.
- 지니 계수가 낮을 수록 분류가 잘 된 것이다.

<sub>과적합이란, 학습 데이터를 과하게 학습시켜서 실제 데이터에서는 오차가 오히려 증가하는 현상이다.

<img src="./images/overfitting.png"  width="550" style="margin-left:-10px">

#### Graphvisz
- 결정트리 모델을 시각화 할 수 있다.
- https://graphviz.org/download/
- graphviz-9.0.0 (64-bit) EXE installer [sha256]
- https://drive.google.com/file/d/1oCXidIjNAvUT2UcNFEdhRfFhnZ96iHrp/view?usp=sharing

In [1]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dtc = DecisionTreeClassifier()
iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=124)

dtc.fit(X_train, y_train)

In [2]:
from sklearn.tree import export_graphviz

export_graphviz(
    dtc, 
    out_file='./images/iris_dtc01.dot',
    class_names=iris.target_names,
    feature_names=iris.feature_names,
    impurity=True,
    filled=True
)

In [3]:
import graphviz

# with 메소드 as 객체명:
with open('./images/iris_dtc01.dot') as f:
    iris_dtc01 = f.read()

iris_dtc01_graph = graphviz.Source(iris_dtc01)


In [4]:
iris_dtc01_graph.render(filename="iris_dtc01", directory="./images", format="png")


ExecutableNotFound: failed to execute WindowsPath('dot'), make sure the Graphviz executables are on your systems' PATH