- 모든 알고리즘이 분류와 회귀를 가지고 있다.
- 그 중 분류는 tree, 회귀는 선형 알고리즘에 대해 알아볼 예정.
- 분류(Classification)는 학습 데이터로 주어진 데이터의 feature, label 값을 머신러닝 알고리즘으로 학습하여 모델을 생성한다. 해당 모델에 test(새로운 데이터) 값을 입력한 후 label 값을 예측하게 한다.
- 대표적인 분류 알고리즘
  - 결정 트리 (Decision Tree)
  - 앙상블 (Ensemble)

# 5. 트리 모델
- 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내는 트리 기반의 비선형 알고리즘 분류 규칙.
- 데이터의 분할 기준 규칙이 알고리즘 성능에 크게 작용한다.
- 이진트리 (binary tree) 라고도 한다.
- `Root Node` == 시작 규칙 노드
- `Rule Node` == 분류를 위해 규칙을 만들어 주는 노드
- `Leaf Node (Pure Node)` == 더 이상 분류를 위한 규칙을 마련할 수 없는 결정된 분류값이 들어있는 가장 마지막 노드 (분류 100% 완료 상태)
- `Branch (Sub Tree)` == 생성된 룰 노드에 의해 하위 트리가 만들어진 형태
- `Depth` == 서브 트리가 생성될수록 깊이가 증가하고, 질문의 깊이가 깊어질수록 질문이 많고 복잡해진다.

In [1]:
# 불필요한 경고 메시지 삭제

import warnings
warnings.filterwarnings('ignore')

## 데이터 불러오기

In [3]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(
  iris_data.data,
  iris_data.target,
  test_size=0.2,
  random_state=11
)

## 결정트리 모델 생성
- 트리는 균일함을 찾기 위한 과정을 학습한다.
- 정보 균일도 측정 방법
  - 정보 이득 (Information Gain)
  - 지니 계수
    - 0일수록 평등, 1일수록 불평등하다.
    - 지니 계수가 낮을수록 데이터 균일도가 높다. (엔트로피가 낮다.)
- 쉽고 직관적이라 선형 모델보다 훨씬 쉬운 게 트리 모델이다.
- 너무 세세하게 분류하려 하기 때문에 과대적합(Overfitting)으로 인해 알고리즘 성능이 떨어질 수 있기 때문에 모델 복잡도를 조절할 수 있도록 트리의 크기를 사전에 제한하는 튜닝이 필요하다. (하이퍼 파라미터 튜닝)
  - 너무 높거나 낮지 않은, 가장 일반적인 성능을 갖는 **일반화 지점** 을 찾아야한다.
- 결정 트리 주요 하이퍼 파라미터
  - `max_depth`
  - `max_features`⭐
  - `min_samples_split`⭐: 설정값보다 작으면 노드가 분할되지 않고 leaf node로 남게된다.
  - `min_samples_leaf`
  - `max_leaf`

In [4]:
# 하이퍼 파라미터를 지정하지 않으면 기본적으로 트리 모델은 과대적합 상태.
#   X_train에 들어있는 데이터를 학습한다.

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)

## Graphviz 시각화
- 트리 모델이 어떻게 훈련했는지 시각화한다.

In [8]:
from sklearn.tree import export_graphviz

export_graphviz(
    # 시각화할 모델
    dt_clf,
    # 시각화 결과물을 저장할 파일의 경로
    out_file='tree.dot',
    # 문자열로 된 각 클래스들의 이름을 가진 리스트
    class_names=iris_data.target_names,
    # 문자열로 된 각 특성들의 이름을 가진 리스트
    feature_names = iris_data.feature_names,
    impurity=True,
    filled=True
)

In [24]:
!pip install graphviz




[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [25]:
import graphviz

with open('tree.dot') as f:
  dot_graph = f.read()

graphviz.Source(dot_graph)

ExecutableNotFound: failed to execute WindowsPath('dot'), make sure the Graphviz executables are on your systems' PATH

<graphviz.sources.Source at 0x14baab43a90>