<a href="https://colab.research.google.com/github/NaYunJeong/K-Digital-Training-Class/blob/main/Aug09_1_DecisionTree.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Decision Tree (의사결정나무) = 가지치기

머신러닝 - 지도학습 - 분류

입력값에 대한 예측값을 나무 형태로 나타내주는 모델

데이터를 분류하거나 연속된 값을 예측하기 위해서 사용하는 트리(Tree) 구조의 모델

트리 구조는 사람이 이해하기 쉽고, 각 노드의 조건이 어떤 결정을 내리는지를 명확하게 보여줌

이 모델은 계층적인 방식으로 의사결정을 내리며, 각 단계에서 데이터를 특정 기준에 따라 나누는 과정을 통해서 최종 결과를 도출 => 데이터들의 분포를 나눠줌

데이터를 어떤 기준으로 분류했을 때 동일한 객체들로 잘 모아지게 할 수 있을까? 를 고려해서 분류기준을 찾는 것이 중요!

각 노드에서 데이터를 분할하는 일련의 의사결정 과정을 통해서 최종 결과를 도출

- 특징
  1. 알고리즘 해석이 쉬운 편
  2. 수치형, 범주(카테고리)형 데이터도 적용 가능 O
  3. 데이터 전처리 양이 적은 편

In [11]:
from sklearn import datasets

iris = datasets.load_iris()
print(iris.feature_names)   # feature (data, 열, columns) 이름
print(iris.target_names)    # target (label) 이름

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']


In [12]:
# scikit-learn이 제공하는 의사결정나무 모델 : DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier

In [13]:
feature = iris.data          # feature 가져오기
labels = iris.target         # label 가져오기 (iris 품종 데이터)

p_feature = feature[:, 2:]   # 붓꽃 꽃잎의 길이와 넓이

iris_tree = DecisionTreeClassifier(criterion='entropy', max_depth=3)
# DecisionTreeClassifier : 의사결정나무 모델
# criterion='entropy' : 엔트로피를 불순도 계산방법으로 적용
#   엔트로피(entropy) : 혼잡도, 학습 시작 단계에서는 분류할 것들이 많아서 엔트로피가 높은 상태
#                       하나씩 정리해가면서 엔트로피를 줄여 최종적으로 0에 가깝게 만드는 방식
# criterion='gini'  (default) : 분류를 잘못할 확률을 최소화 하기 위한 목적
#  > 분할이 가능한 모든 방법을 지니계수를 확인 > 가장 낮은 것을 선택하는 방식
#   지니계수 : 얼마나 불확실한가에 대한 지표로 0에 가까워질수록
#   불확실성이 0에 가까워지는 것으로 => 같은 특성을 가진 개체들끼리 잘 모여있다는 뜻 !

# max_depth = 3     : 깊이 (몇 단계로 나눠서 표현할 지)
#   노드 (Node) : 데이터의 분기나 결정이 이루어지는 지점
#       첫 시작점인 루트 노드(Root Node) , 중간 지점인 내부 노드(Internal Node), 최종 지점인 리프 노드(Leaf Node)로 구분
#   나무(모델)의 깊이 : 루트노드에서 시작해서 리프 노드까지 이르는 경로에서 거쳐가는 노드의 단계의 수를 의미
#   깊이를 제한하는 옵션으로, Tree가 지나치게 깊어지는 것을 방지!
#   깊이를 제한하지 않으면 Tree에는 데이터가 과도하게 적합(overfitting)하게 될 가능성 O
#   반대로 깊이가 얕은 Tree에는 학습이 덜 된 상태(underfitting)가 될 가능성 O
#   깊이를 적절히 제한하면 모델의 복잡도를 줄이고, 과적합을 방지해 더 나은 성능을 기대 O!

# 어떤 기준으로 분류를 하는가에 따라서 tree모양도 변하고, 깊이도 달라짐

# 독립변수 : 원인 / (시험지)
# 종속변수 : 결과 / (답안지)
# 종속변수는 독립변수에 의해 영향을 받는다
iris_tree.fit(p_feature, labels)  # .fit(독립변수, 종속변수)

In [14]:
# dot파일 만들기
from sklearn import tree
with open('iris.dot', mode='w') as f:
  tree.export_graphviz(iris_tree, out_file=f)
# graphviz : 코드의 구조를 다이어그램 형태의 그림으로 표현해주는 도구
# out_file : 파일 or 문자열로 반환

dot -Tpng [dot파일명].dot -o [만들png파일명].png


In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
from subprocess import check_call

iris = load_iris()  # iris dataset 가져오기
x = iris.data[:, 2:]  # 붓꽃 꽃임의 길이, 넓이
y = iris.target       # iris의 label

tree = DecisionTreeClassifier(max_depth=4)
tree.fit(x, y)

export_graphviz(
    tree,                       # 학습시킨 모델(모형)
    out_file='./iris2.dot',     # dot 파일 저장 경로 설정
    feature_names = iris.feature_names[2:],  # 사용한 열(feature, columns) 이름
    class_names = iris.target_names,        # 예측할  target class 이름
    filled = True,              # 사각형 안에 색 채우기
    rounded = True              # 사각형 모서리를 둥글게
)

# png로 바꿔서 시각화
# dot -Tpng iris2.dot -o iris.png
from subprocess import check_call
check_call(
    ['dot', '-Tpng', 'iris2.dot', '-o', 'iris.png']
)
# check_call : 에러가 발생하면 에러를 return

# dot : Graphviz 도구 중 하나인 dot 명령어, 그래프를 그림 형식으로 변환할 때 사용
# -Tpng : 출력 파일의 형식을 지정하는 옵션
# iris2.dot : 변환하고자 하는 입력 파일
# -o : 출력 파일의 이름을 지정하기 위한 옵션
# iris.png : -o 옵션에 의해 지정된 출력 파일의 이름


0