## Decision Tree  의사 결정 트리
+ Classification, Regression 모두 표현 가능한 지도학습 모델
+ 특정 기준 및 질문에 따라 데이터를 구분 Y/N
+ Start from Root Node ~ End with Terminal / Leaf Node

### Process
  1. 데이터를 구분할 수 있는 질문을 기준으로 나눈다.
  2. 1의 반복 with 주의할 점
####< 주의할 점 >
  * '1'을 너무 반복하면 Overfitting
  * 아무 Parameter 없이 모델링해도 Overfitting


#### 가지치기 (Pruning)
- 오버피팅을 막기 위한 전략 (Strategies to prevent Overfitting) 
- 최대 깊이 / 터미널 노드의 최대 개수 / 노드의 분할을 위한 최소 데이터 개수 등을 제한


### 불순도 (Impurity),  엔트로피(Entropy)

1. 불순도 (Impurity)
+ 특정 범주 안에 서로 다른 데이터들이 얼마나 섞여있는지에 대한 지표
##### <-> (반의어) 순도(Purity) = 특정 범주 안에 같은 데이터들이 얼마나 섞여있는지에 대한 지표
  

2. 엔트로피 (Entropy)
+ 불순도를 수치로 표현한 값
+ 엔트로피가 1이면, 불순도가 최대이다. (특정 범주 안에 데이터가 정확히 반/반 존재한다.)


3. 정보획득 (Information Gain)
+ 분기 이전의 엔트로피 - 분기 이후의 엔트로피 
+ Decision Tree는 정보획득을 최대화하는 목표로 학습이 진행된다.

In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [2]:
cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, stratify=cancer.target, random_state=42)
tree = DecisionTreeClassifier(random_state=0)
tree.fit(X_train, y_train)
print("훈련 세트 정확도: {:.3f}".format(tree.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(tree.score(X_test, y_test)))

훈련 세트 정확도: 1.000
테스트 세트 정확도: 0.937


In [3]:
tree = DecisionTreeClassifier(max_depth=4, random_state=0)
tree.fit(X_train, y_train)

print("훈련 세트 정확도: {:.3f}".format(tree.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(tree.score(X_test, y_test)))

훈련 세트 정확도: 0.988
테스트 세트 정확도: 0.951


In [4]:
tree = DecisionTreeClassifier(max_depth=8, random_state=0)
tree.fit(X_train, y_train)

print("훈련 세트 정확도: {:.3f}".format(tree.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(tree.score(X_test, y_test)))

훈련 세트 정확도: 1.000
테스트 세트 정확도: 0.937
