## __결정 트리__
---

트리구조를 따라 참/거짓(혹은 그 이상)에 의하여 샘플을 분류하는 각 노드의 기준을 찾는 지도학습 기법입니다.  
분류에 주로 쓰이지만, 클래스가 아닌 특정 값을 예측하는 회귀로도 사용될 수 있습니다.  

시각화 시 기준을 직관적으로 눈으로 볼 수 있어, 모델의 해석이 쉽습니다. _이를 <b>화이트박스</b>기법이라고 합니다._  
> `sklearn.tree.plot_tree()`  

하지만 데이터의 회전(선형변환)에 따라 경계가 어그러지기 쉬워 PCA(8장) 등을 사용해야 합니다.  
또한 훈련데이터의 작은 변화에도 모델이 완전히 변할 수 있을 정도로 민감합니다.  

### __불순도__
불순도는 분류된 집합이 얼마나 순순한지를 나타내는 지표로 0이면 완벽히 분류하였다는 의미입니다.  

분류에 사용되는 아래 두 불순도는 비슷한 결과를 내지만, 지니가 미세하게 빠르고, 엔트로피가 조금 더 균형있는 트리를 만듭니다.  
> 지니지수: $G = 1 - \sum{P_k}^2$    
 엔트로피: $E = -\sum{P_{k}log_{2}(P_k)}$  
    ($P_k$는 각 클래스의 비율입니다)

    
### __CART 알고리즘__
`sklearn`의 이진 결정트리 학습 알고리즘으로, 아래와 같이 샘플 갯수에 비중을 두어 불순도를 최소화 합니다.  
> $loss = {m_{left} \over m}G_{left} + {m_{right} \over m}G_{right}$  
(m은 샘플 갯수, g는 지니지수)  
(회귀의 경우 MSE를 사용합니다.)

CART는 그리디 알고리즘으로, 빠르게 괜찮은 성능에 도달하지만 최적의 해를 보장하지 않습니다.  

### __계산 복잡도__
훈련 시 각 노드에서 모든 샘플의 모든 특성을 비교하기 때문에 $O(n*mlog_{2}(m))$으로, 데이터가 크면 느립니다.  
하지만 예측의 경우 특성수와 무관하게 $O(log_{2}(m))$으로 빠릅니다.  

### __규제__
결정 트리는 훈련 데이터에 대한 조건도 거의 없고, 모델의 파라미터 수가 결정되지 않고 훈련되는 <b>비파라미터 모델</b>으로, 과대적합이 되기 쉽습니다.  

기본적으로 최대 깊이로 규제를 하고, 노드의 최소 샘플 수, 분할에 사용할 특성 수 등으로 규제할 수 있습니다.  
<b>가지치기 알고리즘</b>은 규제없이 훈련한 뒤에, 통계적 검정을 통해 우연적인(불필요한) 노드를 지우는 알고리즘입니다.  
