---
# Chapter 6 Decision Tree

- SVM 과 같이 분류와 회귀작업 그리고 다중출력도 가능한 머신러닝 알고리즘
- 매우 복잡한 데이터셋도 학습할 수 있는 강력한 알고리즘


---
## 분류 모델의 학습

- `sample` : 적용된 훈련 샘플의 갯수
- `value` : 해당 노드에 존재하는 각 **클래스별** 훈렴 샘플 
- `gini` : 해당 노드의 순수도를 나타내는 **불순도**
- `class` : 분류된 class


> 붓꽃 데이터의 결정 트리
>
>![image.png](attachment:dd8ff2b2-2155-4b30-8455-d5797bd66533.png)

> 결정 트리의 결정 경계
>
>![image.png](attachment:32140ba7-2d62-4fbc-ab53-94d159e70c12.png)


### 클래스 확률 추정
- 분류된 트리를 기준으로 샘플의 **클래스를 추정**


- 붓꽃 데이터의 클래스 확률 추정

![image.png](attachment:daedadc6-34ef-48a3-a58f-3c59ef39ad9d.png)
   - Iris-Setosa : 0% (0/54)
   - Iris-Versicolor : **90.7% (49/54)**
   - Iris-Virginica : 9.3% (5/54)


###  불순도
- 해당 노드의 순수도를 나타냄
- 기본적으로 지니불순도를 사용
- 어느값을 사용하든 실제로는 큰 차이가 없음

   - ${p_{i,k}}$ :i 번째 노드에 있는 k클래스의 비율  

**지니 불순도**

$
G_i = 1 - \sum\limits_{k=1}^{n}{{p_{i,k}}^2}
$

**엔트로피 불순도**

$
H_i = -\sum\limits_{k=1 \atop p_{i,k} \ne 0}^{n}{{p_{i,k}}\log_2(p_{i,k})}
$


#### 예시
- 지니불순도 

![image.png](attachment:63a33eb1-e765-41b0-b78e-01a75b6c2074.png)

- 엔트로피 불순도

![image.png](attachment:1381bfc1-a59a-48ac-beb6-4079c42659aa.png)

### CART 훈련 알고리즘
- 훈련 세트를 하나의 특성 $k$의 임계값$t_k$ 을 사용해 두개의 세브셋으로 나눕니다.
- 이때  $k$와 $t_k$를 고르기 위해 비용함수 **CART**를 이용합니다.
- 이와 같은 과정을 반복하여 최대 깊이가 되거나 불순도를 줄이는 분할을 찾을수 없을때 중지

**CART 비용 함수**

$
\begin{split}
&J(k, t_k) = \dfrac{m_{\text{left}}}{m}G_\text{left} + \dfrac{m_{\text{right}}}{m}G_{\text{right}}\\
&\text{여기에서 }\begin{cases}
G_\text{left/right} \text{는 왼쪽/오른쪽 서브셋의 불순도}\\
m_\text{left/right} \text{는 왼쪽/오른쪽 서브셋의 샘플 수}
\end{cases}
\end{split}
$





---
## 규제


### 비파라미터 모델
- 훈련데이터에 대한 제약사항이 거의 없다.
- 훈련되는 과정에서 파라미터의 수가 결정되는 **비파라미터모델**


- 다항 회귀 모델과 비교

![image.png](attachment:113da55a-7fc0-4671-86bd-278ca8d812ac.png) ![image.png](attachment:5e163d54-a594-43a5-bfc2-c9044a3b71c1.png)


#### 규제하는 매개변수

- 대표적으로 max_depth를 통해 트리의 깊이를 제어합니다.
- 여러 매개변수를 통해 결정트리를 제한합니다.
   - min_samples_split
   - min_samples_leaf
   - min_weight_fraction_leaf
   - max_leaf_nodes
   - max_features
* min_으로 시작하는 매개변수를 증가시키거나 max_로 시작하는 매개변수를 감소시키면 모델에 규제가 커집니다.


#### min_samples_leaf = 4 로 규제한 결정트리 
![image.png](attachment:e0fe73b0-1f2e-468f-b2de-b23a5a703ada.png)


---
## 회귀 문제
- 결정트리는 회귀문제에도 사용할 수 있습니다.

   - `sample` : 적용된 훈련 샘플의 갯수
   - `value` : 해당 노드에 존재하는 훈련샘플의 평균
   - `mse` : 해당 노드의 훈련샘플에대한 평균제곱오차(MSE)


> 회귀 결정 트리
>
>![image.png](attachment:4ef4e40a-e934-4295-9246-4cfe7105e71b.png)

> 두개의 결정트리 회귀 모델의 예측
>![image.png](attachment:547fd8c2-9faa-4151-92db-fe8609983a23.png)

####  결정 트리 회귀 모델의 규제
- 회귀 모델도 분류 모델과 같이 규제를 통해 과대적합을 방지한다.
![image.png](attachment:8bfe6c3d-4876-4a22-bb92-b9ebcf6bf5d6.png)

#### 회귀를 위한  CART 비용함수
- 분류에서는 불순도, 회귀에서는 MSE를 사용하기에 조금 다른 모습을 갖는다.

![image.png](attachment:96387ca3-b373-43a3-a178-8d197a9c39ae.png)

---
## 단점


### 훈련 세트의 회전에 민감한 결정트리
- 결정 트리는 계단 모양의 결정경계를 이루기 때문에 훈련세트의 회전에 민감하다.
- 오른쪽 모델의 경우 일반화에 문제가 있어보인다.



      - 45도 회전한 데이터셋을 이용한 결정 트리
![image.png](attachment:6312ad8e-e0f9-4ee9-95be-40c6e613f261.png)

### 훈련 데이터의 작은 변화에도 민감한 결정트리
- 결정트리는 훈련데이터에 있는 작은 변화에도 민감하다.


    -  Iris-Setosa class의 데이터를 모두 제거한후 학습한 결정 트리

![image.png](attachment:48bef27f-14e2-4b70-8ab8-d354e38ff8bc.png)

---
