## 0️⃣ Overview

#### 머신러닝의 학습 방법들

- Gradient descent based learning

- Probability theory based learning

- <span style = 'background-color :#ffdce0' >Information theory based learning</span>  
    : 이 방법을 사용하는 것이 Decision Tree  
    
    Ex) Akinator : 스무고개로 유명인, 캐릭터를 맞추는 게임, 트리형태로 구성되어 있음
    
- Distance simlarity based learning

### Decision Tree Classifier
- Data를 가장 잘 구분할 수 있는 Tree를 구성함
- Data Y에 따라서 Y를 잘 표현할 수 있는 트리를 구성해서 분류해나가는 기법

### Decision Tree 만들기
- 어떤 질문(Attribute)이 가장 많은 해답(Y)을 줄 것인가?
- 결국 어떤 질문은 답의 모호성을 줄여줄 것인가?
- 문제를 통해서 splitting point을 설정  
    -> 남은 정보로 splitting point를 설정하는 식

Ex) 모호성을 줄여주는 예시  
- 답이 딱딱 나누어 떨어짐 => 모호성을 줄여줌
- 정확한 성능을 나타낼 수 있는 Tree

![ex1](./img/Ex1.PNG)
    

## 1️⃣ Information theory - Entropy

### Entropy
- 목적 달성을 위한 경우의 수를 정량적으로 표현하는 수치  
    $\Rightarrow$ 작을 수록 경우의 수가 적음

- Higher $\uparrow$  Entropy $\Rightarrow$ Higher uncertainty 불확실성 증가 $\uparrow$
- Lower $\downarrow$ Entropy $\Rightarrow$ Lower uncertainty 불확실성 감소 $\downarrow$

<span style = 'color : red'>Entropy가 작으면 얻을 수 있는 정보가 많다, 명확하다</span>

- $p_i$가 클수록 사건이 일어날 확률이 명확하다

##### $ h(D) = -\sum_{i=1}^m p_i log_2(p_i)$

h(D)의 값이 0에 가까워지면 Entropy는 $\downarrow$  
$\Rightarrow$ 불확실성이 $\downarrow$

확률이 1 $\rightarrow$ Entropy = 0  
확률이 작을수록 Entropy는 커진다  

![Entropy](./img/Entropy.PNG)

Ex) $m$ = 1,2,3  
$p_1 = 1$ $\Rightarrow$ $p_2 = p_3 = 0$  

$\Rightarrow$ h(D)에는 $p_1$만 남게되고, $h(D) = - p_1 log_2(p_1)$ 

이때, $log_2(p_1) = 0, -log_2(p_i) = 0 \Rightarrow h(D) = 0$  
$\Rightarrow$ Lower Entropy, Lower uncertainty

⚠ $p_i$의 값이 다양할 경우 $-log_2(p_i)$의 값은 증가 $\uparrow$  
$\Rightarrow$ 불확실성 $\uparrow$

Ex) No : 5개, Yes : 9개  

$\rightarrow h(D) = -\frac{9}{14} log_2\frac{9}{14} + -\frac{5}{14} log_2\frac{5}{14}  
= 0.940bits $ 

In [1]:
import numpy as np

In [2]:
x = np.array([9/14, 5/14])
y = np.log2(x)

-sum(x*y)

0.9402859586706311

## 2️⃣ Algorithms of Decision Tree
- Decision Tree 만드는 것을 시키는 알고리즘 필요

- 어떻게 하면 가장 잘 분기(branch)를 만들수 있는가?

- Data의 attribute를 기준으로 분기 생성 (어떤기준으로 나눌지)

- 어떤 attribute를 기준으로 했을 때 가장 Entropy가 작은가?

- 하나를 자른 후에 그 다음은 어떻게 할 것인가? 

- Decision Tree는 재귀적으로 생김  
: 큰 Attribute에서 sub attribute로 나눔

- 대산 라벨에 대해 어떤 Attribute가 더 확실한 정보를 제공하고 있는가?로 branch attribute를 선택

- 확실한 정보의 선택 기준은 알고리즘 별로 차이 발생

- Tree 생성 후 pruning을 통해 Tree generalization 시행  
( pruning : Overfitting을 방지하기 위해 가지치기하는 거 )

- 일반적으로 효율을 위해 Binary Tree 사용

### Decision Tree의 특징
- 비교적 간단, <span style = 'color : blue'>직관적으로 결과 표현</span>
- 훈련시간이 길고 메모리 공간을 많이 사용
- Top-down, Recursive, Divide and Conquer 기법  
Top-down : 위에서 아래로 내려가는 구조  
Recursive : 재귀적   
Divide and Conquer : 나눈 후에 또 다시 나누는 구조  

- Greedy 알고리즘 $\rightarrow$ 부분 최적화  
: 전체 optimization이 아닌 현재의 optimization을 찾음  
Ex) 주황에서도 최적화, 파랑에서도 최적화됨

![ex2](./img/Ex2.png)

### Decision Tree의 장점
- 트리의 상단 부분 attribute들이 가장 중요한 예측변수  
$\Rightarrow$ attribute 선택 기법으로도 활용 가능

- Attribute의 scaling 필요 X
- 관측치의 절대값이 아닌 순서가 중요  
$\Rightarrow$ Outlier에 이점  
(Outlier : 정규분포에서 양극단에 있는 거)

- 자동적 변수 부분 선택 $\Leftarrow$ Tree Pruning 

### Algorithms of Decision Tree
- 크게 두가지 형태의 decision tree 알고리즘 존재  
    : 1. ID3, 2. CART

- 알고리즘 별 attribute branch 방법이 다름
- ID3 $\rightarrow$ C4.5(Ross Quinlan), CART
- 연속형 변수를 위한 regression tree도 존재 