### **Decision Tree**

**[Probability Overview]** - 머신러닝의 학습방법들
- Gradient descent based learning
- Probability theory based learning
- Information theory based learning - 이번에 배울거
- Distance similarity based learning

**[ Decision Tree Classifier ]**
- Data를 가장 잘 구분할 수 있는 Tree를 구성함
<br><br>
![img](https://ifh.cc/g/wrWpSY.jpg)

**[ Decision Tree만들기 ]**
- 어떤 질문(**Attribute**)이 가장 많은 해답(**Y**)을 줄 것인가?
- 결국 어떤 질문이 <span style = 'background-color: #fff5b1'>답의 모호성을 줄여</span>줄 것인가?
- 문제를 통해서 splitting point를 설정 $\rightarrow$ 남은 정보로 spliting point를 설정하는 식
<br><br><br>
![img](https://ifh.cc/g/aNQFWh.png)
- [ Decision Tree만들기 ]에 의하면 좌측의 트리가 더 답의 모호성을 줄여준다.

<br><br>
#### **Entrophy - Information theory**
- 목적 달성을 위한 경우의 수를 정량적으로 표현하는 수칙 $\rightarrow$ 작을수록 경우의 수가 적음
- Higher Entrophy $\rightarrow$ Higher uncertainty
- Lower Entrophy $\rightarrow$ Lower uncertainty\
$\therefore$ **Entropy가 작으면 얻을 수 있는 정보가 많다.**
<br><br><br>
> $h(D) = -\sum_{i=1}^m p_i log_2(p_i)$
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> $ where
> \begin{cases}
> D\,\,\,\,\, Data\, set \\
> p_i \,\,\,\,\, Probability\,\, of\,\, label\,\, i
> \end{cases}$
<br>

![img](https://ifh.cc/g/8h8RDs.png)
<br><br>
- $p_i$가 1에 가까워질수록 사건의 발생이 더 명확해짐을 뜻한다.
- (특정사건이 일어날 확률 $p_i$가 1에 가까워지면 다른 사건이 일어날 확률들은 그만큼 줄어들기 때문에)
- 따라서 $p_i$가 1에 가까워지면 entropy($h(D)$)는 0에 가까워진다.
- 다시말해, $p_i$의 값이 다양해질수록 $p_i log_2 (p_i)$는 감소되어 entropy($h(D)$)는 증가한다.
<br><br>
**확률이 1이면 Entropy 0**<br>
**확률이 작을수록 Entropy 커짐**<br>
**Entropy는 상대적인 개념**


**(예제)**<br><br>
![img](https://ifh.cc/g/fdzSg7.png)<br><br>

#### **Growing a Decision Tree**

**[ Growing a Decision Tree ]**
- Decision Tree를 성장(만드는) 시키는 **알고리즘**이 필요
- 어떻게하면 가장 잘 분기(branch)를 만들수 있을까?
- Data의 attribute를 기준으로 분기를 생성
- 어떤 attribute를 기준으로해야 가장 entropy가 작은가?
- 하나를 자른 후에 그 다음은 어떻게 할 것인가?


**예제**<br>

- 컴퓨터를 사는지 여부를 확인하는 데이터<br><br>
![img](https://ifh.cc/g/LybK23.png)
<br><br>
![img](https://ifh.cc/g/36KsQL.png)
1. 가장 entropy가 작게끔 Age - Middle_aged로 분기
2. 남은 데이터 상에서 entorpy가 작게 재귀적으로 분기

- Decision Tree는 **재귀적**으로 생김
- 대상 라벨에 대해 어떤 **Attribute**가 더 **확실한 정보**를 제공하고 있는가?로 branch attribute(Entropy, Gini 등)를 선택
- 확실한 정보의 선택 기준은 알고리즘별로 차이가 남
- Tree생성 후 prunning을 통해 Tree generalization 시행
- 일반적으로 효율을 위해 Binary Tree를 사용

**[ Decision Tree의 특징 ]**
- 비교적 간단하고 직관적으로 결과를 표현
- 훈련시간이 길고, 메모리 공간을 많이 사용함
- Top-down, Recursive, Divide and Conquer기법
- Greedy 알고리즘 -> 부분 최적화 

**[ Decision Tre의 장점 ]**
- 트리의 **상단** 부분 attribute들이 가장 중요한 예측변수 $\rightarrow$ attribute 선택 기법으로도 활용할 수 있음
- Attribute의 scailing이 필요없음
- 관측치의 절대값이 아닌 **순서**가 중요 $\rightarrow$ Outlier에 이점
- 자동적 변수 부분선택 $\leftarrow$ Tree prunning
<br><br><br>

#### **Algorithms of Decision Tree**

##### **ID3 & Information Gain**

**[ Information Gain ]**
- Entropy함수를 도입하여 branch splitting
- Information Gain : Entropy를 사용하여 속성별 분류시 **Impurity를 측정**하는 지표
- (전체 Entropy - 속성별 Entropy)로 속성별 Information Gain을 계산
- **속성별 Entropy가 낮은 attribute로 분기**

- 전체 데이터 D의 정보량
> $Info(D) = - \sum_{i=1}^n p_i log_2 (p_i)$
- 속성 A로 분류시 정보량
> $Info_A (D) = -\sum_{j=1}^v \frac{|D_j|}{|D|} * Info(D_j)$
- A 속성의 정보 소득
> $Gain(A) = Info(D) - Info_A (D)$