## 0️⃣ Overview

#### 머신러닝의 학습 방법들

- Gradient descent based learning

- Probability theory based learning

- <span style = 'background-color :#ffdce0' >Information theory based learning</span>  
    : 이 방법을 사용하는 것이 Decision Tree  
    
    Ex) Akinator : 스무고개로 유명인, 캐릭터를 맞추는 게임, 트리형태로 구성되어 있음
    
- Distance simlarity based learning

### ✔ Decision Tree Classifier
- Data를 가장 잘 구분할 수 있는 Tree를 구성함
- Data Y에 따라서 Y를 잘 표현할 수 있는 트리를 구성해서 분류해나가는 기법

### ✔ Decision Tree 만들기
- 어떤 질문(Attribute)이 가장 많은 해답(Y)을 줄 것인가?
- 결국 어떤 질문은 답의 모호성을 줄여줄 것인가?
- 문제를 통해서 splitting point을 설정  
    -> 남은 정보로 splitting point를 설정하는 식

Ex) 모호성을 줄여주는 예시  
- 답이 딱딱 나누어 떨어짐 => 모호성을 줄여줌
- 정확한 성능을 나타낼 수 있는 Tree

![ex1](./img/Ex1.PNG)
    

## 1️⃣ Information theory - Entropy

### ✔ Entropy
- 목적 달성을 위한 경우의 수를 정량적으로 표현하는 수치  
    $\Rightarrow$ 작을 수록 경우의 수가 적음

- Higher $\uparrow$  Entropy $\Rightarrow$ Higher uncertainty 불확실성 증가 $\uparrow$
- Lower $\downarrow$ Entropy $\Rightarrow$ Lower uncertainty 불확실성 감소 $\downarrow$

<span style = 'color : red'>Entropy가 작으면 얻을 수 있는 정보가 많다, 명확하다</span>

- $p_i$가 클수록 사건이 일어날 확률이 명확하다

##### $ h(D) = -\sum_{i=1}^m p_i log_2(p_i)$

h(D)의 값이 0에 가까워지면 Entropy는 $\downarrow$  
$\Rightarrow$ 불확실성이 $\downarrow$

확률이 1 $\rightarrow$ Entropy = 0  
확률이 작을수록 Entropy는 커진다  

![Entropy](./img/Entropy.PNG)

Ex) $m$ = 1,2,3  
$p_1 = 1$ $\Rightarrow$ $p_2 = p_3 = 0$  

$\Rightarrow$ h(D)에는 $p_1$만 남게되고, $h(D) = - p_1 log_2(p_1)$ 

이때, $log_2(p_1) = 0, -log_2(p_i) = 0 \Rightarrow h(D) = 0$  
$\Rightarrow$ Lower Entropy, Lower uncertainty

⚠ $p_i$의 값이 다양할 경우 $-log_2(p_i)$의 값은 증가 $\uparrow$  
$\Rightarrow$ 불확실성 $\uparrow$

Ex) No : 5개, Yes : 9개  

$\rightarrow h(D) = -\frac{9}{14} log_2\frac{9}{14} + -\frac{5}{14} log_2\frac{5}{14}  
= 0.940bits $ 

In [1]:
import numpy as np

In [2]:
x = np.array([9/14, 5/14])
y = np.log2(x)

-sum(x*y)

0.9402859586706311

## 2️⃣ Algorithms of Decision Tree
- Decision Tree 만드는 것을 시키는 알고리즘 필요

- 어떻게 하면 가장 잘 분기(branch)를 만들수 있는가?

- Data의 attribute를 기준으로 분기 생성 (어떤기준으로 나눌지)

- 어떤 attribute를 기준으로 했을 때 가장 Entropy가 작은가?

- 하나를 자른 후에 그 다음은 어떻게 할 것인가? 

- Decision Tree는 재귀적으로 생김  
: 큰 Attribute에서 sub attribute로 나눔

- 대산 라벨에 대해 어떤 Attribute가 더 확실한 정보를 제공하고 있는가?로 branch attribute를 선택

- 확실한 정보의 선택 기준은 알고리즘 별로 차이 발생

- Tree 생성 후 pruning을 통해 Tree generalization 시행  
( pruning : Overfitting을 방지하기 위해 가지치기하는 거 )

- 일반적으로 효율을 위해 Binary Tree 사용

### ✔ Decision Tree의 특징
- 비교적 간단, <span style = 'color : blue'>직관적으로 결과 표현</span>
- 훈련시간이 길고 메모리 공간을 많이 사용
- Top-down, Recursive, Divide and Conquer 기법  
Top-down : 위에서 아래로 내려가는 구조  
Recursive : 재귀적   
Divide and Conquer : 나눈 후에 또 다시 나누는 구조  

- Greedy 알고리즘 $\rightarrow$ 부분 최적화  
: 전체 optimization이 아닌 현재의 optimization을 찾음  
Ex) 주황에서도 최적화, 파랑에서도 최적화됨

![ex2](./img/Ex2.png)

### 💁‍♀️ Decision Tree의 장점
- 트리의 상단 부분 attribute들이 가장 중요한 예측변수  
$\Rightarrow$ attribute 선택 기법으로도 활용 가능

- Attribute의 scaling 필요 X
- 관측치의 절대값이 아닌 순서가 중요  
$\Rightarrow$ Outlier에 이점  
(Outlier : 정규분포에서 양극단에 있는 거)

- 자동적 변수 부분 선택 $\Leftarrow$ Tree Pruning 

### ✔ Algorithms of Decision Tree
- 크게 두가지 형태의 decision tree 알고리즘 존재  
    : 1. ID3, 2. CART

- 알고리즘 별 attribute branch 방법이 다름
- ID3 $\rightarrow$ C4.5(Ross Quinlan), CART
- 연속형 변수를 위한 regression tree도 존재 

## 3️⃣ ID3 & Information Gain

### ✔ Information Gain
- Entropy 함수를 도입하여 branch splitting
- Information Gain  
: Entropy를 사용하여 속성별 분류시 Impurity를 측정하는 지표

- (전체 Entropy - 속성별 Entropy)로 속셩별 Information Gain을 계산  
속성별 Entropy $\uparrow$ $\Rightarrow$ 복잡도 $\uparrow$  

$\Rightarrow$ 속성별 Entropy가 $\downarrow$ 속성을 선택해서 분기   
(가장 명확하게 데이터를 나눌 수 있음)

#### <span style = 'color : green'> 전체 데이터 D의 정보량 ( 전체 Information Gain )</span>
#### $Info(D) = -\sum_{i=1}^n P_i log_2(p_i)$

#### <span style = 'color : green'> 속성 A로 분류시 정보량 ( 속성 A의 Information Gain )</span>
#### $Info_A(D) = -\sum_{j=1}^v  \frac{\vert D_j \vert}{D} * Info(D_j)$
( j : 속성 A의 label,  Ex) j = red, blue )

#### <span style = 'color : green'> 속성 A의 정보 소득 </span>
#### $ <span style = 'background-color :#ffdce0' >Gain(A) = Info(D) - Info_A(D) $ </span>

$Gain(A) \downarrow $  
$\Rightarrow Info_A(D) \uparrow$   
$\Rightarrow$ 복잡도 $\uparrow$  

$\Rightarrow Info_A(D)$가 가장 $\downarrow$ , $Gain(A)\uparrow$ 선택

```
if 데이터 집합에 있는 모든 아이템이 같은 라벨임:
    분류 항목 표시를 반환 (Ex : buy_yes)

else:
    Find Best spllit_branch_attribute (Ex : attribute - age)
    해당 Attribute를 기준으로 dataset 분할
    Branch node 생성
        for each Branch
            branch_node.add(Recursive branch split)
    return branch node
```

### ✔ Growing a Decsion Tree

#### [ Age ] 👶🧑👧👵
#####  **$Gain(age)$** $= Info(D) - Info_{age}(D)$
##### **$Info_{age}(D)$** $= -\sum_{j=1}^v  \frac{\vert D_j \vert}{D} * Info(D_j)$

$ j \ni$ {youth, middle_age, senior}

Ex) $D_j$ : $ D_{youth} $= 5명, middle_age : 4명, senior   : 5명

##### **$Info_{age}(D)$**
##### = $\frac{5}{14} * (\frac{2}{5} log_2 \frac{2}{5} - \frac{3}{5} log_2 \frac{3}{5}) $ ;  age가 youth인 5명 중 yes : 2명, No : 3명
##### $+ \frac{4}{14} * (\frac{4}{4} log_2 \frac{4}{4} ) $
##### $+ \frac{5}{14} * (\frac{3}{5} log_2 \frac{3}{5} - \frac{2}{5} log_2 \frac{2}{5}) $

##### **$Info(D)$** $= -\frac{9}{14}(log_2 \frac{9}{14}) -\frac{5}{14}(log_2 \frac{5}{14})$

#### [ Credit ] 💳
$Gain(Credit) = Info(D) - Info_{Credit}(D)$

#### [ Income ] 💵💴💶
$Gain(Income) = Info(D) - Info_{Income}(D)$

#### [ Student ] 👩‍🎓👨‍🎓
$Gain(Student) = Info(D) - Info_{Student}(D)$




In [1]:
import pandas as pd
import numpy as np

In [2]:
pd_data = pd.read_csv('https://raw.githubusercontent.com/AugustLONG/ML01/master/01decisiontree/AllElectronics.csv')
pd_data.drop('RID', axis = 1)
pd_data

Unnamed: 0,RID,age,income,student,credit_rating,class_buys_computer
0,1,youth,high,no,fair,no
1,2,youth,high,no,excellent,no
2,3,middle_aged,high,no,fair,yes
3,4,senior,medium,no,fair,yes
4,5,senior,low,yes,fair,yes
5,6,senior,low,yes,excellent,no
6,7,middle_aged,low,yes,excellent,yes
7,8,youth,medium,no,fair,no
8,9,youth,low,yes,fair,yes
9,10,senior,medium,yes,fair,yes


In [3]:
buy = pd_data.loc[pd_data['class_buys_computer'] == 'yes']
not_buy = pd_data.loc[pd_data['class_buys_computer'] == 'no']

In [6]:
buy

Unnamed: 0,RID,age,income,student,credit_rating,class_buys_computer
2,3,middle_aged,high,no,fair,yes
3,4,senior,medium,no,fair,yes
4,5,senior,low,yes,fair,yes
6,7,middle_aged,low,yes,excellent,yes
8,9,youth,low,yes,fair,yes
9,10,senior,medium,yes,fair,yes
10,11,youth,medium,yes,excellent,yes
11,12,middle_aged,medium,no,excellent,yes
12,13,middle_aged,high,yes,fair,yes


In [7]:
not_buy

Unnamed: 0,RID,age,income,student,credit_rating,class_buys_computer
0,1,youth,high,no,fair,no
1,2,youth,high,no,excellent,no
5,6,senior,low,yes,excellent,no
7,8,youth,medium,no,fair,no
13,14,senior,medium,no,excellent,no


In [9]:
x = np.array([len(buy) / len(pd_data), len(not_buy) / len(pd_data)])
y = np.log2(x)

info_all = -sum( x * y)

x, y, info_all

(array([0.64285714, 0.35714286]),
 array([-0.63742992, -1.48542683]),
 0.9402859586706311)

$Info(D)$ 함수화 해보기

In [5]:
def get_info(df):
    buy = df.loc[df['class_buys_computer'] == 'yes']
    not_buy = df.loc[df['class_buys_computer'] == 'no']
    x = np.array([len(buy) / len(df), len(not_buy) / len(df)])
    y = np.log2(x[x!=0])

    info_all = -sum( x[x!=0] * y)
    return info_all

In [10]:
get_info(pd_data)

0.9402859586706311

Attribute 별 information gain 구하기

In [18]:
youth = pd_data.loc[pd_data['age'] == 'youth']
senior = pd_data.loc[pd_data['age'] == 'senior']
middle_aged = pd_data.loc[pd_data['age'] == 'middle_aged']

In [12]:
youth

Unnamed: 0,RID,age,income,student,credit_rating,class_buys_computer
0,1,youth,high,no,fair,no
1,2,youth,high,no,excellent,no
7,8,youth,medium,no,fair,no
8,9,youth,low,yes,fair,yes
10,11,youth,medium,yes,excellent,yes


age = youth일 때의 Entropy

In [15]:
get_info(youth)

0.9709505944546686

In [13]:
senior

Unnamed: 0,RID,age,income,student,credit_rating,class_buys_computer
3,4,senior,medium,no,fair,yes
4,5,senior,low,yes,fair,yes
5,6,senior,low,yes,excellent,no
9,10,senior,medium,yes,fair,yes
13,14,senior,medium,no,excellent,no


In [16]:
get_info(senior)

0.9709505944546686

In [19]:
middle_aged

Unnamed: 0,RID,age,income,student,credit_rating,class_buys_computer
2,3,middle_aged,high,no,fair,yes
6,7,middle_aged,low,yes,excellent,yes
11,12,middle_aged,medium,no,excellent,yes
12,13,middle_aged,high,yes,fair,yes


In [20]:
get_info(middle_aged)

-0.0

각 속성별 Entropy 함수화하기

In [21]:
def get_attribute_info(df, attribute_name) :
    # Ex) attribute_name : age
    
    attribute_values = df[attribute_name].unique()
    # attribute_values = youth, middle_age, senior
    print(attribute_values)
    
    get_infos = []

    for value in attribute_values:
        split_df = df.loc[df[attribute_name] == value]

        get_infos.append( (len(split_df) / len(df)) * get_info(split_df))

    return sum(get_infos)

In [22]:
get_attribute_info(pd_data, 'age')

['youth' 'middle_aged' 'senior']


0.6935361388961918

### 최종적으로 Information Gain의 값
$ Gain(age) = Info(D) - Info_{age}(D) $

In [23]:
get_info(pd_data) - get_attribute_info(pd_data, 'age')

['youth' 'middle_aged' 'senior']


0.24674981977443933

$ Gain(credit) = Info(D) - Info_{credit}(D) $

In [27]:
get_info(pd_data) - get_attribute_info(pd_data, 'credit_rating')

['fair' 'excellent']


0.04812703040826949

$ Gain(income) = Info(D) - Info_{income}(D) $

In [24]:
get_info(pd_data) - get_attribute_info(pd_data, 'income')

['high' 'medium' 'low']


0.02922256565895487

$ Gain(student) = Info(D) - Info_{student}(D) $

In [25]:
get_info(pd_data) - get_attribute_info(pd_data, 'student')

['no' 'yes']


0.15183550136234159

위의 4가지 속성 중 가장 큰 Gain의 Attribute는 Age인 것을 볼 수 있다.  
= Age의 Entropy가 가장 작다 = 헷가리는 것이 작다. = 먼저 분류할 Attribute

![branch](https://ifh.cc/g/JXRamt.jpg)