### Decision tree 
* 어떻게 분기를 시킬 것인가?
* 디시전 트리는 재귀적으로 생김
* 대상 라벨에 대해 어떤 피처가 더 확실한 정보를 제공하고 있는가? 로 분기속성 선택
* 오버피팅 방지하기 위해 프루닝
* 효율을 위해 bianray tree 사용

### 특징
* 직관적, 간단, 훈련시간이 길다

### 장점
* 스케일링 필요 없음, 가장 중요한 예측변수, 속성 선택기법으로 활용가능
* 자동적 변수 부분 선택
* 이상치에 이점

In [1]:
import pandas as pd 
import numpy as np 

In [2]:
pd_data = pd.read_csv('https://raw.githubusercontent.com/AugustLONG/ML01/master/01decisiontree/AllElectronics.csv')
pd_data.drop("RID",axis=1)
pd_data

Unnamed: 0,RID,age,income,student,credit_rating,class_buys_computer
0,1,youth,high,no,fair,no
1,2,youth,high,no,excellent,no
2,3,middle_aged,high,no,fair,yes
3,4,senior,medium,no,fair,yes
4,5,senior,low,yes,fair,yes
5,6,senior,low,yes,excellent,no
6,7,middle_aged,low,yes,excellent,yes
7,8,youth,medium,no,fair,no
8,9,youth,low,yes,fair,yes
9,10,senior,medium,yes,fair,yes


In [3]:
buy = pd_data.loc[pd_data['class_buys_computer'] == "yes"]
not_buy = pd_data.loc[pd_data['class_buys_computer'] == "no"]

In [4]:
x = np.array([len(buy)/len(pd_data),len(not_buy)/len(pd_data)])
y = np.log2(x)

info_all = - sum(x * y)
info_all

0.9402859586706311

#### information gain
* 엔트로피 함수를 도입하며 분기
* information gain을 사용하여 impurity를 측정하는 지표
* 전체 엔트로피 - 속성별 엔트로피로 속성별 information gain 측정

In [5]:
def get_info(df):
    buy = df.loc[df["class_buys_computer"]=="yes"]
    not_buy = df.loc[df["class_buys_computer"]=="no"]
    x = np.array([len(buy)/len(df),len(not_buy)/len(df)])
    y = np.log2(x[x!=0])
    

    info_all = - sum(x[x!=0] * y)
    return info_all

In [6]:
get_info(pd_data)

0.9402859586706311

In [7]:
youth = pd_data.loc[pd_data['age'] == "youth"]
senior = pd_data.loc[pd_data['age'] == "senior"]
middle_aged = pd_data.loc[pd_data['age'] == "middle_aged"]

In [8]:
get_info(youth)

0.9709505944546686

In [9]:
get_info(senior)

0.9709505944546686

In [10]:
get_info(middle_aged)

-0.0

* attribute 별로 인포메이션 게인 구하는 함수

In [11]:
def get_attribute_info(df, attribute_name):
    attribute_values = pd_data[attribute_name].unique()
    get_infos = []
    for value in attribute_values:
        split_df = pd_data.loc[pd_data[attribute_name] == value]
        
        get_infos.append((len(split_df) / len(df)) * get_info(split_df))
    
    return sum(get_infos)

In [12]:
get_attribute_info(pd_data, "age")

0.6935361388961918

#### 각 속성별로 Information gain 구하기 
* 값이 클수록 데이터를 잘 선택

In [13]:
get_info(pd_data) - get_attribute_info(pd_data, "age")

0.24674981977443933

In [14]:
get_info(pd_data) - get_attribute_info(pd_data, "income")

0.02922256565895487

In [15]:
get_info(pd_data) - get_attribute_info(pd_data, "student")

0.15183550136234159

In [16]:
get_info(pd_data) - get_attribute_info(pd_data, "credit_rating")

0.04812703040826949

In [17]:
youth = pd_data.loc[pd_data['age'] == "youth"]

In [18]:
get_info(youth) - get_attribute_info(youth, "income")

-1.580026905978025

In [19]:
get_info(youth) - get_attribute_info(youth, "student")

-1.2367106860085422

In [20]:
get_info(youth) - get_attribute_info(youth, "credit_rating")

-1.527094404679944