In [1]:
import pandas as pd 
import numpy as np

df = pd.read_csv('https://raw.githubusercontent.com/AugustLONG/ML01/master/01decisiontree/AllElectronics.csv')
df.drop("RID",axis=1, inplace = True) #RID는 그냥 Index라서 삭제

In [2]:
df

Unnamed: 0,age,income,student,credit_rating,class_buys_computer
0,youth,high,no,fair,no
1,youth,high,no,excellent,no
2,middle_aged,high,no,fair,yes
3,senior,medium,no,fair,yes
4,senior,low,yes,fair,yes
5,senior,low,yes,excellent,no
6,middle_aged,low,yes,excellent,yes
7,youth,medium,no,fair,no
8,youth,low,yes,fair,yes
9,senior,medium,yes,fair,yes


## 함수 만들기

In [3]:
def getEntropy(df, feature) :
    
    entropy = 0    
    x = df[feature].value_counts() # 각 feature에서 각각의 범주의 개수를 구한다 
    
    for i in x:
        p = i/len(df) # 범주에서의 확률값을 구해서 
        entropy -= p * np.log2(p) # 엔트로피를 구한다 
        
    return(entropy)

In [4]:
getEntropy(df, "class_buys_computer")

0.9402859586706311

In [6]:
def getGainA(df, feature) :
    info_D = getEntropy(df, feature) # 목표변수 Feature에 대한 Info(Entropy)를 구한다.
    columns = list(df.loc[:, df.columns != feature]) # 목표변수를 제외한 나머지 설명변수들을 리스트 형태로 저장한다.
    
    
    gains = []
    
    for col in columns: 
        info_Di = 0
        x = df[col].value_counts() # 각각 col에서의 value_counts를 구해서 x에 할당한다 
        
        for i in x.index: # value_counts의 index 값을 이용한다 
            df_new = df.loc[df[col] == i] # 각각 범주에 해당하는 new dataframe을 만든다 
            df_new_p = len(df_new) / len(df) # 이 때의 확률값을 구한다 
            
            info_Di += df_new_p * getEntropy(df_new, "class_buys_computer") # 확률값과 엔트로피를 곱해서, info_Di에 더한다 

        gains.append(info_D - info_Di) # 전체 info_D 에서 info_Di를 뺀 값을 gain에 할당한다 
    
    
    result = dict(zip(columns,gains)) # 각 변수에 대한 Information Gain 을 Dictionary 형태로 저장한다.
    
    return result

In [7]:
getGainA(df, "class_buys_computer")

{'age': 0.24674981977443933,
 'income': 0.02922256565895487,
 'student': 0.15183550136234159,
 'credit_rating': 0.04812703040826949}

## 결과 확인하기

In [8]:
my_dict = getGainA(df, "class_buys_computer")
def f1(x):
    return my_dict[x]
key_max = max(my_dict.keys(), key=f1)
print('정보 획득이 가장 높은 변수는',key_max, "이며 정보 획득량은", my_dict[key_max], "이다.")

정보 획득이 가장 높은 변수는 age 이며 정보 획득량은 0.24674981977443933 이다.
