In [250]:
import math
import pandas as pd

In [251]:
# realiza o cálculo da entropia
def entropy(p):
    
    # se o valor for maio que zero, é possível computar o log
    if (p > 0):
        return p * math.log2(p)
    
    else:
        return 0
    
# calcula a entropia do dataset
def dataset_entropy(df):
    
    h = 0 # entropia
    
    # para cada classe do dataset, calcula a entropia e realiza a soma
    for item in df['class'].unique():
        
        # calcula a entropia para cada classe e realiza o somatório em h
        h += - entropy(df.loc[df['class'] == item].shape[0] / len(df))
        
    return h 

# calcula a entropia para cada atributo
def attribute_entropy(df, attribute, labels):

    # separa os valores distintos existentes no atributo da função em subsets
    subsets = df[attribute].unique()
    
    attrib_entropy = 0
    
    # para cada valor distinto do atributo
    for t in subsets:
        
        subset_entropy = 0
        
        # seleciona os atribudos iguais ao valor do iterador
        subset = df.loc[df[attribute] == t]
        
        # proporção entre o subset e o dataset
        p = subset.shape[0] / len(df)
        
        # para cada classe, calcula a entropia em relação ao subset e armanena o somatório
        for item in labels:
            subset_entropy += - entropy(subset.loc[subset['class'] == item].shape[0] / subset.shape[0])
        
        # a entropia do atributo é a soma da entropia de todos os subsets multiplicado pela variável p
        attrib_entropy += subset_entropy * p
        
    return attrib_entropy

In [252]:
# calcula o ganho de informação
def information_gain(df):
    
    # armazena a entropia do dataset
    h = dataset_entropy(df)
    
    # lista de características do dataset
    attributes = ['sepal length in cm', 'sepal width in cm', 'petal length in cm', 'petal width in cm']
    
    # lista de classes
    labels = df['class'].unique()
    
    # dicionário para armazenar os valores do ganho
    gain_dict = {}
    
    # para cada atributo, calcula-se sua entropia
    for att in attributes:
        gain_dict[att] = h - attribute_entropy(df, att, labels)
        
    return gain_dict

# captura o atributo com maior ganho de informação
# def max_information_gain():

In [253]:
def main():
    
    # leitura arquivo do dataset
    df = pd.read_csv('data/iris.data', header = None, encoding='utf-8')
    
    # definição de colunas
    df.columns = ['sepal length in cm', 'sepal width in cm', 'petal length in cm', 'petal width in cm' , 'class']
    
    # cálculo da entropia do dataset
    print('dataset entropy = ' + str(dataset_entropy(df)))
    
    # cálculo do ganho de informação
    gain_dict = information_gain(df)
    
    print('atributo com maior ganho de informação: ' + str(max(gain_dict)))
    
if __name__ == "__main__": main()

dataset entropy = 1.584962500721156
atributo com maior ganho de informação: sepal width in cm
