# Ganho de Informação

É a redução esperada da entropia da base devido a "classificação" de acordo com um determinado atributo de entrada

In [1]:
from IPython.display import Math
Math(r'InfoGain(X, Y) = Entropia(Y) - Entropia(X|Y)')

<IPython.core.display.Math object>

Onde
    - InfoGain é o ganho de informação
    - Entropia(Y) é a entropia da base de dados calculada usando o atributo alvo Y  
    - Entropia(X|Y) representa o valor da entropia da variável alvo Y considerando a variável X.

## Medindo a Entropia(X|Y)

A equação abaixo exibe a fórmula de cálculo da Entropia(X|Y)

In [2]:
from IPython.display import Math
Math(r'Entropia(X|Y) = {-\sum \limits _{j=1} ^{K} \frac{N_{j}}{N} * H(Y_{j})}')

<IPython.core.display.Math object>

Onde
    - K é o número de valores distintos da variável X
    - Nj é o número de registros que tem o valor da variável X igual ao valor indicado pelo indice j
    - H(Yj) é a entropia da base de dados usando apenas os registros filtrados por Nj

# Exemplo

In [3]:
import pandas as pd
import numpy as np

In [4]:
dados = pd.read_csv('InfoGain_dataset.txt')

In [5]:
dados

Unnamed: 0,Sexo,Classe
0,Masculino,BOM
1,Feminino,BOM
2,Masculino,MAU
3,Feminino,BOM
4,Feminino,MAU
5,Masculino,BOM
6,Masculino,BOM
7,Masculino,MAU
8,Feminino,BOM
9,Masculino,MAU


## Funções Auxiliares

In [6]:
def get_qtds(data):
    qtd_total = data.shape[0]
    qtd_bons  = data[data['Classe'] == 'BOM'].shape[0]
    qtd_maus  = data[data['Classe'] == 'MAU'].shape[0]
    return qtd_total, qtd_bons, qtd_maus

In [7]:
def get_entropia(qtd_total, qtd_class1, qtd_class2):
    p1 = qtd_class1 / qtd_total
    p2 = qtd_class2 / qtd_total
    return -1 * (p1*np.log2(p1) + p2*np.log2(p2))

### Entropia da Base: H(Y)

In [8]:
total, qtd_class1, qtd_class2 = get_qtds(dados)
Entropia_Base = get_entropia(total, qtd_class1, qtd_class2)
Entropia_Base

0.9402859586706311

### Entropia do atributo: H(X|Y)

In [9]:
# Filtrando os dados
dados_Mas = dados[dados['Sexo'] == 'Masculino']
dados_Fem = dados[dados['Sexo'] == 'Feminino']

In [10]:
# Recuperando os totais
total_M, qtd_class1_M, qtd_class2_M = get_qtds(dados_Mas)
total_F, qtd_class1_F, qtd_class2_F = get_qtds(dados_Fem)

In [11]:
# Aplicando a fórmulo da Entropia H(X|Y)
partM = total_M/total * get_entropia(total_M, qtd_class1_M, qtd_class2_M)
partF = total_F/total * get_entropia(total_F, qtd_class1_F, qtd_class2_F)
Entropia_Sexo = (partM + partF)
Entropia_Sexo

0.7884504573082896

### Ganho de Informação do atributo sexo

In [12]:
InfoGain = Entropia_Base - Entropia_Sexo
InfoGain

0.15183550136234159