# Funções para calcular entropia

In [1]:
import numpy as np
import pandas as pd


def info(freq):
    freq = [x for x in freq if x != 0] # remove zeros
    if len(freq) == 0:                 # [0], [0,0], [0,0,0] etc têm informação 0
        return 0
    
    freq = np.array(freq, dtype=np.float)
    total = freq.sum()
    
    fracoes = freq/total
    logs = np.log2(fracoes)
    
    somatorio = (fracoes * logs).sum()
    
    return -somatorio


def infomedia(bins):
    contagem = 0
    for b in bins:
        contagem += sum(b)
        
    info_media = 0
    for b in bins:
        info_media += sum(b)/contagem * info(b)
    
    return info_media

def  ganho(ini, part):
    return info(ini) - infomedia(part)

def gr(ini, part):
    x = []
    for p in part:
        x.append(sum(p))

    print(f"info({ini}) = {info(ini)}")
    print(f"ganho: info({ini}) - info({part}) = {ganho(ini,part)}")
    print(f"split info: info({x}) = {info(x)}")
    print(f"gr = {ganho(ini,part)/info(x)}")
    return ganho(ini, part) / info(x)

A função `info([f1, f2, f3, ...])` calcula a quantidade de informação (entropia) de uma variável aleatória cujas frequências absolutas podem ser descritas em proporções de $f_1$, $f_2$, $f_3$, ...

Entropia de uma moeda honesta:

In [13]:
info([1,4,2])

1.3787834934861753

In [20]:
info([0,2,1])

0.9182958340544896

Entropia de um dado honesto de 6 lados:

In [4]:
info([1,1,1,1,1,1])

2.584962500721156

Entropia de um espaço de decisão que possui 9 exemplos de uma classe $c_1$ e 6 exemplos de uma classe $c_2$:

In [5]:
info([9,6])

0.9709505944546686

A função `infomedia([bin1, bin2, bin3, ..., binN])` pode ser usada para calcular a informação de uma divisão que produz $N$ sub-espaços.

Exemplo. Informação média dos sub-espaço gerados pelo atributo `temperatura` na raiz do conjunto de dados `tennis`:

                    temperatura
                        |
        quente          |moderado          frio
       .-------------------------------------.               
       |                |                    |
    [2, 2]           [4, 2]              [3, 1]

$\text{info}([3,1], [2,3])$:

In [6]:
infomedia([[2,2], [4,2], [3,1]])

0.9110633930116763

A função `ganho(original, [bin1,bin2,...])` é um atalho para `info(original) - infomedia([bin1,bin2,...])`.

Ganho do atributo `temperatura` na raiz do conjunto de dados `tennis`.

                    temperatura
                        |
        quente          |moderado          frio
       .-------------------------------------.               
       |                |                    |
    [2, 2]           [4, 2]              [3, 1]

In [7]:
ganho([2+4+3, 2+2+1], [[2,2], [4,2], [3,1]])

0.02922256565895487

Ganho do atributo `aparência` na raiz do conjunto de dados `tennis`.

                        aparência
                            |
        ensolarado          |nublado        chuvoso
       .-----------------------------------------.               
       |                    |                    |
    [2, 3]               [4, 0]                [3, 2]

## Testes

In [10]:
info([2, 3])

0.9709505944546686

In [4]:
info([1,1,1,1])

2.0

In [5]:
info([2,1,1,0])

1.5