# Entropia 

produzido por : Leandro G. M. Alvim, DCC/UFRRJ 

$H(X) = -\sum_i^{n}{ P(x_i)log_2(P(x_i))} $

Entropia é um conceito muito estudado e antigo que vem da termodinâmica introduzido por Rudolf Clausius. Em 1948, foi abordado no campo da teoria da informação por Claude Shannon no trabalho intitulado $\textit{A Mathematical Theory of Communication}$. Veremos aqui o conceito de entropia de Shanon.

Podemos entender a entropia de duas formas: como medida de incerteza ou como medida de impureza. Ambas estas medidas estão associadas à previsão.

Vejamos um exemplo que associa estes conceitos:

Exemplo 1)

Imagine que você tenha uma bacia com duas substâncias que não se misturam, água e óleo, e você queira tirar uma amostra (num copo) desta bacia, com a condição de que uma amostra só é válida quando só existe uma substância. Desta forma, as possibilidades são duas: o copo ter somente óleo ou o copo ter somente água. Imagine agora que você queira desenvolver um sistema que faça uma previsão de qual substância existe na sua amostra: água ou óleo.

Bom, podemos notar que nosso sistema é limitado às condições de mistura de óleo e água da bacia. Por exemplo, se a bacia apresenta 50% de óleo e água (impureza máxima), é impossível prever com qualidade a substância. Desta forma, a entropia  é alta (incerteza é alta). 

Agora imagine que nesta bacia temos apenas água. Com apenas aǵua (impureza baixa), prever a substância da amostra fica fácil. Ou seja, a incerteza é reduzida a zero.

Exemplo 2)

Caso 1) Imagine que você deseja saber aonde um professor está localizado na instituição e existe uma probabilidade igual dele estar em quaisquer uma das salas do instituto. Difícil de encontrá-lo, não? Entropia alta (incerteza alta). 

Caso 2) Agora imagine que lhe dou uma informação acerca deste professor. Digo que ele está localizado no bloco de informática do instituto (existem 4 blocos). Sabemos agora que a incerteza (entropia) de encontrar este professor foi reduzida.

Como poderíamos quantificar esta incerteza?

Assumindo que existem oito salas por bloco, tal que são quatro blocos tal que só existe um andar. Resslatando, novamente, que os eventos são equiprováveis. Para o caso 1, em que ele pode estar em qualquer bloco ou sala, mediríamos a entropia como $log_2(N)$, tal que N é o número total de salas (estados). Desta forma, a incerteza corresponde a $log_2(32) = 5$. Já para o caso 2, onde sabemos que o professor se encontra no bloco de informática (8 salas possíveis), a entropia é $log_2(8) = 3$. Veja que interessante, A entropia foi reduzida quando lhe dei uma informação para o problema e o número de possibilidades reduziu a incerteza!

Bom, ok, mas e a fórmula com um somatório?

A fórmula abaixo, com um somatório, foi desenvolvida para trabalhar com eventos tanto equiprováveis quanto não-equiprováveis.

Vejamos como a fórmula se encaixa para esta situação de eventos equiprováveis:

Seja N o número de estados (salas), e sabendo que o professor se encontra no bloco de informática, tal que existe probabilidades iguais do professor em uma das oitos salas.

$H(X) = -\sum_i^{n}{ P(x_i)log_2(P(x_i))} = [-(1/8)*log_2(1/8) - (1/8)*log_2(1/8)... ]$

$= 8*[-(1/8)*log_2(1/8)] = -log_2(1/8) = -[log_2(1) -log_2(8)] = -[0 - 3] = 3$

Veja, chegamos ao mesmo resultado!

Agora, imagine que exista uma probabilidade maior deste mesmo professor estar em uma duas salas. 26%, 26% e 8%  nas demais salas.

$H(X) = -\sum_i^{n}{ P(x_i)log_2(P(x_i))} = [-2*(.26)*log_2(.26) - 6*(.08)*log_2(.08)] = 2.75$

Veja que interessante, com a informação de que duas salas são mais prováveis do que as demais, a incerteza (entropia) reduziu de 3 (caso equiprovável anterior) para 2.75!







In [3]:
import numpy as np
def H(X):
    
    entropy = 0
    for px in X:
        entropy -= px*np.log2(px)
    return entropy    
        
        

#### Exemplo da moeda não-viciada:  
Incerteza máxima. Impossível prever! Totalmente aleatório

In [27]:

H([.5,.5])

1.0

#### Exemplo da moeda extremamente viciada 
Incerteza baixa. Fácil prever!


In [16]:
H([.01,.99])

0.080793135895911181

#### Exemplo de Shannon: Canal Binário com Símbolos Equiprováveis
Imagine uma mensagem num canal binário, com possíveis símbolos $A$, $B$, $C$ e $D$ tal estes símbolos são equiprováveis $P(A)=P(B)=P(C)=P(D)$. Qual será a entropia? Impossível prever um símbolo! incerteza Máxima! curiosamente, o resultado é número médio de bits esperado se estas letras fossem transmitidas num canal. Para cada símbolo, a representação seria: $A=00$,$B=01$,$C=10$, $D=11$. Média $= 0.25*2 + 0.25*2 + 0.25*2 + 0.25*2$


In [47]:
H([1/4,1/4,1/4,1/4])

2.0

#### Exemplo de Shannon: Canal Binário com Símbolos Não Equiprováveis
imagine agora uma mensagem num canal binário, com possíveis símbolos $A$, $B$, $C$ e $D$ 
tal estes símbolos não são mais equiprováveis $P(A)=1/2$, $P(B)=1/4$, $P(C)=1/8$, $P(D)=1/8$. Qual será a entropia? 
Mais fácil de prever que o exemplo anterior, não?
Lembre-se de huffman. Símbolos mais frequentes possuem codificação menor que símbolos menos frequentes para minimizar o tamanho médio da informação. 
Como algumas são mais frequentes, consigo compactá-las para a seguinte forma: $A=0$, $B=10$, $C=110$, $D=111$. 
Curiosamente, o resultado é número médio de bits esperado se estas letras fossem transmitidas num canal.
A média = $.50*1+.25*2+0.125*3+0.125*3$ 
 


In [20]:

H([1/2,1/4,1/8,1/8])

1.75

#### Voltando a fórmula 
Sobre a interpretação de Shannon

$H(X) = -\sum_{i=1}^{n}{ P(x_i)log(P(x_i))} $ que significa a esperança da informação $H(X) = E(I(X)) = E[-log(P(X))]$
Assim, entendemos que $-log(P(X))$ mede a quantidade de informação e $P(X)$ informa com que frequência aquela informação ocorre. O somatório com as probabilidades acaba sendo uma média 

## Entropia Condicional
$H(Y|X) = \sum_{i=1}^{n}{ P(x_i)H(Y|x_i)} $ 

Traduzindo: queremos quantificar a entropia de Y, dado que X foi selecionado.

Nada mais é do que a esperaça (média) das entropias de $Y$ dado que $x_i$ ocorreu.
Vejamos um exemplo para os seguintes dados:

$
\begin{array}{rrrr} \hline
\textbf{Umidade} & \textbf{Tempo} & \textbf{Evento} \\ \hline
Alta & Sol & Não Choveu  \\ \hline
Alta & Sol &     Choveu  \\ \hline
Alta & Nublado & Choveu  \\ \hline
\end{array}$

#### Revisando Probabilidades $P(X)$
Sobre as probabilidades da umidade:

A probabilidade de umidade alta $P(Umidade=Alta)= 1$.


Sobre as probabilidades do tempo:

A probabilidade de estar sol $P(Tempo=Sol)= 1/3$ e de estar nublado $P(Tempo=Nublado)=2/3$.

Sobre as probabilidades do evento:

A probabilidade de chover $P(Evento=Chover)= 2/3$ e de não chover $P(Evento=NãoChover)=1/3$.

#### Revisando Probabilidades Condicionais $P(Y|X)$
Sobre as probabilidades do evento dado o tempo:

Para $Tempo=Sol$ temos:

A probabilidade de chover dado que está sol é $P(Evento=Chover|Tempo=Sol)= 0.5$.

A probabilidade de não chover dado que está sol é $P(Evento=NãoChover|Tempo=Sol)= 0.5$.

Para $Tempo=Nublado$ temos:

A probabilidade de chover dado que está nublado é $P(Evento=Chover|Tempo=Nublado)= 1$.

A probabilidade de não chover dado que está nublado é $P(Evento=NãoChover|Nublado)= 0$.

Para $Umidade=Alta$ temos:

A probabilidade de chover dado que está úmido é $P(Evento=Chover|Umidade=Alta)= 1$.

A probabilidade de não chover dado que está nublado é $P(Evento=NãoChover|Umidade=Alta)= 0$.




#### Qual o valor de atributo mais informativo?
O atributo Umidade não agrega nenhuma informação quanto a previsão de chuva!
Já o atributo tempo agrega alguma. Por exempo, quando está nublado, temos certeza (para esta amostra) de que vai chover!

#### Para tomar esta decisão precisamos medir o quanto cada atributo é informativo

Como cada atributo possui valores que podem ser distintos, vamos tirar a média da entropia para cada conjunto de valores.

Vejamos um exemplo para calcular $H(Evento|Tempo)$.

Temos que $H(Evento|Tempo) = P(Tempo=Sol)*H(Evento|Tempo=Sol) + P(Tempo=Nublado)*H(Evento|Tempo=Nublado) $




#### Calculando cada termo condicional separado

Calculamos $P(Tempo=Sol)*H(Evento|Tempo=Sol)$ como 

$= P(Tempo=Sol)[ -P(Evento=Chover|Tempo=Sol)*log(P(Evento=Chover|Tempo=Sol) - P(Evento=NãoChover|Tempo=Sol)*log(P(Evento=NãoChover|Tempo=Sol)] $

$= \frac{2}{3}[ -\frac{1}{2}*log(\frac{1}{2}) - \frac{1}{2}* log(\frac{1}{2})] = \frac{2}{3}*1 = \frac{2}{3}$

Ocorre em 2/3 na base (muito) e tem entropia alta 1!. Logo, tem um custo médio de informação de 2/3


Calculamos -P(Tempo=Nublado)*$H(Evento|Tempo=Nublado)$ como 

$= P(Tempo=Nublado)*[ -P(Evento=Chover|Tempo=Nublado)*log(P(Evento=Chover|Tempo=Nublado) - P(Evento=NãoChover|Tempo=Nublado)*log(P(Evento=NãoChover|Tempo=Nublado)] $

$= \frac{1}{3}*[ -1*log(1) - 0* log(0)] = \frac{1}{3}*0 = 0$

Ocorre em 1/3 na base (razoável) e tem entropia 0!. Quando ele aparece, temos certeza! Logo, tem um custo médio de informação de 0! 



#### Conclusão para o atributo tempo 

Agora vamos calcular em média quanto cada valor de atributo tem de custo de infomação (Quanto menor em média, melhor)

$H(Evento|Tempo) = \frac{2}{3} + 0 = \frac{2}{3} = 0.66$

O que gerou impureza no atributo tempo foi a incerteza do $Tempo=Sol$!

#### E qual será o valor de H(Evento|Umidade) ?

Temos que $H(Evento|Umidade) = P(Umidade=Alta)*H(Evento|Umidade=Alta) $


$= -P(Umidade=Alta)[ P(Evento=Chover|Umidade=Alta)*log(P(Evento=NãoChover|Umidade=Alta)] $

$= 1*[ -\frac{2}{3}*log(\frac{2}{3}) - \frac{1}{3}* log(\frac{1}{3})] = 1*(0.91) = 0.91$




#### Conclusão para o atributo umidade

Só existe um valor de atributo para umidade e que ocorre em 100% da base (muito). Este atributo não ajuda a decidir com relação se vai chover ou não. Por isso, sua entropia é alta (incerteza alta) 


## Ganho de Informação

$IG(Y|X) = H(Y) - H(Y|X)$

Quantifica o quanto de informação se ganha selecionando o atributo X como nó.
Em outras palavras, quanto o atributo X reduz de entropia (incerteza) com relaçao à variável Y.

Vejamos agora para o mesmo exemplo o $IG(Evento|Tempo)$ e $IG(Umidade|Tempo)$

$IG(Evento|Tempo) = H(Evento) - H(Evento|Tempo) = [-(1/3)*log(1/3)-(2/3)*log(2/3)] - 0.66 = 0.91 - 0.66  = 0.25 $

$IG(Evento|Umidade) = H(Evento) - H(Evento|Umidade) = [-(1/3)*log(1/3)-(2/3)*log(2/3)] - 0.66 = 0.91 - 0.91  = 0 $

## Conclusão sobre qual o melhor atributo

Veja que interessante $IG(Evento|Tempo)$ > $IG(Evento|Umidade)$, pois como vimos, umidade não agrega nada a informação do problema! Umidade possui incerteza tão alta quanto Tempo, não gerando nenhum ganho de informação. 