# Entropia de Shannon
---

Em um conceito de aprendizado de máquina como segmentação supervisionada, é importante compreender como é possível segmentar a população - divisão em grupos que diferem entre si - com respeito a uma variável de interesse que gostaríamos de prever ou estimar, encontrando ou selecionando variáveis importantes e com informação, sendo que, nesse caso, *informação é uma quantidade que reduz a incerteza acerca de algo*. 

Portanto, gostaríamos de encontrar um conjunto de atributos que possuem associação com a variável de interesse, ou seja, que são capazes de reduzir a incerteza acerca dessa variável, resultando em grupos que sejam os mais *puros* possíveis, ou seja, *homogêneos em função da variável resposta*.

Um dos critérios de segmentação mais comuns é o chamado *ganho de informação*, baseado em uma medida chamada *entropia*, medida de desordem de determinado conjunto, ou seja, quão impuro/misturado está um grupo da segmentação em respeito à variável de interesse.

### Caracterização da entropia e ganho de informação
---
Considere as medidas em um experimento aleatório através de um vetor aleatório $X = (X_1,X_2,...,X_n)$ com função de densidade de probabilidade $f$. Assim, toda informação acerca do experimento i.e. conhecimento probabilístico está contido na fdp $f$. 

Entretanto, na maioria dos casos, deseja-se caracterizar a informação acerca de experimentos com alguns números chave e.g. *valor esperado* ou *matriz de covariância* de $X$, os quais possuem informação acerca da *média* e *variabilidade* das medidas, respectivamente.

Outra medida de informação, advinda da Teoria da Informação, é a Entropia de Shannon, a qual caracteriza o número médio de bits necessários para transmitir uma mensagem de $X$ por um canal de comunicação binário. Entretanto, outra abordagem da informação é encontrada na estatísica: quão bem um parâmetro $\theta$ pode ser estimado em função de $X$ i.e. quanta informação acerca de $\theta$ está contida em $X$, expressa como:

$$entropia = -\sum_{i=1}^{n}p(x_i)log(p(x_i))$$

Sumarizando, a entropia é uma medida geral de desordem do conjunto, sendo, portanto, mínima quando existe desordem mínima (conjunto homogêneo) e máxima quando a desordem é máxima (conjunto heterogêneo igualmente misturado). Aqui é importante denotar que a é fechada em 0, mas aberta em 1, variando de acordo com o logaritmo utizado, sendo comum log na base 2 - medida em número de bits.

Agora, após caracterizar *entropia*, é importante conhecer qual o *ganho de infomação (information gain - IG)* que determinado atributo apresenta, ou seja, quanto um atributo melhora (decreasce) a entropia sobre um conjunto criado.

O IG é calculado após um split sobre uma variável, separando o chamado `conjunto mãe` em $k$ `conjuntos filho`, através da relação:

$$IG(mae,filho) = entropia(mae) - \bigg(p(filho_{esquerda})*entropia(filho_{esquerda}) + p(filho_{direita})*entropia(filho_{direita})\bigg)$$

Assim, após tanta teoria, a seguir é apresentado um exemplo passo a passo de como atributos podem reduzir a entropia, produzindo ganho de informação em relação a uma variável resposta.

Referências:
- **Simulation and the monte carlo method** -. 2nd ed. / Reuven Y. Rubinstein. Dirk P. Kroese. ISBN 978-0-470-1 7794-5.
- **Data Science for Business** by Foster Provost and Tom Fawcett. O’Reilly. Copyright 2013 Foster Provost and Tom Fawcett, ISBN 978-1-449-36132-7.


# Exemplo

- Importar bibliotecas:

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import entropy

np.random.seed(42)

- Criar variáveis independentes `A` e `B`, e variável dependente (variável resposta) `y`, sendo que:

    - `A`: quantitativa discreta
    - `B`: qualitativa ordinal
    - `y`: qualitativa binária

In [2]:
# criar variáveis
A = np.random.randint(0,20,50)
B = np.random.randint(0,3,50)
y = np.random.randint(0,2,50)

In [3]:
# mostrar as variáveis
A,B,y

(array([ 6, 19, 14, 10,  7,  6, 18, 10, 10,  3,  7,  2,  1, 11,  5,  1,  0,
        11, 11, 16,  9, 15, 14, 14, 18, 11, 19,  2,  4, 18,  6,  8,  6, 17,
         3, 13, 17,  8,  1, 19, 14,  6, 11,  7, 14,  2, 13, 16,  3, 17]),
 array([1, 1, 1, 1, 1, 1, 0, 2, 1, 1, 1, 1, 1, 1, 2, 2, 1, 2, 0, 1, 0, 0,
        1, 2, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 2, 2, 2, 0, 2, 2, 0,
        2, 0, 1, 2, 1, 0]),
 array([1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0,
        0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0,
        0, 1, 0, 1, 1, 1]))

- Criar dataframe do Pandas para facilitar análise, e mostrar 5 primeiras linhas:

In [4]:
# criar dataframe
df = pd.DataFrame(data={
    'A':A,
    'B':B,
    'y':y
})

In [5]:
# mostrar head
df.head()

Unnamed: 0,A,B,y
0,6,1,1
1,19,1,0
2,14,1,0
3,10,1,1
4,7,1,1


- Aqui, chamaremos o conjunto original de *conjunto mãe*, e realizaremos a segmentação do conjunto em função dos atributos em $k$ *conjuntos filho*, calculando o ganho de informação (*IG*) para cada atributo.



## Entropia para o `conjunto mãe`

Primeiramente, calculamos a entropia do conjunto mãe:

In [6]:
# calcular as proporções da variável resposta:
p0 = df['y'].value_counts()[0]/df.shape[0]
p1 = df['y'].value_counts()[1]/df.shape[0]

In [7]:
# calcular entropia do conjunto mãe
entropia_mae = -(p0*np.log2(p0) + p1*np.log2(p1))
entropia_mae

0.9814538950336537

- Nota-se que a entropia do *conjunto mãe* é alta, ou seja, o conjunto é bem impuro, com as classes da variável resposta homogêneas, como pode-se notar a seguir, onde a class 0 possui 29 instâncias (58% do total), e a class 1 possui 21 (42% do total):

In [8]:
df['y'].value_counts()

0    29
1    21
Name: y, dtype: int64

## Ganho de informação para variável `A`

- A seguir, dividimos o dataset em função da variável `A` em um um valor arbitrário, a qual resulta em um conjunto com 12 instâncias, e outro com 38 instâncias.

Importante denotar aqui que o valor de segmentação de `A` foi arbitrário para demonstração. Existem técnicas voltadas para minimização da entropia.

In [9]:
# valor arbitrário -> 1/3 do valor máximo de A:
v = int(df['A'].max()/3)

In [10]:
# cria conjuntos filho
filho_esquerda_A = df[df['A'] < v]
filho_direita_A = df[df['A'] >= v]

In [11]:
print(filho_esquerda_A.shape)
filho_esquerda_A.head()

(12, 3)


Unnamed: 0,A,B,y
9,3,1,0
11,2,1,1
12,1,1,0
14,5,2,1
15,1,2,1


In [12]:
print(filho_direita_A.shape)
filho_direita_A.head()

(38, 3)


Unnamed: 0,A,B,y
0,6,1,1
1,19,1,0
2,14,1,0
3,10,1,1
4,7,1,1


- Calculamos a entropia de cada conjunto filho em função da var. `A`:

In [13]:
# calcular proporções para cada conjunto filho:
p_esquerda_A0 = filho_esquerda_A['y'].value_counts()[0]/filho_esquerda_A.shape[0]
p_esquerda_A1 = filho_esquerda_A['y'].value_counts()[1]/filho_esquerda_A.shape[0]

p_direita_A0 = filho_direita_A['y'].value_counts()[0]/filho_direita_A.shape[0]
p_direita_A1 = filho_direita_A['y'].value_counts()[1]/filho_direita_A.shape[0]

In [14]:
# calcular entropia para cada conjunto filho:
entropia_esquerda_A =  -(p_esquerda_A0*np.log2(p_esquerda_A0) + 
                        p_esquerda_A1*np.log2(p_esquerda_A1))

entropia_direita_A = -(p_direita_A0*np.log2(p_direita_A0)+
                      p_direita_A1*np.log2(p_direita_A1))

In [15]:
entropia_esquerda_A, entropia_direita_A

(0.9182958340544896, 0.9268190639645772)

In [16]:
# checagem com o método entropy() da biblioteca scipy
print(entropy(filho_esquerda_A['y'].value_counts().tolist(), base=2),
      entropy(filho_direita_A['y'].value_counts().tolist(), base=2))

0.9182958340544894 0.926819063964577


- E, por fim, o ganho de informação (IG), de acordo com a seguinte equação:

$$IG(mae,filho) = entropia(mae) - [p(filho_{esquerda})*entropia(filho_{esquerda}) + p(filho_{direita})*entropia(filho_{direita})]$$

Abaixo, nota-se que o ganho de informação da variável `A` foi baixo, de apenas 0.0567, ou seja, a entropia reduziu pouco - conjuntos muito impuros.

In [17]:
# cálculo do IG
IG_A = entropia_mae - ((filho_esquerda_A.shape[0]/df.shape[0])*entropia_esquerda_A + 
                      (filho_direita_A.shape[0]/df.shape[0])*entropia_direita_A)

IG_A

0.05668040624749748

## Ganho de informação para variável `B`

- A seguir, dividimos o dataset em função da variável `B` de acordo com os valores da variável (0, 1, 2), resultando em conjuntos com 22, 16, e 12 instâncias para 0, 1, e 2, respectivamente:

In [18]:
# criar conjuntos filho
filho_1_B = df[df['B'] == 0]
filho_2_B = df[df['B'] == 1]
filho_3_B = df[df['B'] == 2]

In [19]:
print(filho_1_B.shape)
filho_1_B.head()

(18, 3)


Unnamed: 0,A,B,y
6,18,0,0
18,11,0,0
20,9,0,0
21,15,0,0
24,18,0,0


In [20]:
print(filho_2_B.shape)
filho_2_B.head()

(18, 3)


Unnamed: 0,A,B,y
0,6,1,1
1,19,1,0
2,14,1,0
3,10,1,1
4,7,1,1


In [21]:
print(filho_3_B.shape)
filho_3_B.head()

(14, 3)


Unnamed: 0,A,B,y
7,10,2,1
14,5,2,1
15,1,2,1
17,11,2,0
23,14,2,1


- Calcular a entropia de cada *conjunto filho* de acordo com os respectivos valores:

In [22]:
# calcular proporções para cada conjunto filho:
p_1_B0 = filho_1_B['y'].value_counts()[0]/filho_1_B.shape[0]
p_1_B1 = filho_1_B['y'].value_counts()[1]/filho_1_B.shape[0]

p_2_B0 = filho_2_B['y'].value_counts()[0]/filho_2_B.shape[0]
p_2_B1 = filho_2_B['y'].value_counts()[1]/filho_2_B.shape[0]

p_3_B0 = filho_3_B['y'].value_counts()[0]/filho_3_B.shape[0]
p_3_B1 = filho_3_B['y'].value_counts()[1]/filho_3_B.shape[0]

In [23]:
# calcular entropia para cada conjunto filho:
entropia_B1 = -(p_1_B0*np.log2(p_1_B0) + p_1_B1*np.log2(p_1_B1))

entropia_B2 = -(p_2_B0*np.log2(p_2_B0) + p_2_B1*np.log2(p_2_B1))

entropia_B3 = -(p_3_B0*np.log2(p_3_B0) + p_3_B1*np.log2(p_3_B1))

In [24]:
entropia_B1, entropia_B2, entropia_B3

(0.7642045065086203, 0.9910760598382222, 0.9402859586706311)

In [25]:
# checagem com o método entropy() da biblioteca scipy
print(entropy(filho_1_B['y'].value_counts().tolist(),base=2),
      entropy(filho_2_B['y'].value_counts().tolist(),base=2),
      entropy(filho_3_B['y'].value_counts().tolist(),base=2))

0.7642045065086203 0.9910760598382222 0.940285958670631


- O *IG* da variável `B`, calculado como apresentado anteriormente na variável `A`, resultou em 0.0862.

Nota-se, portanto, que o ganho de informação da variável `B` foi maior que o da variável `A`, mas, ainda assim, baixo. Isso nos diz que ambas as variáveis possuem ganho de informação, ainda que baixo e que, nesse contexto, a variável `A` é menos informativa que a variável `B` e, portanto, em um rankeamento seleção de variáveis ficaria abaixo da última.

In [26]:
# cálculo do IG
IG_B = entropia_mae - ((filho_1_B.shape[0]/df.shape[0])*entropia_B1+
                      (filho_2_B.shape[0]/df.shape[0])*entropia_B2 + 
                      (filho_3_B.shape[0]/df.shape[0])*entropia_B3)

IG_B

0.08627282272101366

## Considerações Finais
---

Nota-se que a aplicação de *entropia* e *ganho de informação* é útil para seleção de atributos em aprendizado de máquina. De fato, esse conceito é utilizado em algoritmos que utilizam **árvores de decisão**. 

É importante salientar também que aqui foi apresentado um exemplo onde se utilizou de apenas uma variável para análise de ganho de informação, mas que em casos reais, os algoritmos se utilizam de múltiplos atributos (multivariado) para a segmentação supervisionada, sendo que cada conjunto, no contexto de árvores de decisão, é chamado de nó (*node*), e o conjunto mãe é chamado de nó raiz (*root node*), sendo aquela variável com maior ganho de informação, os conjuntos intermediários - filhos são chamados de nós interiores (*interior nodes*) ou nós de decisão (*decision nodes*), finalizando em uma folha, ou nó terminal (*leaf node*), como exposto abaixo. 

![img](https://miro.medium.com/max/688/1*bcLAJfWN2GpVQNTVOCrrvw.png)

É importante denotar o primeiro conjunto filho não necessariamente será a segunda variável com maior ganho de informação, pois com exceção do nó raiz, os atributos não mais são avaliados considerando todo o dataset de instâncias, as sim o conjunto de segmentação. Ademais, deve-se evitar um número muito grande de subconjuntos, pois pode resultar em *overfitting*, ou incapacidade do modelo de generalizar novos dados.

Ademais, aqui foi proposto um caso de classificação, onde a variável resposta é binária. Porém, o mesmo conceito pode ser utilizado em **problemas de regressão**, onde a variável resposta é quantitativa, mantendo-se a ideia fundamental onde, nesse escopo, a medida natural de impureza é a **variância**. 

Assim, se o todo o conjunto possui o mesmo valor para a variável resposta, então o conjunto é puro (homogêneo) e a variância é zero. No oposto, caso o conjunto possui valores muito diferentes entre si, o conjunto possuirá alta variância. A noção de ganho de informação nesse caso será a redução da variância entre os conjuntos *mãe* e *filho*.

### Considerações sobre entropia
---

Considerando um dataset $S = \{(x_1,y_1),...,(x_n,y_n)\}, y_1 \in \{1,...,c\}$, onde $c$ é o número de classes ($c=2$ no exemplo apresentado). Seja $S_k\subseteq S$ where $S_k=\{(x,y) \in S:y=k\}$ i.e. todos os inputs com rótulo $k$, onde $S=S_1\cup \dots \cup S_c$, define-se:

$$ p_k=\frac{\left | S_k \right |}{\left | S \right |}\leftarrow \ fração \ de \ inputs \ em \ S \ com \ rótulo \ k $$

Buscamos uma distribuição que seja diferente da uniforme i.e. $p_1=p_2=...=p_k=\frac{1}{c}$, pois nesse caso todos os nós terminais possuiríam a mesma probabilidade, e seria impossível realizar uma classificação correta além do acaso (*random guessing*). Assim, a definição de impureza é o quão próximo os sets estão da distribuição uniforme. Aplicando o conceito de $KL$-Divergence para computar a "proximidade", onde $q_1,...,q_k$ é a distribuição uniforme i.e. $q_k=\frac{1}{c} \forall k$, temos:

$$KL(p||q)=\sum_{k=1}^{c}p_klog\frac{p_k}{q_k}\geq 0 \leftarrow \textrm{$KL$-Divergence}$$

$$=\sum_{k}p_klog(p_k)-p_klog(q_k)\textrm{ onde }q_k=\frac{1}{c}$$

$$=\sum_{k}p_klog(p_k)+p_klog(c)$$

$$=\sum_{k}p_klog(p_k)+log(c)\sum_{k}p_k \textrm{ where  } log(c)\leftarrow\textrm{constante}, \sum_{k}p_k=1$$

$$\therefore \max_{p}KL(p||q)=\max_{p}\sum_{k}p_klog(p_k)$$

$$=\min_{p}-\sum_{k}p_klog(p_k)$$

$$=\min_{p}H(s) \leftarrow\textrm{Entropia}$$

Nesse caso, a entropia é calculada sobre uma folha (*leaf*). A entropia calculada sobre a árvore é:

$$H(S)=p^LH(S^L)+p^RH(S^R)$$

onde

$$p^L=\frac{|S^L|}{|S|}, p^R=\frac{|S^R|}{|S|}$$

sendo que $L$ representa o split esquerdo, e $R$ o split direito.

Referência: [[1]](https://www.cs.cornell.edu/courses/cs4780/2018fa/lectures/lecturenote17.html).