# Árvores de Decisão

Passos do Algoritmo Base:
1. Escolher um atributo
2. Estender a árvore, adicionando um ramo para cada valor do atributo
3. Passar os exemplos para as folhas (considerando-se o valor do atributo escolhido)
4. Para cada folha:
    * Se todos os exemplos são da mesma classe, associar esta classe para a folha
    * Caso contrário, repetir os passos de 1 a 4

## Entropia do Atributo Classe no conjunto X

Dados:
* $X$: um conjunto de exemplos com com $n$ atributos e $m$ classes
* $x \in X \ | \ x = \{ a_1, \ a_2, \ldots, \ a_n, \ a_{classe} \}$, onde $a_i$ corresponde ao atributo $i$ de $x$
* $y \in Y \ | \ Y = \{ y_1, y_2, \ldots, y_m \}$

$E(X) = -\sum_{k=1}^{m} p_k \cdot \log_{2} p_k$

$E(X) = - p_1 \cdot \log_{2} p_1 - p_2 \cdot \log_{2} p_2 \ldots - p_m \cdot \log_{2} p_m$

onde:
* $p_k$: Probabilidade de ocorrência da classe k 

## Entropia do Atributo $i$

Seja $v = \{ v_1, v_2, ..., v_n\}$ os valores que o atributo $i$ pode assumir.

$E(a_i) = \sum_{k=1}^{n} p_k \cdot E(v_i) $ (Soma ponderada das entropias de suas partições)

onde:
* $E(v_i)$: Entropia de $v_i$ (subconjunto $v_i$ do atributo $i$)
    * $E(v_i) = -\sum_{k=1}^{m} p_k \cdot \log_{2} p_k$ 
* $p_k$: Proporção de valores $v_i$
* $E(v_i)$: Entropia do subconjunto $v_i$



## Ganho de Informação

$GI(a_i) = E(S) - E(a_i)$

onde:

* $a_i$: Atributo $i$
* $E(S)$: Entropia do *atributo classe* no conjunto de dados $S$
* $E(a_i)$: Entropia do atributo $i$

### Passos para calcular o Ganho de Informação

* Passo 1: Calcular a entropia da classe do conjunto de dados
* Passo 2: Calcular a entropia de cada atributo
* Passo 3: Calcular o ganho de informação de cada atributo

## Exemplo: Dataset "Play Golf"

In [36]:
attributes = ['outlook', 'temperature', 'humidity', 'windy', 'play golf']
X = [
    ['rainy', 'hot', 'high', False , 'no'],
    ['rainy', 'hot', 'high', True, 'no'],
    ['rainy', 'mild', 'high', False, 'no'],
    ['rainy', 'cool', 'normal', False, 'yes'],
    ['rainy', 'mild', 'normal', True, 'yes'],
    
    ['overcast', 'hot', 'high', False, 'yes'],
    ['overcast', 'cool', 'normal', True, 'yes'],
    ['overcast', 'mild', 'high', True, 'yes'],
    ['overcast', 'hot', 'normal', False, 'yes'],
    
    ['sunny', 'mild', 'high', False, 'yes'],
    ['sunny', 'cool', 'normal', False, 'yes'],
    ['sunny', 'cool', 'normal', True, 'no'],
    ['sunny', 'mild', 'normal', False, 'yes'],
    ['sunny', 'mild', 'high', True, 'no'],
]

In [37]:
p_yes = len([x for x in X if x[-1] == 'yes']) / len(X)
p_no = len([x for x in X if x[-1] == 'no']) / len(X)
print('P(Yes) = ', p_yes)
print('P(No) = ', p_no)

P(Yes) =  0.6428571428571429
P(No) =  0.35714285714285715


Entropia do Conjunto X:

$E(X) = -\sum_{k=1}^{m} p_k \cdot \log_{2} p_k = - p_{yes} \cdot \log_{2} p_{yes} - p_{no} \cdot \log_{2} p_{no}$

In [44]:
from math import log

log2 = lambda prob: log(prob, 2) if prob != 0 else 0.0

# Entropia de do conjunto X
entropia_X = -p_yes * log2(p_yes) -p_no * log2(p_no)

In [45]:
print('Entropia(X) = ', entropia_X)

Entropia(X) =  0.9402859586706309


## Entropia do Atributo $Outlook$

$v = \{ rainy, overcast, sunny \}$ os valores que o atributo $outlook$ pode assumir.

$E(Outlook) = \sum_{k=1}^{n} p_k \cdot E(v_i) $ (Soma ponderada das entropias de suas partições)

$E(Outlook) = p_{rainy} \cdot E(rainy) + p_{overcast} \cdot E(overcast) + p_{sunny} \cdot E(sunny) $

In [53]:
# Calcula as entropias parciais de Outlook (rainy, overcast e sunny)

# rainy
subconj = [x for x in X if x[0] == 'rainy']
p_yes = len([x for x in subconj if x[-1] == 'yes']) / len(subconj)
p_no = len([x for x in subconj if x[-1] == 'no']) / len(subconj)

prob_rainy = len(subconj) / len(X) 
entropia_rainy = -p_yes * log2(p_yes) -p_no * log2(p_no)

# overcast
subconj = [x for x in X if x[0] == 'overcast']
p_yes = len([x for x in subconj if x[-1] == 'yes']) / len(subconj)
p_no = len([x for x in subconj if x[-1] == 'no']) / len(subconj)

prob_overcast = len(subconj) / len(X) 
entropia_overcast = -p_yes * log2(p_yes) -p_no * log2(p_no)

# sunny
subconj = [x for x in X if x[0] == 'sunny']
p_yes = len([x for x in subconj if x[-1] == 'yes']) / len(subconj)
p_no = len([x for x in subconj if x[-1] == 'no']) / len(subconj)

prob_sunny = len(subconj) / len(X) 
entropia_sunny = -p_yes * log2(p_yes) -p_no * log2(p_no)


In [55]:
# Calcula a Entropia de Outlook
entropia_outlook = prob_rainy * entropia_rainy + prob_overcast * entropia_overcast + prob_sunny * entropia_sunny

print('Entropia(Outlook) = ', entropia_outlook)

Entropia(Outlook) =  0.6935361388961918


## Entropia do Atributo $Temperature$

$v = \{ hot, mild, cool \}$ os valores que o atributo $outlook$ pode assumir.

$E(Temperature) = \sum_{k=1}^{n} p_k \cdot E(v_i) $ (Soma ponderada das entropias de suas partições)

$E(Temperature) = p_{hot} \cdot E(hot) + p_{mild} \cdot E(mild) + p_{cool} \cdot E(cool) $

In [61]:
def entropia_atrb(atrb_index, atrb_values):
    probs, entropias = [], []
    for atrb_value in atrb_values:
        subconj = [x for x in X if x[atrb_index] == atrb_value]
        p_yes = len([x for x in subconj if x[-1] == 'yes']) / len(subconj)
        p_no = len([x for x in subconj if x[-1] == 'no']) / len(subconj)

        probs.append(len(subconj) / len(X)) 
        entropias.append(-p_yes * log2(p_yes) -p_no * log2(p_no))
    
    entropia = 0
    for i in range(len(probs)):
        entropia += probs[i] * entropias[i]
    return entropia
        

## Entropia do Atributo $Temperature$

$v = \{ hot, mild, cool \}$ os valores que o atributo $outlook$ pode assumir.

$E(Temperature) = \sum_{k=1}^{n} p_k \cdot E(v_i) $ (Soma ponderada das entropias de suas partições)

$E(Temperature) = p_{hot} \cdot E(hot) + p_{mild} \cdot E(mild) + p_{cool} \cdot E(cool) $

In [64]:
entropia_temperature = entropia_atrb(1, ['hot', 'mild', 'cool'])
print('Entropia(Temperature) = ', entropia_temperature)

Entropia(Temperature) =  0.9110633930116763


## Entropia do Atributo $Humidity$

$v = \{ hot, mild, cool \}$ os valores que o atributo $outlook$ pode assumir.

$E(Humidity) = \sum_{k=1}^{n} p_k \cdot E(v_i) $ (Soma ponderada das entropias de suas partições)

$E(Humidity) = p_{high} \cdot E(high) + p_{normal} \cdot E(normal)$

In [65]:
entropia_humidity = entropia_atrb(2, ['high', 'normal'])
print('Entropia(Humidity) = ', entropia_humidity)

Entropia(Humidity) =  0.7884504573082896


## Entropia do Atributo $Windy$

$v = \{ hot, mild, cool \}$ os valores que o atributo $outlook$ pode assumir.

$E(Humidity) = \sum_{k=1}^{n} p_k \cdot E(v_i) $ (Soma ponderada das entropias de suas partições)

$E(Humidity) = p_{False} \cdot E(False) + p_{True} \cdot E(True)$

In [67]:
entropia_windy = entropia_atrb(3, [False, True])
print('Entropia(Windy) = ', entropia_windy)

Entropia(Humidity) =  0.8921589282623617


In [71]:
print('Entropias:')
print('Entropia(X) =\t', entropia_X)
print('Entropia(Outlook) =\t', entropia_outlook)
print('Entropia(Temperature) =\t', entropia_temperature)
print('Entropia(Humidity) =\t', entropia_humidity)
print('Entropia(Windy) =\t', entropia_windy)

Entropias:
Entropia(X) =	 0.9402859586706309
Entropia(Outlook) =	 0.6935361388961918
Entropia(Temperature) =	 0.9110633930116763
Entropia(Humidity) =	 0.7884504573082896
Entropia(Windy) =	 0.8921589282623617


## Ganho de Informação

$GI(Outlook) = E(X) - E(Outlook)$

$GI(Temperature) = E(X) - E(Temperature)$

$GI(Humididy) = E(X) - E(Humididy)$

$GI(Windy) = E(X) - E(Windy)$


In [74]:
print('GI(Outlook)     =', entropia_X - entropia_outlook)
print('GI(Temperature) =', entropia_X - entropia_temperature)
print('GI(Humidity)    =', entropia_X - entropia_humidity)
print('GI(Windy)       =', entropia_X - entropia_windy)

GI(Outlook)     = 0.2467498197744391
GI(Temperature) = 0.029222565658954647
GI(Humidity)    = 0.15183550136234136
GI(Windy)       = 0.04812703040826927
