## Árvores de Decisão (Algoritmo ID3) - Implementação

In [3]:
import pandas as pd
import random

df = pd.read_csv('golf2.csv',sep='\t')
print(df.shape)

(14, 3)


In [7]:
df.head()

Unnamed: 0,Precipitacao,Temperatura,Jogar Golf?
0,88,35,Não
1,85,34,Sim
2,60,33,Sim
3,0,24,Sim
4,0,15,Sim


In [4]:
df.describe()

Unnamed: 0,Precipitacao,Temperatura
count,14.0,14.0
mean,29.357143,24.428571
std,29.387614,8.85537
min,0.0,10.0
25%,15.0,17.25
50%,19.0,24.5
75%,42.5,32.25
max,88.0,36.0


In [5]:
list(df['Jogar Golf?'].unique())

['Não', 'Sim', 'SIm']

### Calculando a entropia inicial

In [8]:
from collections import Counter
from math import log
from scipy.stats import entropy

def entropia(df, classe):
    
    if len(df) == 0:
        return 1.0

    classes = list(df[classe].unique())
    
    # se há apenas uma classe, a entropia é zero
    if len(classes) == 1:
        return 0
    else:
        prob = []
        contagem = Counter(df[classe])
        entropia = 0
        for classe, contagem_classe in contagem.items():
            prob.append(contagem_classe / len(df))
            #print(classe, prob)
            #entropia += prob * (log(prob, 2))
        return entropy(prob, base=2)

In [11]:
E_inicial = entropia(df,'Temperatura')
print("Entropia", E_inicial)

Entropia 3.521640636343319


### Calculando ganho de informação para cada atributo

In [13]:
def ganho_informacao(df, classe):
    
    E_inicial = entropia(df, classe)
    
    atributos = list(df.columns)
    atributos.remove(classe)
    
    melhor_atributo = ""
    melhor_G = 0
    
    for atributo in atributos:
    
        media = df[atributo].mean()

        c1 = df[df[atributo] >= media].copy()
        c2 = df[df[atributo] < media].copy()

        E_c1 = entropia(c1, classe)
        E_c2 = entropia(c2, classe)

        print("Entropia C1", E_c1)
        print("Entropia C2", E_c2)

        E_c1 = E_c1 * (len(c1)/len(df))
        E_c2 = E_c2 * (len(c2)/len(df))

        print("Entropia C1 (normalizada)", E_c1)
        print("Entropia C2 (normalizada)", E_c2)    

        G = E_inicial - (E_c1 + E_c2)
        
        print("\tGanho", atributo, G)
        
        if G > melhor_G:
            melhor_G = G
            melhor_atributo = atributo
            
    return melhor_atributo

In [14]:
ganho_informacao(df, 'Jogar Golf?')


            Temperatura >= media
       Sim                     Não
 CLASSE = SIM          CLASSE = SIM


Entropia C1 0.8112781244591328
Entropia C2 0.8812908992306927
Entropia C1 (normalizada) 0.23179374984546652
Entropia C2 (normalizada) 0.6294934994504948
	Ganho Precipitacao 0.0018333192706697643
Entropia C1 0.9852281360342515
Entropia C2 0.5916727785823274
Entropia C1 (normalizada) 0.49261406801712576
Entropia C2 (normalizada) 0.2958363892911637
	Ganho Temperatura 0.07467011125834166


'Temperatura'

### Juntando as partes do algoritmo ID3 e adaptando a função de informação de ganho para construir os filhos

In [17]:
""" como queremos a estrutura da nossa árvore:
inicial
    atributo operacao (entropia)
        classe
    atributo operacao (entropia)
        atributo operacao (entropia)
            classe
        atributo operacao (entropia)
            classe
            
cada nó tem as propriedades:
    df e entropia
    + atributo (se for nó de decisao)
    + classe (se for nó de classificacao)
todos tem a propriedade 'filhos' que apontam onde estão os filhos
"""

def ganho_informacao(df, classe):
    
    E_inicial = entropia(df, classe)
    
    atributos = list(df.columns)
    atributos.remove(classe)
    
    melhor_atributo = ""
    melhor_G = -1
    
        
    for atributo in atributos:
    
        media = df[atributo].mean()

        c1 = df[df[atributo] >= media].copy()
        c2 = df[df[atributo] < media].copy()

        E_c1 = entropia(c1, classe)
        E_c2 = entropia(c2, classe)

        E_c1_norm = E_c1 * (len(c1)/len(df))
        E_c2_norm = E_c2 * (len(c2)/len(df))

        G = E_inicial - (E_c1_norm + E_c2_norm)
        
        if G > melhor_G:
            
            melhor_G = G
            
            aux_atributos = atributos.copy()
            aux_atributos.remove(atributo)
            aux_atributos.append(classe)
            
            classes_c1 = Counter(c1[classe])
            classes_c2 = Counter(c2[classe])
                        
            filho_esq = {'df':c1[aux_atributos], 
                         'atributo':atributo,
                         'operacao':'>= '+str(media),
                         'entropia':E_c1}
            filho_dir = {'df':c2[aux_atributos],
                         'atributo':atributo,
                         'operacao':'< '+str(media),
                         'entropia':E_c2}
            
            
            if len(classes_c1) == 0:
                filho_esq['classe'] = list(df[classe])[0]  
            elif len(classes_c1) == 1:
                filho_esq['classe'] = list(classes_c1.keys())[0]
                
            if len(classes_c2) == 0:
                filho_dir['classe'] = list(df[classe])[0]  
            elif len(classes_c2) == 1:
                filho_dir['classe'] = list(classes_c2.keys())[0]
                
            if len(aux_atributos) == 1:
                if 'classe' not in filho_esq.keys():
                    filho_esq['classe'] = classes_c1.most_common(1)[0][0]
                    
                if 'classe' not in filho_dir.keys():
                    filho_dir['classe'] = classes_c2.most_common(1)[0][0]
                
            
    return filho_esq, filho_dir


def poda(arvore, no=0):
        
    no = arvore[no]
    
    if 'filhos' in no.keys():
        poda(arvore, no['filhos'][0])
        poda(arvore, no['filhos'][1])
        
        filho_esq = arvore[no['filhos'][0]]
        filho_dir = arvore[no['filhos'][1]]
        
        classes = []
        
        if 'classe' in filho_esq and 'classe' in filho_dir:

            if filho_esq['classe'] not in classes:
                classes.append(filho_esq['classe'])

            if filho_dir['classe'] not in classes:
                classes.append(filho_dir['classe'])

            if len(classes) == 1:
                no['classe'] = classes[0]
        
    return arvore


def ID3(df, classe):
    
    arvore = [{'df':df, 'entropia':entropia(df, classe), 'filhos':None}]

    nao_visitados = [0]
    
    while len(nao_visitados) > 0:

        no = nao_visitados[0]
        aux = arvore[no]

        if 'classe' not in aux.keys():
                        
            filho_esq, filho_dir = ganho_informacao(aux['df'], classe)
            
            # verifica se ambos os filhos apontam a mesma classe para ajustar o pai
            if 'classe' in filho_esq and 'classe' in filho_dir and filho_esq['classe'] == filho_dir['classe']:
                arvore[no]['classe'] = filho_esq['classe']
            else:
                arvore.append(filho_esq)
                arvore.append(filho_dir)

                arvore[no]['filhos'] = [len(arvore)-2, len(arvore)-1]
                nao_visitados.append(len(arvore)-2)
                nao_visitados.append(len(arvore)-1)
                        
        nao_visitados.remove(no)

    # poda da árvore
    arvore = poda(arvore)
        
    return arvore

In [19]:
arvore = ID3(df, classe='Jogar Golf?')
arvore

[{'df':     Precipitacao  Temperatura Jogar Golf?
  0             88           35         Não
  1             85           34         Sim
  2             60           33         Sim
  3              0           24         Sim
  4              0           15         Sim
  5              5           16         Não
  6             50           12         Sim
  7             20           25         Não
  8             20           10         Sim
  9             18           21         Sim
  10            20           21         Sim
  11            15           36         Sim
  12            15           30         Sim
  13            15           30         Não,
  'entropia': 0.8631205685666311,
  'filhos': [1, 2]},
 {'df':     Precipitacao Jogar Golf?
  0             88         Não
  1             85         Sim
  2             60         Sim
  7             20         Não
  11            15         Sim
  12            15         Sim
  13            15         Não,
  'atributo': 'Temperat

### Exibindo a árvore

In [20]:
def exibe_arvore(arvore, no, nivel=0):
    
    no = arvore[no]
    
    if 'classe' not in no.keys() and 'atributo' not in no.keys():
        print('Inicial', "(E:", no['entropia'], ")")
    elif 'classe' not in no.keys():
        print('\t'*nivel, no['atributo'], no['operacao'], "(E:", no['entropia'], ")")
    else:
        print('\t'*nivel, no['atributo'], no['operacao'], "(E:", no['entropia'], ")", no['classe'])

    if 'classe' not in no.keys():
        exibe_arvore(arvore, no['filhos'][0], nivel + 1)
        exibe_arvore(arvore, no['filhos'][1], nivel + 1)

In [21]:
exibe_arvore(arvore, 0)

Inicial (E: 0.8631205685666311 )
	 Temperatura >= 24.428571428571427 (E: 0.9852281360342515 )
		 Precipitacao >= 42.57142857142857 (E: 0.9182958340544894 ) Sim
		 Precipitacao < 42.57142857142857 (E: 1.0 ) Não
	 Temperatura < 24.428571428571427 (E: 0.5916727785823274 ) Sim


### Utiliza a árvore para classificação

In [23]:
def classifica(arvore, amostra):
    
    no = arvore[0]
    
    while 'classe' not in no.keys():
                
        filho_esq = arvore[no['filhos'][0]]
        filho_dir = arvore[no['filhos'][1]]
        
        atributo = None
        operacao = None
        if 'atributo' in filho_esq.keys():
            atributo = filho_esq['atributo']
            operacao = filho_esq['operacao']
        else:
            atributo = filho_dir['operacao']
            
        operacao = float(operacao.replace('<','').replace('>=',''))
        
        if amostra[atributo] >= operacao:
            no = filho_esq
        else:
            no = filho_dir
            
    print(no['classe'])

In [24]:
classifica(arvore, {'Temperatura':33, 'Precipitacao':20})

Não


### Exercício 1

Utilize o conjunto de dados **golf.csv** e verifique a classe para a amostra a seguir.

In [None]:
amostra = {'Clima': 'Chuvoso', 'Temperatura': 'Frio', 'Umidade': 'Alta', 'Vento': 'VERDADEIRO'}