<img src="img/logoifsc.png">

---

Prof. Carlos Andrés Ferrero

# Mineração de Dados

## Pré-processamento: Medidas de qualidade de atributos
    
---

### Exercícios

1. Dado o conjunto de dados para estudar a relação entre atributos climáticos e o fato de ir jogar tênis ou não. Queremos estudar o quanto esses atributos podem nos dizer sobre a decisão.

In [1]:
import pandas as pd
df = pd.read_csv("data/playtennis.txt", ' ')
df

Unnamed: 0,Day,Outlook,Temp,Humidity,Wind,PlayTennis
0,D1,Sunny,Hot,High,Weak,No
1,D2,Sunny,Hot,High,Strong,No
2,D3,Overcast,Hot,High,Weak,Yes
3,D4,Rain,Mild,High,Weak,Yes
4,D5,Rain,Cool,Normal,Weak,Yes
5,D6,Rain,Cool,Normal,Strong,No
6,D7,Overcast,Cool,Normal,Strong,Yes
7,D8,Sunny,Mild,High,Weak,No
8,D9,Sunny,Cool,Normal,Weak,Yes
9,D10,Rain,Mild,Normal,Weak,Yes


a) Para o conjunto de dados inicial, apresente a frequência e probabilidade de cada classe (*Yes* e *NO*), bem como a entropia.

In [7]:
df['PlayTennis'].value_counts()

Yes    9
No     5
Name: PlayTennis, dtype: int64

In [8]:
df['PlayTennis'].value_counts(normalize=True)

Yes    0.642857
No     0.357143
Name: PlayTennis, dtype: float64

In [12]:
vp = df['PlayTennis'].value_counts(normalize=True).values
vp

array([0.64285714, 0.35714286])

In [13]:
import numpy as np
E_X = -(vp[0] * np.log2(vp[0]) + vp[1] * np.log2(vp[1]) )
E_X

0.9402859586706311

b) Para cada atributo (Outlook, Temp, Humidity e Wind) apresente a tabela de frequência e de probabilidade (na forma de fração) das classes para cada valor do atributo, bem como a entropia de cada atributo.

In [16]:
def entropia (vp):
    somatorio = 0;
    for p in vp :
        somatorio += 0 if (p == 0) else p * np.log2(p)    
    return somatorio * (-1)

def entropia_valores(valores):
    import collections
    counter = collections.Counter(valores)
    vp = [ (n/len(valores)) for n in counter.values() ]    
    return entropia(vp)    

def entropia_atributo_detalhes(X, atributo, classe) :
    somatorio = 0
    detalhes = pd.DataFrame(columns = ['valor','prop_Xj'])
    for valor, Xj in X.groupby(atributo):        
        p_Xj = len(Xj) / len(X)        
        E_Xj = entropia_valores(Xj[classe])
        somatorio += p_Xj * E_Xj
        detalhes = detalhes.append({'valor' : valor, 'prop_Xj' : p_Xj, 'E(Xj)' : E_Xj }, 1)
    return somatorio, detalhes

In [17]:
entropia_atributo_detalhes(df, 'Outlook', 'PlayTennis')

(0.6935361388961918,
       valor   prop_Xj     E(Xj)
 0  Overcast  0.285714 -0.000000
 1      Rain  0.357143  0.970951
 2     Sunny  0.357143  0.970951)

In [18]:
entropia_atributo_detalhes(df, 'Temp', 'PlayTennis')

(0.9110633930116763,
   valor   prop_Xj     E(Xj)
 0  Cool  0.285714  0.811278
 1   Hot  0.285714  1.000000
 2  Mild  0.428571  0.918296)

In [20]:
entropia_atributo_detalhes(df, 'Humidity', 'PlayTennis')

(0.7884504573082896,
     valor  prop_Xj     E(Xj)
 0    High      0.5  0.985228
 1  Normal      0.5  0.591673)

In [21]:
entropia_atributo_detalhes(df, 'Wind', 'PlayTennis')

(0.8921589282623617,
     valor   prop_Xj     E(Xj)
 0  Strong  0.428571  1.000000
 1    Weak  0.571429  0.811278)

c) Calcule o ganho de informação para cada um desses atributos.

In [26]:
E_X 

0.9402859586706311

In [22]:
E_X - entropia_atributo_detalhes(df, 'Outlook', 'PlayTennis')[0]

0.24674981977443933

In [23]:
E_X - entropia_atributo_detalhes(df, 'Temp', 'PlayTennis')[0]

0.02922256565895487

In [24]:
E_X - entropia_atributo_detalhes(df, 'Humidity', 'PlayTennis')[0]

0.15183550136234159

In [25]:
E_X - entropia_atributo_detalhes(df, 'Wind', 'PlayTennis')[0]

0.04812703040826949

d) Calcule a razão de ganho para cada um desses atributos.

In [27]:
( E_X - entropia_atributo_detalhes(df, 'Outlook', 'PlayTennis')[0] ) / entropia_valores(df['Outlook'])

0.15642756242117528

In [28]:
( E_X - entropia_atributo_detalhes(df, 'Temp', 'PlayTennis')[0] ) / entropia_valores(df['Temp'])

0.018772646222418813

In [31]:
( E_X - entropia_atributo_detalhes(df, 'Humidity', 'PlayTennis')[0] ) / entropia_valores(df['Humidity'])

0.15183550136234159

In [32]:
( E_X - entropia_atributo_detalhes(df, 'Wind', 'PlayTennis')[0] ) / entropia_valores(df['Wind'])

0.048848615511520824

e) O atributo Day está identificando cada registro da base de dados. A sua entropia é zero, pois cada valor do atributo separa conjuntos de um registro com classe única. Calcule o ganho de informação e a razão de ganho para esse atributo. Compare os resultados com os valores dos outros atributos. Com essas informações, você acha que é um bom atributo?

In [33]:
entropia_atributo_detalhes(df, 'Day', 'PlayTennis')

(0.0,
    valor   prop_Xj  E(Xj)
 0     D1  0.071429   -0.0
 1    D10  0.071429   -0.0
 2    D11  0.071429   -0.0
 3    D12  0.071429   -0.0
 4    D13  0.071429   -0.0
 5    D14  0.071429   -0.0
 6     D2  0.071429   -0.0
 7     D3  0.071429   -0.0
 8     D4  0.071429   -0.0
 9     D5  0.071429   -0.0
 10    D6  0.071429   -0.0
 11    D7  0.071429   -0.0
 12    D8  0.071429   -0.0
 13    D9  0.071429   -0.0)

In [35]:
E_X - entropia_atributo_detalhes(df, 'Day', 'PlayTennis')[0]

0.9402859586706311

In [36]:
( E_X - entropia_atributo_detalhes(df, 'Day', 'PlayTennis')[0] ) / entropia_valores(df['Day'])

0.24696566984684296