### Bibliotecas

In [2]:
# Instalação manual de bibliotecas
!pip install numpy matplotlib pandas seaborn
# Bibliotecas


# import ml_utils as ml
# %load_ext autoreload
# %autoreload 2
# %run -i ml_utils
# %reload_ext autoreload

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
import math




### Funções utilitárias

In [14]:
def print_format(string, value):
    print(f"{string} =\n{value}")

Leitura dos dados

In [4]:

#Faz a leitura do arquivo com os dados
#header = None --> o arquivo não tem cabeçalho
#names --> coloca nomes para cada coluna
data = pd.read_csv('data/haberman.data', header = None, names = ['age', 'op_year', 'pos_nodes', 'survived'])
data.head()
# data.describe()

Unnamed: 0,age,op_year,pos_nodes,survived
0,30,64,1,1
1,30,62,3,1
2,30,65,0,1
3,31,59,2,1
4,31,65,4,1


# 2) Para a base de dados Car Evaluation, calcule a informação mútua entre os atributos de entrada (as 5 primeiras colunas) e o atributo de saída (a última coluna). Informe os resultados e comente a sua solução.

### Funções

In [13]:
# Função que calcula probabilidade de um ou mais atributos dentro de um dataset
#   data: dataset
#   atribute: a lista de (um ou dois) atributos cuja probabilidade será calculada
# retorna: um float correspondente à probabilidade requerida
def probabilidade(data, atributes):
    probability_vector = data.value_counts(subset=atributes, normalize=True)
    return probability_vector

# Função que calcula entropia de um ou mais atributos dentro de um dataset
#   data: dataset
#   atribute: a lista de (um ou mais) atributos cuja entropia será calculada
# retorna: valor resultante do cálculo
def entropy(data, atributes):
    probability_vector = probabilidade(data, atributes)
    sum_elements = probability_vector.apply(lambda x: -x*math.log2(x))
    entropy_result = sum_elements.sum()
    return entropy_result

# Função que calcula informação mútua entre DOIS atributos dentro de um dataset
#   data: dataset
#   x: primeiro atributo
#   y: segundo atributo
# retorna: valor resultante do cálculo
def mutual_information(data, two_attributes):
    if len(two_attributes) != 2:
        print(f"FATAL ERROR: mutual_information -> len(two_attributes) = {len(two_attributes)}\n You are probably trying to calculate mutual information of more than 2 variables simultaneously\nTHIS IS NOT YET SUPPORTED")
    return entropy(data, two_attributes[0]) + entropy(data, two_attributes[1]) - entropy(data, two_attributes) 

def mutual_information_normalized(data, two_attributes):
    not_normalized_value = mutual_information(data, two_attributes)
    normalized_value = math.sqrt((not_normalized_value**2)/(entropy(data, two_attributes[0]) * entropy(data, two_attributes[1])))
    return normalized_value
    

# #teste de sanidade das funções

raw_data = [[0, 1, 1],
            [1, 1, 0],
            [0, 1, 1],
            [1, 0, 0]]
idx = ['x1', 'x2', 'x3']
data_test = pd.DataFrame(data=raw_data, columns=idx)

# print(probabilidade(data_test, ['x1']))
# print(probabilidade(data_test, ['x2']))
# print(probabilidade(data_test, ['x3']))
# print()
# print(probabilidade(data_test, ['x1', 'x2']))
# print(probabilidade(data_test, ['x1', 'x3']))
# print(probabilidade(data_test, ['x2', 'x3']))

# print(entropy(data_test, ['x1']))
# print(entropy(data_test, ['x2']))
# print(entropy(data_test, ['x3']))
# print(entropy(data_test, ['x1', 'x2']))
# print(entropy(data_test, ['x1', 'x3']))
# print(entropy(data_test, ['x2', 'x3']))

# print(mutual_information(data_test, ['x1', 'x2']))
print(mutual_information(data_test, ['x1', 'x3']))
print(mutual_information(data_test, ['x2', 'x3']))

# print(mutual_information_normalized(data_test, ['x1', 'x2']))
print(mutual_information_normalized(data_test, ['x1', 'x3']))
print(mutual_information_normalized(data_test, ['x2', 'x3']))


1.0
0.31127812445913294
1.0
0.34559202994421145


### Resposta

In [14]:
## Leitura inicial
features = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']
data = pd.read_csv('data/car.data', header = None, names = features)

data.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


In [15]:

for i in range(len(features)-2, -1, -1):
    print(f"Informação mútua normalizada entre {features[len(features)-1]} e {features[i]}: \n{mutual_information_normalized(data, [features[len(features)-1],features[i]])}")

Informação mútua normalizada entre class e safety: 
0.18965760884122598
Informação mútua normalizada entre class e lug_boot: 
0.021707139165691364
Informação mútua normalizada entre class e persons: 
0.1588986960379627
Informação mútua normalizada entre class e doors: 
0.0028886161020757416
Informação mútua normalizada entre class e maint: 
0.047462295455740225
Informação mútua normalizada entre class e buying: 
0.062109149676966846


Observa-se que os atributos mais correlacionados com a classificação são 'safety' e 'persons', o que indica que o nível de segurança e o número de lugares possuem grande influência na escolha da compra.
Ambos os valores estão acima de 0,15. 
Todos os outros valores estão abaixo de 0,065, indicando que eles possuem menor correlação com a saída 