# Seleção de Features usando Informação Mútua

## 1. Carregando módulos e dados

In [1]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

# Alteração dos labels para a utilização da informação mútua
from sklearn.preprocessing import LabelEncoder

In [2]:
# Carregando os dados
data = pd.read_csv('../../Dados/preprocessed.csv')

In [3]:
# Visualização da tabela
data.head(5)

Unnamed: 0,desfecho,TTO_anterior_TB_triagem_enfermeiro,Cicatriz_BCG,Idade,Sexo,Raça,Estado_civil,Tem_companheiro,Semanas_tosse,Semanas_expectoração,...,Dispnéia,Perda_de_apetite,Perda_peso_10percent,Dor_torácica,Internação_hospital_2anos,Prisão_2anos,Delegacia_2anos,Contato_TBP_2anos,Fuma,CAGE
0,TB+,Sim,Sim,30,Masculino,Não branco,Solteiro,Não,1,0,...,Não,Não,Não,Não,Sim,Não,Não,Não,Fumante,Negativo
1,TB+,Sim,ignorado,53,Feminino,Branco,ignorado,Não,0,0,...,Sim,ignorado,Não,Não,Não,Não,Não,Não,Ex-fumante,Negativo
2,TB+,Não,Não,84,Feminino,Branco,viúvo,Não,1,1,...,Não,ignorado,Sim,Sim,Não,Não,Não,Não,Jamais fumante,Negativo
3,TB+,Não,Sim,18,Feminino,Branco,Solteiro,Sim,1,0,...,Sim,Não,Não,Sim,Não,Não,Não,Sim,Jamais fumante,Negativo
4,TB+,Sim,ignorado,36,Masculino,Não branco,Solteiro,Não,0,0,...,Sim,Não,Não,Sim,Não,Não,Não,Não,Fumante,Positivo


In [4]:
data.columns

Index(['desfecho', 'TTO_anterior_TB_triagem_enfermeiro', 'Cicatriz_BCG',
       'Idade', 'Sexo', 'Raça', 'Estado_civil', 'Tem_companheiro',
       'Semanas_tosse', 'Semanas_expectoração', 'Hemoptóicos', 'Hemoptise',
       'Semanas_sudorese', 'Semanas_febre', 'Dispnéia', 'Perda_de_apetite',
       'Perda_peso_10percent', 'Dor_torácica', 'Internação_hospital_2anos',
       'Prisão_2anos', 'Delegacia_2anos', 'Contato_TBP_2anos', 'Fuma', 'CAGE'],
      dtype='object')

In [5]:
# Features contínuas, que não terão os valores alterados
features_continuas = ['Idade']

# Separando as features numéricas de categóricas; O tratamento para o labelEncoder será diferente.
features_categóricas = list(set(list(data.columns)) - set(features_continuas))

### Abordagem conservadora

In [6]:
# Criando uma cópia dos dados processados
dados_con = data.copy()

# Substituindo os valores por nulos 
dados_con.replace(['ignorado'],np.nan,inplace=True)

# Remover todos os casos ignorados
dados_con = dados_con.dropna(how='any')

In [7]:
# Renomeando os labels existentes do dataframe
dados_con = dados_con[features_categóricas].apply(LabelEncoder().fit_transform)

# Separação entre target e dados
y = dados_con.desfecho
X = dados_con.drop(['desfecho'],axis=1)
X['Idade'] = data['Idade']

### Abordagem considerando ignorados

In [8]:
# Considerando ignorados
dados_ign = data.copy()

# Renomeando os labels existentes do dataframe
dados_ign = dados_ign[features_categóricas].apply(LabelEncoder().fit_transform)

# Separação entre target e dados
y_ign = dados_ign.desfecho
X_ign = dados_ign.drop(['desfecho'],axis=1)
X_ign['Idade'] = data['Idade']

### Abordagem One-hot enconding

In [9]:
dados_ohe = data.copy()

y_ohe = dados_ohe.desfecho
X_ohe = dados_ohe.drop(['desfecho'],axis=1)

features_categóricas.remove('desfecho')

for f in features_categóricas:
    col = pd.get_dummies(X_ohe[f],prefix=f)
    X_ohe.drop([f],axis=1,inplace=True)
    X_ohe = X_ohe.join(col)
    
# Renomeando os labels existentes do dataframe
dados_ohe = dados_ohe[features_categóricas].apply(LabelEncoder().fit_transform)

## 2. Seleção de variáveis utilizando Informação Mútua


### 2.1 Seleção removendo os ignorados

In [10]:
# Importando módulo para seleção de features
# http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html#sklearn.feature_selection.mutual_info_classif
from sklearn.feature_selection import mutual_info_classif

In [23]:
# Teste com valores padrões
features = mutual_info_classif(X,y)

In [24]:
# Armazenando em dict
inf_mut  = dict()
inf_util = dict()

# Junção entre métrica e feature
for index, feature in enumerate(list(X.columns)):
    inf_mut[feature] = features[index]
    
    if features[index] > 0:
        inf_util[feature] = features[index]

In [25]:
# Verificando a informação mútua
inf_mut

{'CAGE': 0.0,
 'Cicatriz_BCG': 0.0088160381600488336,
 'Contato_TBP_2anos': 0.010438514254304421,
 'Delegacia_2anos': 0.0,
 'Dispnéia': 0.0037273223661133947,
 'Dor_torácica': 0.0194930070117314,
 'Estado_civil': 0.025138599556606911,
 'Fuma': 0.014211230673033315,
 'Hemoptise': 0.01840310704646253,
 'Hemoptóicos': 0.0083434426867454725,
 'Idade': 0.053115315912577898,
 'Internação_hospital_2anos': 0.0093123722291348354,
 'Perda_de_apetite': 0.0055554995665163531,
 'Perda_peso_10percent': 0.018993681913484606,
 'Prisão_2anos': 0.0054565494178515639,
 'Raça': 0.011923639979517286,
 'Semanas_expectoração': 0.014374991701477269,
 'Semanas_febre': 0.025271282302751219,
 'Semanas_sudorese': 0.019264801666030396,
 'Semanas_tosse': 0.020897226567951677,
 'Sexo': 0.0,
 'TTO_anterior_TB_triagem_enfermeiro': 0.0083573537011283339,
 'Tem_companheiro': 0.0020038115233345088}

In [22]:
# Observando features com informação maior que 0
inf_util

{'CAGE': 0.0083853370019668638,
 'Cicatriz_BCG': 0.013239582629247293,
 'Delegacia_2anos': 0.0059221478307698305,
 'Estado_civil': 0.024838995201667657,
 'Idade': 0.051560134432870441,
 'Perda_de_apetite': 0.023226633221675064,
 'Perda_peso_10percent': 0.053361440885789202,
 'Prisão_2anos': 0.010442698718075016,
 'Semanas_febre': 0.012650233808513489,
 'Semanas_sudorese': 0.0039769719490736488,
 'Semanas_tosse': 0.011679207366293021,
 'TTO_anterior_TB_triagem_enfermeiro': 5.7265025617203591e-05,
 'Tem_companheiro': 0.00045567602723739498}

In [48]:
len(inf_util)

17

In [27]:
features = list(inf_util.keys())

### 2.2 Seleção mantendo os ignorados

In [36]:
for f in list(X_ign.columns):
    print(f)
    print(dados_ign[f].value_counts())
    print()

Tem_companheiro
1    1400
0    1272
2      55
Name: Tem_companheiro, dtype: int64

Hemoptise
0    2465
1     242
2      20
Name: Hemoptise, dtype: int64

TTO_anterior_TB_triagem_enfermeiro
0    2056
1     655
2      16
Name: TTO_anterior_TB_triagem_enfermeiro, dtype: int64

Perda_peso_10percent
0    1862
1     721
2     144
Name: Perda_peso_10percent, dtype: int64

Semanas_tosse
1    1576
0    1151
Name: Semanas_tosse, dtype: int64

Cicatriz_BCG
1    1214
0     836
2     677
Name: Cicatriz_BCG, dtype: int64

Internação_hospital_2anos
0    2343
1     364
2      20
Name: Internação_hospital_2anos, dtype: int64

Prisão_2anos
0    2636
1      69
2      22
Name: Prisão_2anos, dtype: int64

Dispnéia
1    1884
0     838
2       5
Name: Dispnéia, dtype: int64

Contato_TBP_2anos
0    1958
1     738
2      31
Name: Contato_TBP_2anos, dtype: int64

Fuma
2    1057
1     921
0     731
3      18
Name: Fuma, dtype: int64

Estado_civil
2    1486
0     838
4     201
1     156
3      46
Name: Estado_civ

In [51]:
# Considerando ignorados
dados_ign = data.copy()

# Renomeando os labels existentes do dataframe
dados_ign = dados_ign[features_categóricas].apply(LabelEncoder().fit_transform)

# Separação entre target e dados
y_ign = dados_ign.desfecho
X_ign = dados_ign.drop(['desfecho'],axis=1)

In [85]:
features_ign = mutual_info_classif(X_ign,y_ign)

# Armazenando em dict
inf_mut_ign  = dict()
inf_util_ign = dict()

# Junção entre métrica e feature
for index, feature in enumerate(list(X_ign.columns)):
    inf_mut_ign[feature] = features_ign[index]
    
    if features[index] > 0:
        inf_util_ign[feature] = features[index]

In [86]:
inf_mut_ign

{'CAGE': 0.0015482387571934542,
 'Cicatriz_BCG': 0.006489305517412669,
 'Contato_TBP_2anos': 0.0072595730746169984,
 'Delegacia_2anos': 0.013832570571661318,
 'Dispnéia': 0.004169043335273459,
 'Dor_torácica': 0.005867415835223655,
 'Estado_civil': 0.0083145625098486331,
 'Fuma': 0.012253703879443023,
 'Hemoptise': 0.0019594187143261443,
 'Hemoptóicos': 0.0,
 'Internação_hospital_2anos': 0.0028028293816777516,
 'Perda_de_apetite': 0.00053850779124342552,
 'Perda_peso_10percent': 0.035616383834787824,
 'Prisão_2anos': 0.01049582911357172,
 'Raça': 0.0,
 'Semanas_expectoração': 0.0065385606923751283,
 'Semanas_febre': 0.017441158074385843,
 'Semanas_sudorese': 0.0054648063643112366,
 'Semanas_tosse': 0.024878606242693113,
 'Sexo': 0.0,
 'TTO_anterior_TB_triagem_enfermeiro': 0.0030815125996543902,
 'Tem_companheiro': 0.0}

In [87]:
len(inf_mut_ign)

22

In [88]:
inf_util_ign

{'CAGE': 0.0040302405912329142,
 'Cicatriz_BCG': 0.012394719664712284,
 'Delegacia_2anos': 0.0049580062986529505,
 'Dor_torácica': 0.004858389857443246,
 'Fuma': 0.0041102352224602345,
 'Hemoptise': 0.0038463438691718199,
 'Hemoptóicos': 0.0012315853824143019,
 'Perda_de_apetite': 0.0037427205078714998,
 'Perda_peso_10percent': 0.029129704662350875,
 'Prisão_2anos': 0.0015515448483918171,
 'Semanas_febre': 0.023420039405680049,
 'Semanas_sudorese': 0.011287012052852763,
 'Semanas_tosse': 0.013091965363980496,
 'Sexo': 0.034914513042947126,
 'TTO_anterior_TB_triagem_enfermeiro': 0.017262941837929757,
 'Tem_companheiro': 0.0057671878391722942}

In [89]:
len(inf_util_ign)

16

### 2.3 Seleção OHE

In [90]:
features_ohe = mutual_info_classif(X_ohe,y_ohe)

# Armazenando em dict
inf_mut_ohe  = dict()
inf_util_ohe = dict()

# Junção entre métrica e feature
for index, feature in enumerate(list(X_ohe.columns)):
    inf_mut_ohe[feature] = features_ohe[index]
    
    if features_ohe[index] > 0:
        inf_util_ohe[feature] = features_ohe[index]

In [91]:
inf_mut_ohe

{'CAGE_0': 0.0,
 'CAGE_1': 0.0,
 'CAGE_2': 0.0077155236523689386,
 'Cicatriz_BCG_0': 0.017612307702115748,
 'Cicatriz_BCG_1': 0.0081079286479011081,
 'Cicatriz_BCG_2': 0.0027701002008471143,
 'Contato_TBP_2anos_0': 0.010894512225374742,
 'Contato_TBP_2anos_1': 0.0084432220378143352,
 'Contato_TBP_2anos_2': 0.001741179045394281,
 'Delegacia_2anos_0': 0.00095789882155727923,
 'Delegacia_2anos_1': 0.0047907693926101391,
 'Delegacia_2anos_2': 0.0013016603038642494,
 'Dispnéia_0': 0.0099995238986905211,
 'Dispnéia_1': 0.013629257171781983,
 'Dispnéia_2': 0.00082016784311056412,
 'Dor_torácica_0': 0.00070547074960347622,
 'Dor_torácica_1': 0.0,
 'Dor_torácica_2': 0.0058901561700681615,
 'Estado_civil_0': 0.019260054861824916,
 'Estado_civil_1': 0.0,
 'Estado_civil_2': 0.023690753458257774,
 'Estado_civil_3': 0.0,
 'Estado_civil_4': 0.0022367152197408924,
 'Fuma_0': 0.0,
 'Fuma_1': 0.00034950025683277985,
 'Fuma_2': 0.0,
 'Fuma_3': 0.010148179603478136,
 'Hemoptise_0': 0.0,
 'Hemoptise_1': 0.

In [92]:
inf_util_ohe

{'CAGE_2': 0.0077155236523689386,
 'Cicatriz_BCG_0': 0.017612307702115748,
 'Cicatriz_BCG_1': 0.0081079286479011081,
 'Cicatriz_BCG_2': 0.0027701002008471143,
 'Contato_TBP_2anos_0': 0.010894512225374742,
 'Contato_TBP_2anos_1': 0.0084432220378143352,
 'Contato_TBP_2anos_2': 0.001741179045394281,
 'Delegacia_2anos_0': 0.00095789882155727923,
 'Delegacia_2anos_1': 0.0047907693926101391,
 'Delegacia_2anos_2': 0.0013016603038642494,
 'Dispnéia_0': 0.0099995238986905211,
 'Dispnéia_1': 0.013629257171781983,
 'Dispnéia_2': 0.00082016784311056412,
 'Dor_torácica_0': 0.00070547074960347622,
 'Dor_torácica_2': 0.0058901561700681615,
 'Estado_civil_0': 0.019260054861824916,
 'Estado_civil_2': 0.023690753458257774,
 'Estado_civil_4': 0.0022367152197408924,
 'Fuma_1': 0.00034950025683277985,
 'Fuma_3': 0.010148179603478136,
 'Hemoptise_1': 0.0050795537494254805,
 'Hemoptóicos_0': 0.012865043952941857,
 'Hemoptóicos_1': 0.0036911629851459349,
 'Internação_hospital_2anos_0': 0.0047525241094421578,


In [125]:
X_ohe[X_ohe['Hemoptóicos_1'] == 1]

Unnamed: 0,Tem_companheiro_0,Tem_companheiro_1,Tem_companheiro_2,Hemoptise_0,Hemoptise_1,Hemoptise_2,TTO_anterior_TB_triagem_enfermeiro_0,TTO_anterior_TB_triagem_enfermeiro_1,TTO_anterior_TB_triagem_enfermeiro_2,Perda_peso_10percent_0,...,Delegacia_2anos_1,Delegacia_2anos_2,Semanas_sudorese_0,Semanas_sudorese_1,Dor_torácica_0,Dor_torácica_1,Dor_torácica_2,Hemoptóicos_0,Hemoptóicos_1,Hemoptóicos_2
5,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0
6,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0
8,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0
10,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0
18,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0
34,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,...,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0
40,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0
48,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0
52,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0
53,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0


In [124]:
data.Hemoptóicos

0       Não
1       Não
2       Não
3       Não
4       Não
5       Sim
6       Sim
7       Não
8       Sim
9       Não
10      Sim
11      Não
12      Não
13      Não
14      Não
15      Não
16      Não
17      Não
18      Sim
19      Não
20      Não
21      Não
22      Não
23      Não
24      Não
25      Não
26      Não
27      Não
28      Não
29      Não
       ... 
2697    Não
2698    Não
2699    Não
2700    Não
2701    Não
2702    Não
2703    Sim
2704    Não
2705    Não
2706    Não
2707    Não
2708    Não
2709    Não
2710    Não
2711    Não
2712    Não
2713    Não
2714    Não
2715    Sim
2716    Não
2717    Não
2718    Sim
2719    Sim
2720    Não
2721    Não
2722    Não
2723    Não
2724    Não
2725    Não
2726    Não
Name: Hemoptóicos, dtype: object

### Fechando...

In [29]:
# Salvando os datafames selecionados