# Seleção de Features usando Informação Mútua

## 1. Carregando módulos e dados

In [1]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [2]:
# Carregando os dados
data = pd.read_excel('../../Dados/Banco labels.xlsx')

In [3]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,2008-04-03,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2008,1
1,TB,SIM,,2006-10-03,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2006,1
2,TB,SIM,,2007-06-21,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2007,1
3,TB,SIM,,2009-09-30,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2009,1
4,TB,SIM,,2009-06-19,,TB,,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,2009-06-19,Not Selected,2009,1


In [4]:
# Alterando o nome da variável TB_desfecho_final_Dri para desfecho
data.rename(columns={'TB_desfecho_final_Dri':'desfecho'},inplace=True)

In [5]:
# Carregando as features salvas na seleção inicial de variáveis
import pickle
features_selecionadas = pickle.load(open('../../Dados/features_filtradas.pkl', 'rb'))

In [6]:
# Exibindo as variáveis salvas
print(features_selecionadas)

# Criando um dataframe a partir das features pré-selecionadas
dados = data[features_selecionadas].copy()

['desfecho', 'TTO_anterior_TB_triagem_enfermeiro', 'Cicatriz_BCG', 'Idade', 'Sexo', 'Raça', 'Estado_civil', 'Tem_companheiro', 'Peso_habitual', 'Peso_atual', 'Altura_cm', 'Tosse', 'Semanas_tosse', 'Expectoração', 'Semanas_expectoração', 'Hemoptóicos', 'Semanas_hemoptóicos', 'Hemoptise', 'Semanas_hemoptise', 'Quantidade_hemoptise', 'Sudorese_noturna', 'Semanas_sudorese', 'Febre', 'Semanas_febre', 'Dispnéia', 'Dispnéia_semanas', 'Perda_de_apetite', 'Perda_apetite_semanas', 'Perda_peso_10percent', 'Perda_peso_semanas', 'Dor_torácica', 'Dor_torácica_semanas', 'Internação_hospital_2anos', 'Prisão_2anos', 'Delegacia_2anos', 'Contato_TBP_2anos', 'Fuma', 'Número_cigarros_dia', 'CAGE']


In [7]:
len(dados.columns)

39

### 1.1 Pré-processamento dos dados

In [8]:
# Alterando os labels dos desfechos
dados.desfecho.replace(['TB', 'Não TB','IGN',8],['TB+','TB-','desconhecido','desconhecido'],inplace=True)

# Selecionando os desfechos que possuem diagnóstico conhecido: TB+ e TB-
dados = dados[(dados.desfecho == 'TB+') | (dados.desfecho == 'TB-')]

In [9]:
# Quantidade_hemoptise: Poucos valores significantes
dados.drop(['Quantidade_hemoptise'],axis=1,inplace=True)

# Peso atual/habitual: Não importa para o diagnóstico
dados.drop(['Peso_atual'],axis=1,inplace=True)
dados.drop(['Peso_habitual'],axis=1,inplace=True)

# Altura: Não importa para o diagnóstico
dados.drop(['Altura_cm'],axis=1,inplace=True)

# Número de cigarros
dados.drop(['Número_cigarros_dia'],axis=1,inplace=True)

# Número de cigarros
dados.drop(['Perda_apetite_semanas'],axis=1,inplace=True)

In [10]:
# Renomeando os valores IGN por ignorado
dados.replace(['IGN'],'ignorado',inplace=True)

# Substituindo os valores da variável Sexo
dados.Sexo.replace([8,2],['ignorado','ignorado'],inplace=True)
                    
# Substituindo os valores da variável Raça
dados.Raça.replace([8],'ignorado',inplace=True)
                    
# Substituindo os valores da variável Estado_civil
dados.Estado_civil.replace([np.nan, 8, 0],['ignorado','ignorado','ignorado'],inplace=True)        

# Substituindo os valores da variável Raça
dados.Raça.replace([8],'ignorado',inplace=True)

# Substituindo os valores da variável Semanas_tosse
dados.Semanas_tosse.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_expectoração
dados.Semanas_expectoração.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_tosse
dados.Semanas_hemoptóicos.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_hemoptise
dados.Semanas_hemoptise.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Sudorese_noturna.replace([9],'ignorado',inplace=True)

# Substituindo os valores da variável 
dados.Semanas_sudorese.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Semanas_febre.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Dispnéia.replace([2],['ignorado'],inplace=True)

# Substituindo os valores da variável 
dados.Dispnéia_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Perda_peso_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Dor_torácica_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

In [11]:
# Substituindo os valores por nulos 
dados.replace(['ignorado'],np.nan,inplace=True)

# Remover todos os casos ignorados
dados = dados.dropna(how='any')

In [12]:
# Alterando os labels para a utilização dos algoritmos
from sklearn.preprocessing import LabelEncoder

# Renomeando os labels existentes do dataframe
dados = dados.apply(LabelEncoder().fit_transform)

# Separação entre target e dados
y = dados.desfecho
X = dados.drop(['desfecho'],axis=1)

## 2. Seleção de variáveis utilizando Informação Mútua


In [14]:
# Importando módulo para seleção de features
# http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html#sklearn.feature_selection.mutual_info_classif
from sklearn.feature_selection import mutual_info_classif

In [15]:
# Teste com valores padrões
features = mutual_info_classif(X,y)

In [24]:
# Armazenando em dict
inf_mut  = dict()
inf_util = dict()

# Junção entre métrica e feature
for index, feature in enumerate(list(X.columns)):
    inf_mut[feature] = features[index]
    
    if features[index] > 0:
        inf_util[feature] = features[index]

In [25]:
# Verificando a informação mútua
inf_mut

{'CAGE': 0.015829009328919286,
 'Cicatriz_BCG': 0.0,
 'Contato_TBP_2anos': 0.012821783615031723,
 'Delegacia_2anos': 0.0,
 'Dispnéia': 0.0068815843112883801,
 'Dispnéia_semanas': 0.00834571881625501,
 'Dor_torácica': 0.019094037940621922,
 'Dor_torácica_semanas': 0.0035047476974441327,
 'Estado_civil': 0.018102587058212549,
 'Expectoração': 0.0,
 'Febre': 0.018397907231244792,
 'Fuma': 0.0076125180387420777,
 'Hemoptise': 0.003476980303217525,
 'Hemoptóicos': 0.0,
 'Idade': 0.032393019759390018,
 'Internação_hospital_2anos': 0.0,
 'Perda_de_apetite': 0.015839318668052771,
 'Perda_peso_10percent': 0.032304724116144712,
 'Perda_peso_semanas': 0.045984540859185685,
 'Prisão_2anos': 0.031202146906377459,
 'Raça': 0.0,
 'Semanas_expectoração': 0.050185033916471111,
 'Semanas_febre': 0.018122551802504994,
 'Semanas_hemoptise': 0.020396707370972988,
 'Semanas_hemoptóicos': 0.0025932452015400287,
 'Semanas_sudorese': 0.027954831119994195,
 'Semanas_tosse': 0.01429279626218305,
 'Sexo': 0.02042

In [26]:
# Observando features com informação maior que 0
inf_util

{'CAGE': 0.015829009328919286,
 'Contato_TBP_2anos': 0.012821783615031723,
 'Dispnéia': 0.0068815843112883801,
 'Dispnéia_semanas': 0.00834571881625501,
 'Dor_torácica': 0.019094037940621922,
 'Dor_torácica_semanas': 0.0035047476974441327,
 'Estado_civil': 0.018102587058212549,
 'Febre': 0.018397907231244792,
 'Fuma': 0.0076125180387420777,
 'Hemoptise': 0.003476980303217525,
 'Idade': 0.032393019759390018,
 'Perda_de_apetite': 0.015839318668052771,
 'Perda_peso_10percent': 0.032304724116144712,
 'Perda_peso_semanas': 0.045984540859185685,
 'Prisão_2anos': 0.031202146906377459,
 'Semanas_expectoração': 0.050185033916471111,
 'Semanas_febre': 0.018122551802504994,
 'Semanas_hemoptise': 0.020396707370972988,
 'Semanas_hemoptóicos': 0.0025932452015400287,
 'Semanas_sudorese': 0.027954831119994195,
 'Semanas_tosse': 0.01429279626218305,
 'Sexo': 0.0204265247288411,
 'Sudorese_noturna': 0.013855763523287656,
 'Tem_companheiro': 0.0068727403995108016,
 'Tosse': 0.012973561303128101}

In [27]:
len(inf_util)

25

In [28]:
features = list(inf_util.keys())

In [29]:
from sklearn.model_selection import GridSearchCV

In [30]:
len(inf_util)

25

In [31]:
from sklearn.tree import DecisionTreeClassifier as DT
from sklearn.model_selection import cross_val_score
param_grid = {'max_depth' : list(range(1,50))}
clf = DT(max_depth=2)
clf_cv = GridSearchCV(clf,param_grid=param_grid,cv=10,scoring='roc_auc')
clf_cv.fit(X[features],y)

cv_dt = cross_val_score(clf,X[features],y,cv=10,scoring='roc_auc')

In [32]:
clf_cv

GridSearchCV(cv=10, error_score='raise',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best'),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=0)

In [33]:
from sklearn.neural_network import MLPClassifier as NN
clf = NN()
nn = cross_val_score(clf,X[features],y,cv=10,scoring='roc_auc')

In [34]:
from sklearn.naive_bayes import MultinomialNB as NB
clf = NB()
nb = cross_val_score(clf,X[features],y,cv=10,scoring='roc_auc')

In [38]:
from sklearn.neighbors import KNeighborsClassifier as KNN
param_grid = {'n_neighbors' : list(range(1,62,2))}
clf = KNN()
clf_cv = GridSearchCV(clf,param_grid=param_grid,cv=10,scoring='roc_auc')
clf_cv.fit(X[features],y)
knn = cross_val_score(clf,X[features],y,cv=10,scoring='roc_auc')

In [39]:
clf_cv

GridSearchCV(cv=10, error_score='raise',
       estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform'),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'n_neighbors': [1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=0)

In [None]:
from sklearn.ensemble import RandomForestClassifier as RF
param_grid = {'n_estimators' : list(range(1,100)), 'max_depth' : list(range(1,40))}
clf = RF()
clf_cv = GridSearchCV(clf,param_grid=param_grid,cv=10,scoring='roc_auc')
clf_cv.fit(X[features],y)
rf = cross_val_score(clf,X[features],y,cv=10,scoring='roc_auc')

In [None]:
clf_cv

In [None]:
boxplot = np.concatenate((rf,knn,nb,nn,cv_dt),0)