# Seleção de Features usando regressão logística multivariada com regularização L1

## 1. Carregando módulos e dados

In [1]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [2]:
# Carregando os dados
data = pd.read_excel('../../Dados/Banco labels.xlsx')

In [3]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,2008-04-03,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2008,1
1,TB,SIM,,2006-10-03,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2006,1
2,TB,SIM,,2007-06-21,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2007,1
3,TB,SIM,,2009-09-30,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2009,1
4,TB,SIM,,2009-06-19,,TB,,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,2009-06-19,Not Selected,2009,1


In [4]:
# Alterando o nome da variável TB_desfecho_final_Dri para desfecho
data.rename(columns={'TB_desfecho_final_Dri':'desfecho'},inplace=True)

In [5]:
# Carregando as features salvas na seleção inicial de variáveis
import pickle
features_selecionadas = pickle.load(open('../../Dados/features_filtradas.pkl', 'rb'))

In [6]:
# Exibindo as variáveis salvas
print(features_selecionadas)

# Criando um dataframe a partir das features pré-selecionadas
dados = data[features_selecionadas].copy()

['desfecho', 'TTO_anterior_TB_triagem_enfermeiro', 'Cicatriz_BCG', 'Idade', 'Sexo', 'Raça', 'Estado_civil', 'Tem_companheiro', 'Peso_habitual', 'Peso_atual', 'Altura_cm', 'Tosse', 'Semanas_tosse', 'Expectoração', 'Semanas_expectoração', 'Hemoptóicos', 'Semanas_hemoptóicos', 'Hemoptise', 'Semanas_hemoptise', 'Quantidade_hemoptise', 'Sudorese_noturna', 'Semanas_sudorese', 'Febre', 'Semanas_febre', 'Dispnéia', 'Dispnéia_semanas', 'Perda_de_apetite', 'Perda_apetite_semanas', 'Perda_peso_10percent', 'Perda_peso_semanas', 'Dor_torácica', 'Dor_torácica_semanas', 'Internação_hospital_2anos', 'Prisão_2anos', 'Delegacia_2anos', 'Contato_TBP_2anos', 'Fuma', 'Número_cigarros_dia', 'CAGE']


### 1.1 Pré-processamento dos dados

In [7]:
# Alterando os labels dos desfechos
dados.desfecho.replace(['TB', 'Não TB','IGN',8],['TB+','TB-','desconhecido','desconhecido'],inplace=True)

# Selecionando os desfechos que possuem diagnóstico conhecido: TB+ e TB-
dados = dados[(dados.desfecho == 'TB+') | (dados.desfecho == 'TB-')]

In [8]:
# Quantidade_hemoptise: Poucos valores significantes
dados.drop(['Quantidade_hemoptise'],axis=1,inplace=True)

# Peso atual/habitual: Não importa para o diagnóstico
dados.drop(['Peso_atual'],axis=1,inplace=True)
dados.drop(['Peso_habitual'],axis=1,inplace=True)

# Altura: Não importa para o diagnóstico
dados.drop(['Altura_cm'],axis=1,inplace=True)

# Número de cigarros
dados.drop(['Número_cigarros_dia'],axis=1,inplace=True)

# Número de cigarros
dados.drop(['Perda_apetite_semanas'],axis=1,inplace=True)

In [9]:
# Renomeando os valores IGN por ignorado
dados.replace(['IGN'],'ignorado',inplace=True)

# Substituindo os valores da variável Sexo
dados.Sexo.replace([8,2],['ignorado','ignorado'],inplace=True)
                    
# Substituindo os valores da variável Raça
dados.Raça.replace([8],'ignorado',inplace=True)
                    
# Substituindo os valores da variável Estado_civil
dados.Estado_civil.replace([np.nan, 8, 0],['ignorado','ignorado','ignorado'],inplace=True)        

# Substituindo os valores da variável Raça
dados.Raça.replace([8],'ignorado',inplace=True)

# Substituindo os valores da variável Semanas_tosse
dados.Semanas_tosse.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_expectoração
dados.Semanas_expectoração.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_tosse
dados.Semanas_hemoptóicos.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_hemoptise
dados.Semanas_hemoptise.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Sudorese_noturna.replace([9],'ignorado',inplace=True)

# Substituindo os valores da variável 
dados.Semanas_sudorese.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Semanas_febre.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Dispnéia.replace([2],['ignorado'],inplace=True)

# Substituindo os valores da variável 
dados.Dispnéia_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Perda_peso_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Dor_torácica_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

In [10]:
# Features presentes
print(dados.columns)

Index(['desfecho', 'TTO_anterior_TB_triagem_enfermeiro', 'Cicatriz_BCG',
       'Idade', 'Sexo', 'Raça', 'Estado_civil', 'Tem_companheiro', 'Tosse',
       'Semanas_tosse', 'Expectoração', 'Semanas_expectoração', 'Hemoptóicos',
       'Semanas_hemoptóicos', 'Hemoptise', 'Semanas_hemoptise',
       'Sudorese_noturna', 'Semanas_sudorese', 'Febre', 'Semanas_febre',
       'Dispnéia', 'Dispnéia_semanas', 'Perda_de_apetite',
       'Perda_peso_10percent', 'Perda_peso_semanas', 'Dor_torácica',
       'Dor_torácica_semanas', 'Internação_hospital_2anos', 'Prisão_2anos',
       'Delegacia_2anos', 'Contato_TBP_2anos', 'Fuma', 'CAGE'],
      dtype='object')


In [11]:
# Substituindo os valores por nulos 
dados.replace(['ignorado'],np.nan,inplace=True)

# Remover todos os casos ignorados
dados = dados.dropna(how='any')

# Alterando os labels para a utilização dos algoritmos
from sklearn.preprocessing import LabelEncoder

# Renomeando os labels existentes do dataframe
dados = dados.apply(LabelEncoder().fit_transform)

# Separação entre target e dados
y = dados.desfecho
X = dados.drop(['desfecho'],axis=1)

## 2. Seleção de variáveis utilizando RL c L1

In [67]:
from sklearn.linear_model      import LogisticRegression as LR
from sklearn.feature_selection import SelectFromModel
from sklearn.model_selection import cross_val_score

### Testes com C's diferentes

### C = 0.01

In [165]:
clf   = LR(C=0.01,penalty='l1').fit(X,y)
model = SelectFromModel(clf, prefit=True)
Xn    = model.transform(X)

In [166]:
model.get_support()

array([False, False,  True, False, False, False, False, False,  True,
       False, False, False, False, False, False, False, False, False,
        True, False,  True, False, False,  True, False, False, False,
       False, False, False, False, False], dtype=bool)

In [167]:
sum(model.get_support() == True)

5

In [168]:
np.mean(cross_val_score(clf,Xn,y,cv=10,scoring='roc_auc'))

0.70809451219512209

In [169]:
from sklearn.tree import DecisionTreeClassifier as DT
clf = DT(max_depth=5)
np.mean(cross_val_score(clf,Xn,y,cv=10,scoring='roc_auc'))

0.70077876458112398

### C = 0.05

In [170]:
clf   = LR(C=0.05,penalty='l1').fit(X,y)
model = SelectFromModel(clf, prefit=True) 
Xn    = model.transform(X)

In [171]:
sum(model.get_support() == True)

12

In [172]:
np.mean(cross_val_score(clf,Xn,y,cv=10,scoring='roc_auc'))

0.71963746023329789

In [173]:
from sklearn.tree import DecisionTreeClassifier as DT
clf = DT(max_depth=5)
np.mean(cross_val_score(clf,Xn,y,cv=10,scoring='roc_auc'))

0.69122315747614005

### C = 0.1

In [174]:
clf   = LR(C=0.1,penalty='l1').fit(X,y)
model = SelectFromModel(clf, prefit=True)
Xn    = model.transform(X)

In [175]:
sum(model.get_support() == True)

17

In [176]:
np.mean(cross_val_score(clf,Xn,y,cv=10,scoring='roc_auc'))

0.73476537645811246

### C = 0.5

In [177]:
clf   = LR(C=0.5,penalty='l1').fit(X,y)
model = SelectFromModel(clf, prefit=True) 
Xn    = model.transform(X)

In [178]:
sum(model.get_support() == True)

28

In [179]:
np.mean(cross_val_score(clf,Xn,y,cv=10,scoring='roc_auc'))

0.73367775715800632

### C = 1

In [180]:
clf   = LR(C=1,penalty='l1').fit(X,y)
model = SelectFromModel(clf, prefit=True) 
Xn    = model.transform(X)

In [181]:
sum(model.get_support() == True)

29

In [182]:
np.mean(cross_val_score(clf,Xn,y,cv=10,scoring='roc_auc'))

0.73372150053022256

### C = 10

In [183]:
clf   = LR(C=10,penalty='l1').fit(X,y)
model = SelectFromModel(clf, prefit=True) 
Xn    = model.transform(X)

In [184]:
sum(model.get_support() == True)

30

In [185]:
np.mean(cross_val_score(clf,Xn,y,cv=10,scoring='roc_auc'))

0.73200424178154821