# Seleção de Features usando o teste chi quadrado de independência

## 1. Carregando módulos e dados

In [20]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [26]:
# Carregando os dados
data = pd.read_csv('../../Dados/preprocessed.csv')

In [27]:
# Visualização da tabela
data.head(5)

Unnamed: 0,desfecho,TTO_anterior_TB_triagem_enfermeiro,Cicatriz_BCG,Idade,Sexo,Raça,Estado_civil,Tem_companheiro,Peso_habitual,Peso_atual,...,Perda_peso_semanas,Dor_torácica,Dor_torácica_semanas,Internação_hospital_2anos,Prisão_2anos,Delegacia_2anos,Contato_TBP_2anos,Fuma,Número_cigarros_dia,CAGE
0,TB+,Sim,Sim,30,Masculino,Não branco,Solteiro,Não,62.0,62.0,...,0,Não,0,Sim,Não,Não,Não,Fumante,5,Negativo
1,TB+,Sim,ignorado,53,Feminino,Branco,ignorado,Não,75.0,76.0,...,0,Não,0,Não,Não,Não,Não,Ex-fumante,20,Negativo
2,TB+,Não,Não,84,Feminino,Branco,viúvo,Não,56.0,48.0,...,3,Sim,3,Não,Não,Não,Não,Jamais fumante,ignorado,Negativo
3,TB+,Não,Sim,18,Feminino,Branco,Solteiro,Sim,51.0,48.0,...,0,Sim,20,Não,Não,Não,Sim,Jamais fumante,0,Negativo
4,TB+,Sim,ignorado,36,Masculino,Não branco,Solteiro,Não,63.0,58.0,...,0,Sim,0,Não,Não,Não,Não,Fumante,30,Positivo


## 2. Seleção de variáveis utilizando o teste do chi quadrado de independência

O teste do chi quadrado verifica se existe a relação entre duas variáveis categóricas. Dessa forma, será verificada a relação entre as variáveis presentes e o desfecho, ou seja, se o atributo possui alguma relação com o diagnóstico da doença ou não. 

O teste do Chi-quadrado é realizado para a verificação de independência entre duas variáveis categóricas.

- Hipótese nula $H_0$ : As variáveis são independentes.
- Hipótese alternativa $H_a$: As variáveis são dependentes

### 2.1 Abordagem conservadora: Deletar os valores ignorados

In [52]:
# Criando um novo dataframe
dados_con = dados.copy()

# Substituindo os valores por nulos 
dados_con.replace(['ignorado'],np.nan,inplace=True)

# Remover todos os casos ignorados
dados_con = dados_con.dropna(how='any')

In [53]:
from scipy.stats import chi2_contingency

# Criando um DataFrame para o armazenamento dos valores

dict_features = dict()

for feature in list(dados_con.columns)[1:]:
    
    if dados[feature].dtype != 'O':
        continue
    
    print('Tabela de Contingência entre o desfecho e {}\n'.format(feature))
    
    # Contingency table from pandas
    cross_tab = pd.crosstab(dados_con[feature],dados_con['desfecho'],margins=True)
    print(pd.crosstab(dados_con[feature],dados_con['desfecho'],margins=True))
    print()
    
    # Chi Squared Test 
    chi2, p, dof, expected =  chi2_contingency(cross_tab)
    print('Chi2: {}\tp-value: {}\tDOF: {}\nExpected_val: \n{}\n\n'.format(chi2,p,dof,expected))
    
    dict_features[feature] = [chi2,p,dof,(len(dados_con[feature].unique()) - 1),]

Tabela de Contingência entre o desfecho e TTO_anterior_TB_triagem_enfermeiro

desfecho                            TB+  TB-   All
TTO_anterior_TB_triagem_enfermeiro                
Não                                 321  679  1000
Sim                                  73  218   291
All                                 394  897  1291

Chi2: 5.22965637752549	p-value: 0.2645344311714029	DOF: 4
Expected_val: 
[[  305.18977537   694.81022463  1000.        ]
 [   88.81022463   202.18977537   291.        ]
 [  394.           897.          1291.        ]]


Tabela de Contingência entre o desfecho e Cicatriz_BCG

desfecho      TB+  TB-   All
Cicatriz_BCG                
Não           134  412   546
Sim           260  485   745
All           394  897  1291

Chi2: 15.939385715311822	p-value: 0.0031015868131789664	DOF: 4
Expected_val: 
[[  166.63361735   379.36638265   546.        ]
 [  227.36638265   517.63361735   745.        ]
 [  394.           897.          1291.        ]]


Tabela de Contingên

In [54]:
# Criando um DataFrame a partir do dicionário criado anteriormente
chi2_dict = pd.DataFrame.from_dict(dict_features,orient='index')
chi2_dict.columns = ['chi2','pval','dof','dof_real']

# Dataframe criado
chi2_dict

Unnamed: 0,chi2,pval,dof,dof_real
Perda_peso_10percent,104.248427,1.224713e-21,4,1
Semanas_hemoptise,7.097436,0.9892786,18,8
Perda_apetite_semanas,77.935953,0.0001435037,38,18
Número_cigarros_dia,28.02606,0.9949237,50,24
Estado_civil,32.987962,6.189662e-05,8,3
Cicatriz_BCG,15.939386,0.003101587,4,1
Semanas_expectoração,67.279747,0.2420446,60,29
Sexo,27.998136,1.248379e-05,4,1
Dor_torácica_semanas,31.763715,0.9657957,48,23
Contato_TBP_2anos,6.210246,0.1839876,4,1


In [55]:
variaveis_dependentes   = chi2_dict[chi2_dict.pval < 0.05]
variaveis_independentes = chi2_dict[chi2_dict.pval > 0.05]

In [56]:
variaveis_dependentes

Unnamed: 0,chi2,pval,dof,dof_real
Perda_peso_10percent,104.248427,1.224713e-21,4,1
Perda_apetite_semanas,77.935953,0.0001435037,38,18
Estado_civil,32.987962,6.189662e-05,8,3
Cicatriz_BCG,15.939386,0.003101587,4,1
Sexo,27.998136,1.248379e-05,4,1
Perda_peso_semanas,152.887422,7.277058e-12,52,25
Delegacia_2anos,16.07737,0.002917083,4,1
Sudorese_noturna,15.25917,0.004192792,4,1
Prisão_2anos,17.741863,0.001385995,4,1
Febre,33.737163,8.436419e-07,4,1


In [57]:
variaveis_independentes

Unnamed: 0,chi2,pval,dof,dof_real
Semanas_hemoptise,7.097436,0.989279,18,8
Número_cigarros_dia,28.02606,0.994924,50,24
Semanas_expectoração,67.279747,0.242045,60,29
Dor_torácica_semanas,31.763715,0.965796,48,23
Contato_TBP_2anos,6.210246,0.183988,4,1
TTO_anterior_TB_triagem_enfermeiro,5.229656,0.264534,4,1
Semanas_sudorese,47.630545,0.136058,38,18
Dor_torácica,0.39748,0.982683,4,1
Expectoração,9.10102,0.058623,4,1
Dispnéia_semanas,47.958759,0.633512,52,25


In [36]:
len(variaveis_dependentes)

11

In [37]:
len(variaveis_independentes)

22

### 2.2 Considerando os casos ignorados

In [38]:
# Criando um DataFrame para o armazenamento dos valores

dict_features_ignorados = dict()

for feature in list(dados.columns)[1:]:
    
    if dados[feature].dtype != 'O':
        continue
    
    print('Tabela de Contingência entre o desfecho e {}\n'.format(feature))
    
    # Contingency table from pandas
    cross_tab = pd.crosstab(dados[feature],dados['desfecho'],margins=True)
    print(pd.crosstab(dados[feature],dados['desfecho'],margins=True))
    print()
    
    # Chi Squared Test 
    chi2, p, dof, expected =  chi2_contingency(cross_tab)
    print('Chi2: {}\tp-value: {}\tDOF: {}\nExpected_val: \n{}\n\n'.format(chi2,p,dof,expected))
    
    dict_features_ignorados[feature] = [chi2,p,dof,(len(dados[feature].unique()) - 1),]

Tabela de Contingência entre o desfecho e TTO_anterior_TB_triagem_enfermeiro

desfecho                            TB+   TB-   All
TTO_anterior_TB_triagem_enfermeiro                 
Não                                 668  1388  2056
Sim                                 202   453   655
ignorado                              1    15    16
All                                 871  1856  2727

Chi2: 5.508782301963685	p-value: 0.48039588021335167	DOF: 6
Expected_val: 
[[  656.68353502  1399.31646498  2056.        ]
 [  209.20608728   445.79391272   655.        ]
 [    5.1103777     10.8896223     16.        ]
 [  871.          1856.          2727.        ]]


Tabela de Contingência entre o desfecho e Cicatriz_BCG

desfecho      TB+   TB-   All
Cicatriz_BCG                 
Não           222   614   836
Sim           434   780  1214
ignorado      215   462   677
All           871  1856  2727

Chi2: 19.267143857915137	p-value: 0.0037354693229748413	DOF: 6
Expected_val: 
[[  267.01723506   568.9

In [39]:
# Criando um DataFrame a partir do dicionário criado anteriormente
chi2_dict_ignorados = pd.DataFrame.from_dict(dict_features_ignorados,orient='index')
chi2_dict_ignorados.columns = ['chi2','pval','dof','dof_real']

# Dataframe criado
chi2_dict_ignorados

Unnamed: 0,chi2,pval,dof,dof_real
Perda_peso_10percent,202.580545,5.356408999999999e-41,6,2
Semanas_hemoptise,9.840169,0.9951747,24,11
Perda_apetite_semanas,114.654345,8.700571e-08,46,22
Número_cigarros_dia,47.958919,0.9048948,62,30
Estado_civil,75.648454,3.557404e-12,10,4
Cicatriz_BCG,19.267144,0.003735469,6,2
Semanas_expectoração,93.464542,0.04542145,72,35
Sexo,53.659613,8.640003e-10,6,2
Dor_torácica_semanas,48.355437,0.8596691,60,29
Contato_TBP_2anos,17.496413,0.007621982,6,2


In [48]:
variaveis_dependentes_ignorados   = chi2_dict_ignorados[chi2_dict.pval < 0.05]
variaveis_independentes_ignorados = chi2_dict_ignorados[chi2_dict.pval > 0.05]

In [49]:
variaveis_dependentes_ignorados

Unnamed: 0,chi2,pval,dof,dof_real
Perda_peso_10percent,202.580545,5.356408999999999e-41,6,2
Perda_apetite_semanas,114.654345,8.700571e-08,46,22
Estado_civil,75.648454,3.557404e-12,10,4
Cicatriz_BCG,19.267144,0.003735469,6,2
Sexo,53.659613,8.640003e-10,6,2
Perda_peso_semanas,243.968239,2.0394090000000003e-23,62,30
Delegacia_2anos,20.875915,0.001931197,6,2
Sudorese_noturna,44.649227,5.49465e-08,6,2
Prisão_2anos,39.278211,6.312696e-07,6,2
Febre,94.59521,3.356747e-18,6,2


In [50]:
variaveis_independentes_ignorados

Unnamed: 0,chi2,pval,dof,dof_real
Semanas_hemoptise,9.840169,0.995175,24,11
Número_cigarros_dia,47.958919,0.904895,62,30
Semanas_expectoração,93.464542,0.045421,72,35
Dor_torácica_semanas,48.355437,0.859669,60,29
Contato_TBP_2anos,17.496413,0.007622,6,2
TTO_anterior_TB_triagem_enfermeiro,5.508782,0.480396,6,2
Semanas_sudorese,97.663878,6.4e-05,50,24
Dor_torácica,1.676404,0.946928,6,2
Expectoração,3.464444,0.748694,6,2
Dispnéia_semanas,71.652331,0.188163,62,30


In [43]:
len(variaveis_dependentes_ignorados)

11

In [51]:
len(variaveis_independentes_ignorados)

22

### 2.3 Abordagem utilizando One-Hot Encoding

Na MINHA OPINIÃO, não faz sentido.

In [84]:
one_hot = dados.copy()

In [85]:
lista = ['TTO_anterior_TB_triagem_enfermeiro', 'Cicatriz_BCG', 'Sexo', 'Raça', 'Estado_civil', 
         'Tem_companheiro', 'Tosse','Sudorese_noturna', 'Expectoração', 'Hemoptóicos','Hemoptise', 'Febre', 'Dispnéia',
         'Perda_de_apetite','Perda_peso_10percent','Dor_torácica','Internação_hospital_2anos',
         'Prisão_2anos', 'Delegacia_2anos', 'Contato_TBP_2anos', 'Fuma','CAGE']

In [86]:
for f in lista:
    col = pd.get_dummies(one_hot[f],prefix=f)
    one_hot.drop([f],axis=1,inplace=True)
    one_hot = one_hot.join(col)

In [87]:
list(one_hot.columns)

['desfecho',
 'Idade',
 'Peso_habitual',
 'Peso_atual',
 'Altura_cm',
 'Semanas_tosse',
 'Semanas_expectoração',
 'Semanas_hemoptóicos',
 'Semanas_hemoptise',
 'Semanas_sudorese',
 'Semanas_febre',
 'Dispnéia_semanas',
 'Perda_apetite_semanas',
 'Perda_peso_semanas',
 'Dor_torácica_semanas',
 'Número_cigarros_dia',
 'TTO_anterior_TB_triagem_enfermeiro_Não',
 'TTO_anterior_TB_triagem_enfermeiro_Sim',
 'TTO_anterior_TB_triagem_enfermeiro_ignorado',
 'Cicatriz_BCG_Não',
 'Cicatriz_BCG_Sim',
 'Cicatriz_BCG_ignorado',
 'Sexo_Feminino',
 'Sexo_Masculino',
 'Sexo_ignorado',
 'Raça_Branco',
 'Raça_Não branco',
 'Raça_ignorado',
 'Estado_civil_Casado',
 'Estado_civil_Separado',
 'Estado_civil_Solteiro',
 'Estado_civil_ignorado',
 'Estado_civil_viúvo',
 'Tem_companheiro_Não',
 'Tem_companheiro_Sim',
 'Tem_companheiro_ignorado',
 'Tosse_Não',
 'Tosse_Sim',
 'Tosse_ignorado',
 'Sudorese_noturna_Não',
 'Sudorese_noturna_Sim',
 'Sudorese_noturna_ignorado',
 'Expectoração_Não',
 'Expectoração_Sim',
 

In [89]:
# Criando um DataFrame para o armazenamento dos valores

dict_features_ohe = dict()

for feature in list(one_hot.columns)[1:]:
    
    print('Tabela de Contingência entre o desfecho e {}\n'.format(feature))
    
    # Contingency table from pandas
    cross_tab = pd.crosstab(one_hot[feature],one_hot['desfecho'],margins=True)
    print(pd.crosstab(one_hot[feature],one_hot['desfecho'],margins=True))
    print()
    
    # Chi Squared Test 
    chi2, p, dof, expected =  chi2_contingency(cross_tab)
    print('Chi2: {}\tp-value: {}\tDOF: {}\nExpected_val: \n{}\n\n'.format(chi2,p,dof,expected))
    
    dict_features_ohe[feature] = [chi2,p,dof,(len(one_hot[feature].unique()) - 1),]

Tabela de Contingência entre o desfecho e Idade

desfecho  TB+   TB-   All
Idade                    
9           0     1     1
12          2     1     3
13          4     5     9
14          7    16    23
15          9     7    16
16         13    12    25
17         12    17    29
18         19    24    43
19         17    19    36
20         18    18    36
21         20    22    42
22         28    22    50
23         22    30    52
24         26    26    52
25         11    20    31
26         22    22    44
27         27    26    53
28         15    33    48
29         16    23    39
30         24    30    54
31         19    14    33
32         16    31    47
33         26    30    56
34         22    27    49
35         18    27    45
36         15    36    51
37         11    34    45
38         17    25    42
39         13    18    31
40         15    23    38
...       ...   ...   ...
65          5    36    41
66          4    20    24
67          7    26    33
68          6  

In [90]:
# Criando um DataFrame a partir do dicionário criado anteriormente
chi2_dict_ohe = pd.DataFrame.from_dict(dict_features_ohe,orient='index')
chi2_dict_ohe.columns = ['chi2','pval','dof','dof_real']

# Dataframe criado
chi2_dict_ohe

Unnamed: 0,chi2,pval,dof,dof_real
Dor_torácica_ignorado,1.666108,7.968646e-01,4,1
Perda_apetite_semanas,114.654345,8.700571e-08,46,22
Fuma_ignorado,0.402505,9.822713e-01,4,1
TTO_anterior_TB_triagem_enfermeiro_Sim,0.479985,9.754200e-01,4,1
Dor_torácica_Sim,0.001252,9.999998e-01,4,1
Idade,209.255984,1.286586e-02,166,82
Hemoptóicos_Sim,0.027709,9.999049e-01,4,1
TTO_anterior_TB_triagem_enfermeiro_Não,1.164489,8.839100e-01,4,1
Semanas_expectoração,93.464542,4.542145e-02,72,35
Peso_habitual,166.334131,1.000000e+00,314,156


In [91]:
variaveis_dependentes_ohe   = chi2_dict_ohe[chi2_dict_ohe.pval < 0.05]
variaveis_independentes_ohe = chi2_dict_ohe[chi2_dict_ohe.pval > 0.05]

In [98]:
variaveis_dependentes_ohe[variaveis_dependentes_ohe['dof_real'] < 20]

Unnamed: 0,chi2,pval,dof,dof_real
Prisão_2anos_Sim,39.272006,6.120937e-08,4,1
Perda_peso_10percent_Não,188.86585,9.289662e-40,4,1
Sexo_Feminino,51.700612,1.593324e-10,4,1
Delegacia_2anos_Não,17.612812,0.001468711,4,1
Delegacia_2anos_Sim,20.448214,0.0004072664,4,1
Estado_civil_viúvo,24.049972,7.805348e-05,4,1
Cicatriz_BCG_Sim,14.609215,0.005584296,4,1
Sudorese_noturna_Não,44.478725,5.102603e-09,4,1
Dispnéia_Sim,20.340945,0.0004276529,4,1
Perda_de_apetite_Não,30.755863,3.433273e-06,4,1


In [102]:
# Variáveis dependentes para cada abordagem
variaveis_chi2_ohe = list(variaveis_dependentes_ohe.T.keys())
variaveis_chi2_primeira_abordagem = list(variaveis_dependentes.T.keys())

In [105]:
# Salvando os dataframes obtidos pelas abordagens utilizando o chi2
dataframe_chi2_ohe                = one_hot[variaveis_chi2_ohe]
dataframe_chi2_primeira_abordagem =   dados[variaveis_chi2_primeira_abordagem]

In [108]:
dataframe_chi2_primeira_abordagem

Unnamed: 0,Perda_peso_10percent,Perda_apetite_semanas,Estado_civil,Cicatriz_BCG,Sexo,Perda_peso_semanas,Delegacia_2anos,Sudorese_noturna,Prisão_2anos,Febre,Semanas_febre
0,Não,não se aplica,Solteiro,Sim,Masculino,0,Não,Não,Não,Não,0
1,Não,ignorado,ignorado,ignorado,Feminino,0,Não,Não,Não,Não,0
2,Sim,ignorado,viúvo,Não,Feminino,3,Não,Não,Não,Sim,3
3,Não,não se aplica,Solteiro,Sim,Feminino,0,Não,Não,Não,Não,0
4,Não,não se aplica,Solteiro,ignorado,Masculino,0,Não,Sim,Não,Não,0
5,Não,4,Casado,Sim,Masculino,0,Não,Sim,Não,Sim,0
6,Não,não se aplica,Solteiro,Não,Masculino,0,Não,Não,Não,Não,0
7,Não,não se aplica,Solteiro,Sim,Feminino,0,Não,Não,Não,Não,0
8,Sim,3,Casado,Não,Masculino,4,Não,Sim,Não,Sim,0
9,Não,não se aplica,Solteiro,Sim,Masculino,0,Não,Não,Não,Não,0
