# Análise dos dados - Primeira seleção

Este notebook mostra a análise exploratória dos dados e o processo de seleção de features para a composição do modelo computacional a ser usado como suporte à triagem de pacientes com suspeita de tuberculose.

## Análise Exploratória dos Dados

In [1]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [2]:
# Carregando os dados
data = pd.read_excel('../Dados/Banco labels.xlsx')

In [3]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,2008-04-03,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2008,1
1,TB,SIM,,2006-10-03,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2006,1
2,TB,SIM,,2007-06-21,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2007,1
3,TB,SIM,,2009-09-30,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2009,1
4,TB,SIM,,2009-06-19,,TB,,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,2009-06-19,Not Selected,2009,1


In [4]:
# Tipos de dados presentes
data.dtypes.value_counts()

object            239
datetime64[ns]     19
int64              14
float64             9
dtype: int64

In [5]:
# Verificando os dados do tipo float64
print('Features do tipo float64: \n{}'.format(list(data.select_dtypes(include=['float64']).columns)))

# Verificando os dados do tipo int64
print('\nFeatures do tipo int64: \n{}'.format(list(data.select_dtypes(include=['int64']).columns)))

# Verificando os dados do tipo object
print('\nFeatures do tipo object: \n{}'.format(list(data.select_dtypes(include=['object']).columns)))

# Verificando os dados do tipo datetime64[ns]
print('\nFeatures do tipo datetime64[ns]: \n{}'.format(list(data.select_dtypes(include=['datetime64[ns]']).columns)))

Features do tipo float64: 
['Nome', 'Prontuário_PAAP', 'Número_cultura', 'Número_cultura_segunda_amostra', 'N°_TB', 'Peso_habitual', 'Peso_atual', 'Altura_cm', 'Valor_comida_bebida_CA']

Features do tipo int64: 
['Probabilidade_TBP_sem_RX_ou_BAAR', 'Probabilidade_TBP_com_RX_e_BAAR', 'Número_geral', 'Idade', 'Telefone_1', 'Telefone_2', 'CEP', 'Valor_pts_escore', 'Descrever_outros_fármacos', 'Valor_pernoite_CA', 'Valor_algo_CA', 'Valor_algo_posto_CA', 'ANO  de inclusao', 'Novocriteriotbafranio']

Features do tipo object: 
['TB_desfecho_final_Dri', 'Tbafranio', 'Obs_desfechoTB_Dri_Dani', 'Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 'Observaça0_desfecho_TB', 'Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 'Houve_desfecho_consulta_médica__inicial', 'Compareceram_consulta_medica', 'TTO_TB_confirmação_bacteriológica', 'TTO_TB_probabilidade', 'Transferência_internação_não_TB_outra_especialidade', 'TTO_pneum

### Visualização gráfica dos dados

Visualização gráficas dos dados de acordo com o WHO!

## Seleção de features

Durante o período de coleta de informações dos pacientes, várias informações sobre o tratamento foram coletadas, tais como datas de exames, sintomas, resultados de exames, entre outras informações. Nem todas as informações coletadas no estudo são úteis para a composição do Sistema de Apoio à Decisão(SAD), objetivo desse estudo. Dessa forma, features desnecessárias e não correlacionadas com a doença serão ignoradas para a composição do sistema.

### Seleção de features: primeiro filtro

A primeira avaliação de features é realizada de forma manual, tendo como objetivo eliminar variáveis que, obviamente, não possuem informação sobre a predição da doença. Tais variáveis a serem eliminadas são: informações pessoais do paciente, datas de exames, profissional avaliador, entre outras.

#### Features do tipo datetime64[ns]

Features do tipo <i>datetime64[ns]</i> representam datas de exames e procedimentos. Tais informações são irrelevantes para o estudo em questão, e podem ser removidas qualquer prejuízo.

Dessa forma, <b>19 features</b> podem ser eliminadas.

#### Features do tipo float64 e int64

As features do tipo float64 e int64 representam informações representadas em números, colhidas durante o estudo. De acordo com os atributos mostrados anteriormente, somente informações sobre idade, peso e altura serão considerados para análise futuras.

- Features não removidas: 'Peso_habitual', 'Peso_atual', 'Altura_cm', 'Idade'
- Dessa forma, as seguintes features são desconsideradas: 'Nome', 'Prontuário_PAAP', 'Número_cultura', 'Número_cultura_segunda_amostra', 'N°_TB', 'Valor_comida_bebida_CA', 'Probabilidade_TBP_sem_RX_ou_BAAR', 'Probabilidade_TBP_com_RX_e_BAAR', 'Número_geral', 'Telefone_1', 'Telefone_2', 'CEP', 'Valor_pts_escore', 'Descrever_outros_fármacos', 'Valor_pernoite_CA', 'Valor_algo_CA', 'Valor_algo_posto_CA', 'ANO  de inclusao', 'Novocriteriotbafranio'

Ao todo, <b>19 features</b> foram desconsideradas.

#### Features do tipo Object

Features consideradas do tipo Object são informações armazenadas como strings no banco de dados. As features a serem desconsideradas seguem o mesmo critério de seleção descrito anteriormente.

##### Desfecho ou target

Somente a feature <i>TB_desfecho_final_Dri</i> é considerada como o target ou desfecho do estudo, enquanto os outros atributos serão desconsiderados.

- Feature considera como desfecho: <i>TB_desfecho_final_Dri</i>
- Features desconsideradas (9 features): 'Tbafranio', 'Obs_desfechoTB_Dri_Dani', 'Data_inclusão','Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 'Observaça0_desfecho_TB','Desfecho_enfermeiro', 'Descrever_outros_defechos', 'Desfecho_TB'  

##### Outras features presentes do tipo Object 

As seguintes features foram desconsideradas nesse momento:

- Features relacionadas à informações pessoais do paciente, que não são relevantes para diagnóstico, além de informações relacionadas a profissionais encarregados de procedimentos médicos (61 features): 'Onde_vc_mora_CA', 'Transporte_CA', 'Custo_transporte_reais_CA', 'Acompanhado_CA', 'Número_pessoas_CA', 'Horas_saiu_de_casa_CA', 'Horas_Chegou_posto_CA', 'Horas_viu_profissional_CA', 'Tempo_até_o_posto_minutos_CA', 'Caso_FORA_DO_RJ_retorno_onde_pernoitar_CA', 'Pagará_pernoite', 'Trouxe_algo_amigos_CA', 'Comeu_bebeu_CA', 'Pagou_algo_no_posto_CA', 'Profissão_CA', 'Perdeu_aula_hoje_CA', 'Deixou_de_ganhar_dinheiro_hoje_CA', 'Quanto_deixou_ganhar_CA', 'Caso_acompanhado_quem_custeou_tudo_CA', 'Valor_CA','Nome_mãe', 'Endereço2', 'Bairro_Residência', 'Cidade_residência', 'Naturalidade_cidade', 'Naturalidade_estado2', 'Mora_no_Rio_há_quantos_anos', 'Avaliador_custo_CA', 'Resultado_cultura_final < 3 & Realizou_RX = 1  (FILTER)', 'Karen\_amostra', 'Óbito', 'Causa_óbito', 'Número_laboratório', 'Biometrix_inserido_tabela_por_nomes', 'Resultado_biometrix_CTMtb', 'Resultados_biometrix_CTinterno', 'Resultado_biometrix_bula', 'Total_escore_Paulo', 'Leitor_PT', 'Enfemeiro_avaliação','Motivo_mudança','Descrever_outro_motivo_mudança','Médico_avaliador_Fup', 'Médico_avaliador_Fup', 'HIV_teste_Fup', 'Diagnóstico_90_dias', 'Outro_diagnóstico_Fup', 'Descrever_outro_diagnóstico','Motivo_mudança', 'Descrever_outro_motivo_mudança', 'Peso_atual_Fup', 'Médico_avaliador', 'Descrever_outra_patologia', 'Compareceram_consulta_medica','Escore_Cat', 'Data_RX', 'Esquema_utilizado_tto_anterior', 'Em_caso_tto_TB_marcar_opções',  'Mudança_esquema_tto_TB', 'Outros_farmacos_mudança_tto2', 'Descrever_outros_farmacos_mudança_tto2' 

- Features representando a probabilidade da doença presente. Essas probabilidades são estimadas de acordo com os dados obtidos durante o projeto, portanto podem ser consideradas como redundantes(15 features): 'Probabilidade_TB_com_RX_Fup', 'TTO_TB_probabilidade','Probabilidade_TB_com_RX_Fup','Cavitação_alta_média_probabilidade', 'RX_Padrão_TÍPICO_alta_média_probabilidade', 'RX_padrão_COMPATIVEL_alta_média_probabilidade', 'RX_Padrão_ATÍPICO_alta_média_probabilidade', 'RX_baixa_probabilidade_TB_INATIVA_SEQUELA', 'RX_baixa_probabilidade_TB_OUTRA_DOENÇA2', 'RX_baixa_probabilidade_NORMAL','Probabilidade_médica_TB_ativa', 
'Probabilidade_TBP_com_RX', 'Probabilidade_TBP_comRX_e_sem_BAAR', 'Probabilidade_TBP_com_RX_sem_BAAR_percent', 'Probabilidade_TBP_com_2_BAAR_negativos'


Ao todo, <b>85 features</b> foram desconsideradas.

#### Resumo da primeira avaliação

Ao todo, 118 features foram desconsideras na primeira filtragem, realizada manualmente. Dessa forma, de 280 variáveis presentes(desconsiderando o desfecho), existem 163 features a serem avaliadas.

In [6]:
features_filtradas = ['Data_inclusão', 'Data_avaliação_médica', 'Data_início_TTO', 'Data_coleta_escarro_1', 'Data_coleta_escarro_2', 
                      'VAR00003', 'Data_TB_passado', 'Data_quimio', 'Data_nascimento', 'Data_assinatura_TCLE', 'Data_aplicação__PT', 
                      'Data_leitura_PT', 'Data_avaliação', 'Data_HIV', 'Data_mudança', 'Data_RX_Fup', 'Data_anti_HIV', 'Data_Fup', 
                      'Data_avaliação_custo_CA', 'Nome', 'Prontuário_PAAP', 'Número_cultura', 'Número_cultura_segunda_amostra', 
                      'N°_TB', 'Valor_comida_bebida_CA', 'Probabilidade_TBP_sem_RX_ou_BAAR', 'Probabilidade_TBP_com_RX_e_BAAR', 
                      'Número_geral', 'Telefone_1', 'Telefone_2','ANO  de inclusao', 'CEP', 'Valor_pts_escore', 'Descrever_outros_fármacos', 'Valor_pernoite_CA', 
                      'Valor_algo_CA', 'Valor_algo_posto_CA','Novocriteriotbafranio', 'Tbafranio', 'Obs_desfechoTB_Dri_Dani', 
                      'Data_inclusão','Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 'Observaça0_desfecho_TB','Desfecho_enfermeiro', 
                      'Descrever_outros_defechos', 'Desfecho_TB','Onde_vc_mora_CA', 'Transporte_CA', 'Custo_transporte_reais_CA', 'Acompanhado_CA', 
                      'Número_pessoas_CA', 'Horas_saiu_de_casa_CA', 'Horas_Chegou_posto_CA', 'Horas_viu_profissional_CA', 'Tempo_até_o_posto_minutos_CA', 
                      'Caso_FORA_DO_RJ_retorno_onde_pernoitar_CA', 'Pagará_pernoite', 'Trouxe_algo_amigos_CA', 'Comeu_bebeu_CA', 'Pagou_algo_no_posto_CA', 
                      'Profissão_CA', 'Perdeu_aula_hoje_CA', 'Deixou_de_ganhar_dinheiro_hoje_CA', 'Quanto_deixou_ganhar_CA', 'Caso_acompanhado_quem_custeou_tudo_CA', 
                      'Valor_CA','Nome_mãe', 'Endereço2', 'Bairro_Residência', 'Cidade_residência', 'Naturalidade_cidade', 'Naturalidade_estado2', 
                      'Mora_no_Rio_há_quantos_anos', 'Avaliador_custo_CA', 'Resultado_cultura_final < 3 & Realizou_RX = 1  (FILTER)', 'Karen_amostra', 'Óbito', 
                      'Causa_óbito', 'Número_laboratório', 'Biometrix_inserido_tabela_por_nomes', 'Resultado_biometrix_CTMtb', 'Resultados_biometrix_CTinterno', 
                      'Resultado_biometrix_bula', 'Total_escore_Paulo', 'Leitor_PT', 'Enfemeiro_avaliação','Motivo_mudança','Descrever_outro_motivo_mudança', 
                      'Médico_avaliador_Fup', 'Médico_avaliador_Fup', 'HIV_teste_Fup', 'Diagnóstico_90_dias', 'Outro_diagnóstico_Fup', 'Descrever_outro_diagnóstico',
                      'Motivo_mudança', 'Descrever_outro_motivo_mudança', 'Peso_atual_Fup', 'Médico_avaliador', 'Descrever_outra_patologia', 
                      'Compareceram_consulta_medica','Escore_Cat', 'Data_RX', 'Esquema_utilizado_tto_anterior', 'Em_caso_tto_TB_marcar_opções', 'Mudança_esquema_tto_TB', 
                      'Outros_farmacos_mudança_tto2', 'Descrever_outros_farmacos_mudança_tto2','Probabilidade_TB_com_RX_Fup', 'TTO_TB_probabilidade',
                      'Probabilidade_TB_com_RX_Fup','Cavitação_alta_média_probabilidade', 'RX_Padrão_TÍPICO_alta_média_probabilidade', 
                      'RX_padrão_COMPATIVEL_alta_média_probabilidade', 'RX_Padrão_ATÍPICO_alta_média_probabilidade', 'RX_baixa_probabilidade_TB_INATIVA_SEQUELA', 
                      'RX_baixa_probabilidade_TB_OUTRA_DOENÇA2', 'RX_baixa_probabilidade_NORMAL','Probabilidade_médica_TB_ativa', 'Probabilidade_TBP_com_RX', 
                      'Probabilidade_TBP_comRX_e_sem_BAAR', 'Probabilidade_TBP_com_RX_sem_BAAR_percent', 'Probabilidade_TBP_com_2_BAAR_negativos']

dados_filtrados = data.drop(features_filtradas,axis=1)

In [7]:
# Dados presentes
dados_filtrados.dtypes.value_counts()

object     159
float64      3
int64        1
dtype: int64

In [8]:
# Verificando os dados do tipo float64
print('Features do tipo float64: \n{}'.format(list(dados_filtrados.select_dtypes(include=['float64']).columns)))

# Verificando os dados do tipo int64
print('\nFeatures do tipo int64: \n{}'.format(list(dados_filtrados.select_dtypes(include=['int64']).columns)))

# Verificando os dados do tipo object
print('\nFeatures do tipo object: \n{}'.format(list(dados_filtrados.select_dtypes(include=['object']).columns)))

Features do tipo float64: 
['Peso_habitual', 'Peso_atual', 'Altura_cm']

Features do tipo int64: 
['Idade']

Features do tipo object: 
['TB_desfecho_final_Dri', 'Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 'Houve_desfecho_consulta_médica__inicial', 'TTO_TB_confirmação_bacteriológica', 'Transferência_internação_não_TB_outra_especialidade', 'TTO_pneumologia_patologia_não_TB', 'Alta', 'Asma', 'TTO_anterior_TB_triagem_enfermeiro', 'Fator_risco_TBP_MDR', 'Tto_TB_prescrito', 'Rifampicina_TTO_TB', 'Isoniazida_TTO_TB', 'Pirazinamida_TTO_TB', 'Etambutol_TTO_TB', 'Espécime_1', 'Espécime_2', 'Número_cruzes_BAAR_1', 'Número_cruzes_BAAR_2', 'Resultado_BAAR_Final', 'Número_Cruzes_Cultura_1', 'Número_cruzes_Cultura_2', 'Resultado_cultura_final', 'Realizou_RX', 'TSA', 'Detect_TB_Primeira_amostra', 'Detect_TB_Segunda_amostra', 'Cicatriz_BCG', 'Tto_anterior_TB_avaliação_médica', 'Tto_anterior_TB_INH', 'Tto_anterior_TB_RIF', 'Quimio_prévia'

### Seleção de features: segundo filtro

Features que são resultados de exames (tais como baciloscopia, cultura, raio-X e outros) não podem ser utilizadas como atributos em um processo de triagem de pacientes. Outras features que representam fármacos utilizados durante o tratamento de pacientes com TB positiva também são descartadas.

Features desconsideradas (51 features): 'Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 'Houve_desfecho_consulta_médica__inicial', 'TTO_TB_confirmação_bacteriológica', 'Transferência_internação_não_TB_outra_especialidade', 'TTO_pneumologia_patologia_não_TB', 'Alta', 'Número_cruzes_BAAR_1', 'Número_cruzes_BAAR_2', 'Resultado_BAAR_Final', 'Número_Cruzes_Cultura_1', 'Número_cruzes_Cultura_2', 'Resultado_cultura_final', 'Realizou_RX', 'TSA', 'Detect_TB_Primeira_amostra', 'Detect_TB_Segunda_amostra', 'Cavitação__RX_Fup_Alta_média', 'Padrão_RX_TIPICO_Fup_Alta_média', 'Padrão_RX_COMPATIVEL_Fup_Alta_Média', 'Padrão_RX_ATIPICO_Fup_Alta_Media', 'Padrão_RX_Fup_Baixa', 'Fup_RX', 'Fator_risco_TBP_MDR','Número_anos', 'Resultado_PPT_mm', 'Critério_de_entrada_perfil_bacteriologico_Fup', 'Outros_fármacos', 'Reação_Adversa_Fármacos_TTO_TB', 'Reação_adversa_maior', 'Reação_adversa_menor', 'Rifampicina_mudança_tto', 'Pirazinamida_mudança_tto', 'Isoniazida_mudança_tto', 'Etambutol_mudança_tto', 'Etionamida_mudança_tto', 'Estreptomicina_mudança_tto', 'Ofloxacino_mudança_tto', 'Tosse_diminuída', 'Incluído_TB_Adapt', 'Critério_1_TB_Adapt_tosse_por_mais_2_semanas', 'Critério_2_TB_Adapt_assinou_TCLE', 'Aplicou_PPD', 'Leu_PT', 'Outras', 'descrever_outras_comorbidades2','Espécime_1', 'Espécime_2'

#### Resumo da segunda avaliação

Ao final da segunda avaliação, mais 51 features foram eliminadas. Assim, 112 atributos ainda necessitam ser avaliados.

In [9]:
features_filtradas     = ['Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 
                          'Houve_desfecho_consulta_médica__inicial', 'TTO_TB_confirmação_bacteriológica', 'Transferência_internação_não_TB_outra_especialidade', 
                          'TTO_pneumologia_patologia_não_TB', 'Alta', 'Número_cruzes_BAAR_1', 'Número_cruzes_BAAR_2', 'Resultado_BAAR_Final', 
                          'Número_Cruzes_Cultura_1', 'Número_cruzes_Cultura_2', 'Resultado_cultura_final', 'Realizou_RX', 'TSA', 'Detect_TB_Primeira_amostra', 
                          'Detect_TB_Segunda_amostra', 'Cavitação__RX_Fup_Alta_média', 'Padrão_RX_TIPICO_Fup_Alta_média', 'Padrão_RX_COMPATIVEL_Fup_Alta_Média', 
                          'Padrão_RX_ATIPICO_Fup_Alta_Media', 'Padrão_RX_Fup_Baixa', 'Fup_RX', 'Fator_risco_TBP_MDR','Número_anos', 'Resultado_PPT_mm', 
                          'Critério_de_entrada_perfil_bacteriologico_Fup', 'Outros_fármacos', 'Reação_Adversa_Fármacos_TTO_TB', 'Reação_adversa_maior', 
                          'Reação_adversa_menor', 'Rifampicina_mudança_tto', 'Pirazinamida_mudança_tto', 'Isoniazida_mudança_tto', 'Etambutol_mudança_tto', 
                          'Etionamida_mudança_tto', 'Estreptomicina_mudança_tto', 'Ofloxacino_mudança_tto', 'Tosse_diminuída', 'Incluído_TB_Adapt', 
                          'Critério_1_TB_Adapt_tosse_por_mais_2_semanas', 'Critério_2_TB_Adapt_assinou_TCLE', 'Aplicou_PPD', 'Leu_PT', 'Outras', 
                          'descrever_outras_comorbidades2','Espécime_1', 'Espécime_2'] 

dados_filtrados = dados_filtrados.drop(features_filtradas,axis=1)

In [10]:
# Dados presentes
dados_filtrados.dtypes.value_counts()

object     108
float64      3
int64        1
dtype: int64

In [11]:
# Verificando os dados do tipo float64
print('Features do tipo float64: \n{}'.format(list(dados_filtrados.select_dtypes(include=['float64']).columns)))

# Verificando os dados do tipo int64
print('\nFeatures do tipo int64: \n{}'.format(list(dados_filtrados.select_dtypes(include=['int64']).columns)))

# Verificando os dados do tipo object
print('\nFeatures do tipo object: \n{}'.format(list(dados_filtrados.select_dtypes(include=['object']).columns)))

Features do tipo float64: 
['Peso_habitual', 'Peso_atual', 'Altura_cm']

Features do tipo int64: 
['Idade']

Features do tipo object: 
['TB_desfecho_final_Dri', 'Asma', 'TTO_anterior_TB_triagem_enfermeiro', 'Tto_TB_prescrito', 'Rifampicina_TTO_TB', 'Isoniazida_TTO_TB', 'Pirazinamida_TTO_TB', 'Etambutol_TTO_TB', 'Cicatriz_BCG', 'Tto_anterior_TB_avaliação_médica', 'Tto_anterior_TB_INH', 'Tto_anterior_TB_RIF', 'Quimio_prévia', 'Quimio_INH', 'Quimio_RIF', 'Desfecho_quimio', 'HIV', 'Comorbidades', 'Sexo', 'Raça', 'Raça_2', 'Estado_civil', 'Tem_companheiro', 'Tosse', 'Semanas_tosse', 'Expectoração', 'Semanas_expectoração', 'Hemoptóicos', 'Semanas_hemoptóicos', 'Hemoptise', 'Semanas_hemoptise', 'Quantidade_hemoptise', 'Sudorese_noturna', 'Semanas_sudorese', 'Febre', 'Semanas_febre', 'Dispnéia', 'Dispnéia_semanas', 'Perda_de_apetite', 'Perda_apetite_semanas', 'Perda_peso_10percent', 'Perda_peso_semanas', 'Dor_torácica', 'Dor_torácica_semanas', 'Internação_hospital_2anos', 'Prisão_2anos', 'Dele

### Seleção de features: Terceiro filtro

Serão utilizadas tabelas de contingência para a verificação de variáveis com altos índices de valores ignorados durante a pesquisa.

In [12]:
# Importando o módulo para realização do teste do chi-quadrado
from scipy.stats import chi2_contingency

In [13]:
# Alterando o nome do atributo TB_desfecho_final_Dri para desfecho
dados_filtrados.rename(index=str,columns={'TB_desfecho_final_Dri':'desfecho'},inplace=True)

# Renomeando os labels do desfecho
dados_filtrados['desfecho'].replace(['Não TB','TB',8,'IGN'],['TB-','TB+','ignorado','ignorado'],inplace=True)

# Dados somente de diagnósticos conhecidos: TB+/-
dados_filtrados = dados_filtrados[(dados_filtrados.desfecho == 'TB-') | (dados_filtrados.desfecho == 'TB+')]

In [14]:
# Substituíndo valores ignorados para valores não computados pela tabela de contingência
dados_filtrados.replace(['IGN',8,'"não se aplica"','não se aplica',np.nan],'ignorado',inplace=True)

In [15]:
# Mostrando a proporção de valores para cada feature 
for feature in list(dados_filtrados.columns):
    
    values = (dados_filtrados[feature].value_counts(dropna=False)/len(dados_filtrados))    
    print('Feature ' + feature)
    print(100 * values)
    print()

Feature desfecho
TB-    68.060139
TB+    31.939861
Name: desfecho, dtype: float64

Feature Asma
ignorado    86.982032
Não          9.460946
Sim          3.557022
Name: Asma, dtype: float64

Feature TTO_anterior_TB_triagem_enfermeiro
Não         75.394206
Sim         24.019069
ignorado     0.586725
Name: TTO_anterior_TB_triagem_enfermeiro, dtype: float64

Feature Tto_TB_prescrito
ignorado    74.330766
Sim         17.161716
Não          8.507517
Name: Tto_TB_prescrito, dtype: float64

Feature Rifampicina_TTO_TB
ignorado    83.314998
Sim         16.538320
Não          0.146681
Name: Rifampicina_TTO_TB, dtype: float64

Feature Isoniazida_TTO_TB
ignorado    83.314998
Sim         16.538320
Não          0.146681
Name: Isoniazida_TTO_TB, dtype: float64

Feature Pirazinamida_TTO_TB
ignorado    83.278328
Sim         16.685002
Não          0.036670
Name: Pirazinamida_TTO_TB, dtype: float64

Feature Etambutol_TTO_TB
ignorado    83.571691
Não         13.054639
Sim          3.373671
Name: Etambutol_

In [16]:
# Verificando as features com valores contínuos
features_continuas = ['Semanas_sudorese','Semanas_tosse','Quantidade_hemoptise','Perda_apetite_semanas','Perda_peso_semanas',
                      'Dispnéia_semanas','Dor_torácica_semanas','Semanas_expectoração','Semanas_febre','Semanas_hemoptóicos']

dados_continuos = data[features_continuas]

In [17]:
# Como visto abaixo, mais de 50% dos dados de Semanas_sudorese são inúteis.
dados_continuos.Semanas_sudorese.value_counts()/len(data)

não se aplica     0.684319
1                 0.071217
2                 0.059575
4                 0.045195
0                 0.037891
3                 0.025337
8                 0.020543
ignorado          0.015978
12                0.012782
6                 0.007989
16                0.004565
5                 0.003424
24                0.002967
48                0.001598
20                0.001370
18                0.001141
88                0.000685
9                 0.000685
10                0.000457
180               0.000228
96                0.000228
52                0.000228
15                0.000228
19                0.000228
crônico+sempre    0.000228
28                0.000228
32                0.000228
36                0.000228
14                0.000228
Name: Semanas_sudorese, dtype: float64

In [18]:
# 22% de dados irrelevantes.
len(dados_continuos[dados_continuos.Semanas_tosse.isin(['não se aplica','ignorado',0])])/len(dados_continuos)

0.2214106368409039

In [19]:
# Não se aplica em 85%
dados_continuos['Semanas_hemoptóicos'].value_counts()/len(data)

não se aplica     0.840447
0                 0.058662
1                 0.038119
ignorado          0.019858
2                 0.016891
4                 0.010728
3                 0.005022
8                 0.003424
12                0.002283
16                0.000913
6                 0.000913
24                0.000457
5                 0.000228
144               0.000228
9                 0.000228
88                0.000228
18                0.000228
crônico+sempre    0.000228
32                0.000228
48                0.000228
52                0.000228
15                0.000228
Name: Semanas_hemoptóicos, dtype: float64

In [20]:
# Não se aplica em 60%
dados_continuos['Semanas_febre'].value_counts()/len(data)

não se aplica     0.615841
1                 0.104542
2                 0.073727
0                 0.064597
4                 0.048619
3                 0.027619
8                 0.021685
ignorado          0.012326
12                0.008902
6                 0.005935
16                0.004109
5                 0.002739
24                0.001826
20                0.001826
18                0.001370
88                0.000913
10                0.000913
48                0.000457
28                0.000457
crônico+sempre    0.000457
9                 0.000457
7                 0.000228
15                0.000228
96                0.000228
Name: Semanas_febre, dtype: float64

In [21]:
# Não se aplica em 30%
dados_continuos['Semanas_expectoração'].value_counts()/len(data)

não se aplica     0.332801
2                 0.133075
4                 0.113216
1                 0.105912
8                 0.065054
3                 0.057065
0                 0.044967
12                0.038347
6                 0.021228
16                0.016206
24                0.014609
ignorado          0.012326
5                 0.012098
48                0.007076
crônico+sempre    0.006391
20                0.004337
32                0.002283
40                0.001826
10                0.001598
18                0.001598
9                 0.001141
52                0.001141
96                0.000913
7                 0.000913
14                0.000457
58                0.000457
13                0.000228
15                0.000228
19                0.000228
333               0.000228
72                0.000228
28                0.000228
50                0.000228
30                0.000228
80                0.000228
36                0.000228
104               0.000228
3

In [22]:
# Não se aplica em 30%
dados_continuos['Dor_torácica_semanas'].value_counts()/len(data)

não se aplica     0.335540
2                 0.122118
1                 0.113673
4                 0.098836
0                 0.069162
8                 0.058662
3                 0.046565
12                0.037891
ignorado          0.033097
6                 0.018032
16                0.014152
24                0.013696
5                 0.008446
20                0.007076
48                0.005935
crônico+sempre    0.005250
40                0.001598
32                0.001370
18                0.001370
52                0.001370
10                0.000913
9                 0.000685
58                0.000685
104               0.000457
7                 0.000457
28                0.000457
14                0.000457
80                0.000457
44                0.000228
50                0.000228
15                0.000228
96                0.000228
56                0.000228
19                0.000228
180               0.000228
Name: Dor_torácica_semanas, dtype: float64

In [23]:
# Não se aplica em 30%
dados_continuos['Dispnéia_semanas'].value_counts()/len(data)

não se aplica     0.330746
1                 0.113673
2                 0.108194
4                 0.093814
0                 0.059119
8                 0.058434
3                 0.041543
12                0.040173
ignorado          0.037206
crônico+sempre    0.021228
24                0.017576
6                 0.016206
16                0.015293
5                 0.009815
48                0.008446
20                0.007076
32                0.003652
18                0.002054
9                 0.002054
40                0.002054
10                0.002054
80                0.001370
58                0.001370
52                0.001141
28                0.000913
44                0.000685
14                0.000457
50                0.000457
104               0.000457
7                 0.000457
78                0.000228
156               0.000228
180               0.000228
36                0.000228
56                0.000228
15                0.000228
19                0.000228
3

In [24]:
# Ignorados + não se aplica superam 80%
dados_continuos['Perda_peso_semanas'].value_counts()/len(data)

não se aplica     0.730655
ignorado          0.079206
4                 0.035608
8                 0.030815
12                0.025108
2                 0.013467
16                0.013467
24                0.012782
3                 0.009815
1                 0.009359
6                 0.008674
48                0.006848
20                0.005250
40                0.002967
0                 0.002054
32                0.002054
5                 0.001598
9                 0.001598
10                0.001598
18                0.000913
crônico+sempre    0.000913
28                0.000685
36                0.000685
52                0.000685
104               0.000457
17                0.000457
90                0.000228
15                0.000228
96                0.000228
19                0.000228
25                0.000228
29                0.000228
30                0.000228
8888              0.000228
38                0.000228
44                0.000228
Name: Perda_peso_semanas, dt

In [25]:
# Ignorados + não se aplica superam 70%
dados_continuos['Perda_apetite_semanas'].value_counts()/len(data)

ignorado          0.396941
não se aplica     0.342616
1                 0.050902
2                 0.050217
4                 0.045652
0                 0.030587
8                 0.021228
3                 0.015293
12                0.014837
6                 0.007533
16                0.006619
5                 0.004565
24                0.003880
20                0.003652
crônico+sempre    0.001598
18                0.000685
32                0.000457
48                0.000457
9                 0.000457
10                0.000457
7                 0.000228
30                0.000228
40                0.000228
52                0.000228
80                0.000228
14                0.000228
Name: Perda_apetite_semanas, dtype: float64

In [26]:
# Quantidade Irrelevante de valores úteis
dados_continuos['Quantidade_hemoptise'].value_counts()/len(data)

888                    0.566994
Não se aplica          0.331659
< 1 copinho de café    0.063228
IGN                    0.018032
> 1 copinho de café    0.009359
999                    0.008446
>= 1 copo de geléia    0.002283
Name: Quantidade_hemoptise, dtype: float64

In [27]:
# Selecionando features que possuem a quantidade de ignorados maior que 30%
features_ignoradas = ['Asma','Tto_TB_prescrito','Rifampicina_TTO_TB','Isoniazida_TTO_TB','Pirazinamida_TTO_TB',
                      'Etambutol_TTO_TB','Tto_anterior_TB_avaliação_médica','Tto_anterior_TB_INH','Tto_anterior_TB_RIF',
                      'Quimio_prévia','Quimio_INH','Quimio_RIF','Desfecho_quimio','HIV','TBP_Morava_com_vc','TBP_trabalhava_com_vc',
                      'TBP_amigo_parente_não_morava_com_vc','Contato_TBP_menor_3anos','Contato_TBP_Casa','Contato_TBP_Trabalho',
                      'Contato_TBP_Social','IRC','Hepatopatia','Etilismo','Uso_corticoide','Neo_maligna','Transplante','DM_NID','DM_ID',
                      'Silicose','DPOC','Doença_pumonar_difusa','Etionamida_TTO_TB','Estreptomicina_TTO_TB','Ofolxacino_TTO_TB','Exantema',
                      'Confusão_mental','Icterícia','Hepatotoxicidade','Vertigem','Hipoacusia','Crise_convulsiva','Encefalopatia','Psicose',
                      'Neurite_óptica','Plaquetopenia_leucopenia_eosinofilia','Anemia_hemolítica_vasculite','Choque_púrpura','Nefrite','Insuficiência_renal_rabdomiólise',
                      'Prurido','Anorexia','Náuseas_vômitos','Dor_abdominal','Dor_articular','Neurite_periférica','Euforia','Insônia_sonolência','Ansiedade',
                      'Cefaléia','Acne','Hiperuricemia','Febre_AD','Hipotensão_ortostática','Ginecomastia','Comorbidades','Raça_2',
                      
                      # Features contínuas
                      'Semanas_sudorese','Quantidade_hemoptise','Perda_apetite_semanas','Perda_peso_semanas',
                      'Dispnéia_semanas','Dor_torácica_semanas','Semanas_expectoração','Semanas_febre','Semanas_hemoptóicos',
                      
                      # Bebidas...
                      'Cachaça', 'Cerveja', 'Nenhuma_bebida_alcoólica', 'Outras_bebidas_alcoólicas', 'Whisky', 'Vinho'
                     ]

dados_filtrados = dados_filtrados.drop(features_ignoradas,axis=1)

### Seleção de features: Quarto filtro

Para a terceira avaliação dos atributos, será utilizado o teste do chi quadrado. O teste do chi quadrado verifica se existe a relação entre duas variáveis categóricas. Dessa forma, será verificada a relação entre as variáveis presentes e o desfecho, ou seja, se o atributo possui alguma relação com a doença ou não. 

O teste do Chi-quadrado é realizado para a verificação de (in)dependência entre duas variáveis categóricas.

- Hipótese nula $H_0$ : As variáveis são independentes.
- Hipótese alternativa $H_a$: As variáveis são dependentes

In [28]:
# Substituíndo valores ignorados para valores não computados pela tabela de contingência
dados_filtrados.replace(['ignorado'],np.nan,inplace=True)

In [29]:
# Criando um DataFrame para o armazenamento dos valores

dict_features = dict()

for feature in list(dados_filtrados.columns)[1:]:
    
    if dados_filtrados[feature].dtype != 'O':
        continue
    
    print('Tabela de Contingência entre o desfecho e {}\n'.format(feature))
    
    # Contingency table from pandas
    cross_tab = pd.crosstab(dados_filtrados[feature],dados_filtrados['desfecho'],margins=True)
    print(pd.crosstab(dados_filtrados[feature],dados_filtrados['desfecho'],margins=True))
    print()
    
    # Chi Squared Test 
    chi2, p, dof, expected =  chi2_contingency(cross_tab)
    print('Chi2: {}\tp-value: {}\tDOF: {}\nExpected_val: \n{}\n\n'.format(chi2,p,dof,expected))
    
    dict_features[feature] = [chi2,p,dof,(len(dados_filtrados[feature].unique()) - 1),]

Tabela de Contingência entre o desfecho e TTO_anterior_TB_triagem_enfermeiro

desfecho                            TB+   TB-   All
TTO_anterior_TB_triagem_enfermeiro                 
Não                                 668  1388  2056
Sim                                 202   453   655
All                                 870  1841  2711

Chi2: 0.6210017762208534	p-value: 0.9607015629884483	DOF: 4
Expected_val: 
[[  659.80081151  1396.19918849  2056.        ]
 [  210.19918849   444.80081151   655.        ]
 [  870.          1841.          2711.        ]]


Tabela de Contingência entre o desfecho e Cicatriz_BCG

desfecho      TB+   TB-   All
Cicatriz_BCG                 
Não           222   614   836
Sim           434   780  1214
All           656  1394  2050

Chi2: 19.234217052577776	p-value: 0.0007068855301971453	DOF: 4
Expected_val: 
[[  267.52   568.48   836.  ]
 [  388.48   825.52  1214.  ]
 [  656.    1394.    2050.  ]]


Tabela de Contingência entre o desfecho e Sexo

desfecho   TB

In [30]:
# Criando um DataFrame a partir d
chi2_dict = pd.DataFrame.from_dict(dict_features,orient='index')
chi2_dict.columns = ['chi2','pval','dof','dof_real']

# Dataframe criado
chi2_dict

Unnamed: 0,chi2,pval,dof,dof_real
CAGE,9.007891,0.06090254,4,2
Delegacia_2anos,20.548447,0.0003890882,4,2
Sexo,53.179802,1.079427e-09,6,3
Expectoração,3.315559,0.5064709,4,2
Raça,10.612917,0.03127663,4,2
Cicatriz_BCG,19.234217,0.0007068855,4,2
Febre,92.249234,4.3810799999999995e-19,4,2
Prisão_2anos,39.277414,6.105206e-08,4,2
Fuma,9.230613,0.1610179,6,3
Perda_peso_10percent,201.841399,1.50994e-42,4,2


In [40]:
variaveis_dependentes = chi2_dict[chi2_dict.pval < 0.05]
variaveis_independentes = chi2_dict[chi2_dict.pval > 0.05]
len(variaveis_dependentes)
#len(variaveis_independentes)

14

In [37]:
variaveis_dependentes

Unnamed: 0,chi2,pval,dof,dof_real
Delegacia_2anos,20.548447,0.0003890882,4,2
Sexo,53.179802,1.079427e-09,6,3
Raça,10.612917,0.03127663,4,2
Cicatriz_BCG,19.234217,0.0007068855,4,2
Febre,92.249234,4.3810799999999995e-19,4,2
Prisão_2anos,39.277414,6.105206e-08,4,2
Perda_peso_10percent,201.841399,1.50994e-42,4,2
Dispnéia,21.224927,0.001671449,6,3
Perda_de_apetite,13.526331,0.008970844,4,2
Semanas_tosse,96.249637,0.02975851,72,36


In [38]:
variaveis_independentes

Unnamed: 0,chi2,pval,dof,dof_real
CAGE,9.007891,0.060903,4,2
Expectoração,3.315559,0.506471,4,2
Fuma,9.230613,0.161018,6,3
Hemoptóicos,0.033715,0.99986,4,2
TTO_anterior_TB_triagem_enfermeiro,0.621002,0.960702,4,2
Internação_hospital_2anos,0.977081,0.913251,4,2
Hemoptise,7.689276,0.103647,4,2
Tosse,3.17316,0.529277,4,2
Dor_torácica,0.010302,0.999987,4,2
