# Análise dos dados - Primeira seleção

Este notebook mostra a análise exploratória dos dados e o processo de seleção de features para a composição do modelo computacional a ser usado como suporte à triagem de pacientes com suspeita de tuberculose.

In [3]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [4]:
# Carregando os dados
data = pd.read_excel('../../Dados/Banco labels.xlsx')

In [5]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,2008-04-03,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2008,1
1,TB,SIM,,2006-10-03,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2006,1
2,TB,SIM,,2007-06-21,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2007,1
3,TB,SIM,,2009-09-30,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2009,1
4,TB,SIM,,2009-06-19,,TB,,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,2009-06-19,Not Selected,2009,1


In [6]:
# Tipos de dados presentes
data.dtypes.value_counts()

object            239
datetime64[ns]     19
int64              14
float64             9
dtype: int64

In [7]:
# Verificando os dados do tipo float64
print('Features do tipo float64: \n{}'.format(list(data.select_dtypes(include=['float64']).columns)))

# Verificando os dados do tipo int64
print('\nFeatures do tipo int64: \n{}'.format(list(data.select_dtypes(include=['int64']).columns)))

# Verificando os dados do tipo object
print('\nFeatures do tipo object: \n{}'.format(list(data.select_dtypes(include=['object']).columns)))

# Verificando os dados do tipo datetime64[ns]
print('\nFeatures do tipo datetime64[ns]: \n{}'.format(list(data.select_dtypes(include=['datetime64[ns]']).columns)))

Features do tipo float64: 
['Nome', 'Prontuário_PAAP', 'Número_cultura', 'Número_cultura_segunda_amostra', 'N°_TB', 'Peso_habitual', 'Peso_atual', 'Altura_cm', 'Valor_comida_bebida_CA']

Features do tipo int64: 
['Probabilidade_TBP_sem_RX_ou_BAAR', 'Probabilidade_TBP_com_RX_e_BAAR', 'Número_geral', 'Idade', 'Telefone_1', 'Telefone_2', 'CEP', 'Valor_pts_escore', 'Descrever_outros_fármacos', 'Valor_pernoite_CA', 'Valor_algo_CA', 'Valor_algo_posto_CA', 'ANO  de inclusao', 'Novocriteriotbafranio']

Features do tipo object: 
['TB_desfecho_final_Dri', 'Tbafranio', 'Obs_desfechoTB_Dri_Dani', 'Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 'Observaça0_desfecho_TB', 'Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 'Houve_desfecho_consulta_médica__inicial', 'Compareceram_consulta_medica', 'TTO_TB_confirmação_bacteriológica', 'TTO_TB_probabilidade', 'Transferência_internação_não_TB_outra_especialidade', 'TTO_pneum

## Seleção de features

Durante o período de coleta de informações dos pacientes, várias informações sobre o tratamento foram coletadas, tais como datas de exames, sintomas, resultados de exames, entre outras informações. Nem todas as informações coletadas no estudo são úteis para a composição do Sistema de Apoio à Decisão(SAD), objetivo desse estudo. Dessa forma, features desnecessárias e não correlacionadas com a doença serão ignoradas para a composição do sistema.

### Seleção de features: primeiro filtro

A primeira avaliação de features é realizada de forma manual, tendo como objetivo eliminar variáveis que, obviamente, não possuem informação sobre a predição da doença. Tais variáveis a serem eliminadas são: informações pessoais do paciente, datas de exames, profissional avaliador, entre outras.

#### Features do tipo datetime64[ns]

Features do tipo <i>datetime64[ns]</i> representam datas de exames e procedimentos. Tais informações são irrelevantes para o estudo em questão, e podem ser removidas qualquer prejuízo.

Dessa forma, <b>19 features</b> podem ser eliminadas.

#### Features do tipo float64 e int64

As features do tipo float64 e int64 representam informações representadas em números, colhidas durante o estudo. De acordo com os atributos mostrados anteriormente, somente informações sobre idade, peso e altura serão considerados para análise futuras.

- Features não removidas: 'Peso_habitual', 'Peso_atual', 'Altura_cm', 'Idade'
- Dessa forma, as seguintes features são desconsideradas: 'Nome', 'Prontuário_PAAP', 'Número_cultura', 'Número_cultura_segunda_amostra', 'N°_TB', 'Valor_comida_bebida_CA', 'Probabilidade_TBP_sem_RX_ou_BAAR', 'Probabilidade_TBP_com_RX_e_BAAR', 'Número_geral', 'Telefone_1', 'Telefone_2', 'CEP', 'Valor_pts_escore', 'Descrever_outros_fármacos', 'Valor_pernoite_CA', 'Valor_algo_CA', 'Valor_algo_posto_CA', 'ANO  de inclusao', 'Novocriteriotbafranio'

Ao todo, <b>19 features</b> foram desconsideradas.

#### Features do tipo Object

Features consideradas do tipo Object são informações armazenadas como strings no banco de dados. As features a serem desconsideradas seguem o mesmo critério de seleção descrito anteriormente.

##### Desfecho ou target

Somente a feature <i>TB_desfecho_final_Dri</i> é considerada como o target ou desfecho do estudo, enquanto os outros atributos serão desconsiderados.

- Feature considera como desfecho: <i>TB_desfecho_final_Dri</i>
- Features desconsideradas (9 features): 'Tbafranio', 'Obs_desfechoTB_Dri_Dani', 'Data_inclusão','Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 'Observaça0_desfecho_TB','Desfecho_enfermeiro', 'Descrever_outros_defechos', 'Desfecho_TB'  

##### Outras features presentes do tipo Object 

As seguintes features foram desconsideradas nesse momento:

- Features relacionadas à informações pessoais do paciente, que não são relevantes para diagnóstico, além de informações relacionadas a profissionais encarregados de procedimentos médicos (61 features): 'Onde_vc_mora_CA', 'Transporte_CA', 'Custo_transporte_reais_CA', 'Acompanhado_CA', 'Número_pessoas_CA', 'Horas_saiu_de_casa_CA', 'Horas_Chegou_posto_CA', 'Horas_viu_profissional_CA', 'Tempo_até_o_posto_minutos_CA', 'Caso_FORA_DO_RJ_retorno_onde_pernoitar_CA', 'Pagará_pernoite', 'Trouxe_algo_amigos_CA', 'Comeu_bebeu_CA', 'Pagou_algo_no_posto_CA', 'Profissão_CA', 'Perdeu_aula_hoje_CA', 'Deixou_de_ganhar_dinheiro_hoje_CA', 'Quanto_deixou_ganhar_CA', 'Caso_acompanhado_quem_custeou_tudo_CA', 'Valor_CA','Nome_mãe', 'Endereço2', 'Bairro_Residência', 'Cidade_residência', 'Naturalidade_cidade', 'Naturalidade_estado2', 'Mora_no_Rio_há_quantos_anos', 'Avaliador_custo_CA', 'Resultado_cultura_final < 3 & Realizou_RX = 1  (FILTER)', 'Karen\_amostra', 'Óbito', 'Causa_óbito', 'Número_laboratório', 'Biometrix_inserido_tabela_por_nomes', 'Resultado_biometrix_CTMtb', 'Resultados_biometrix_CTinterno', 'Resultado_biometrix_bula', 'Total_escore_Paulo', 'Leitor_PT', 'Enfemeiro_avaliação','Motivo_mudança','Descrever_outro_motivo_mudança','Médico_avaliador_Fup', 'Médico_avaliador_Fup', 'HIV_teste_Fup', 'Diagnóstico_90_dias', 'Outro_diagnóstico_Fup', 'Descrever_outro_diagnóstico','Motivo_mudança', 'Descrever_outro_motivo_mudança', 'Peso_atual_Fup', 'Médico_avaliador', 'Descrever_outra_patologia', 'Compareceram_consulta_medica','Escore_Cat', 'Data_RX', 'Esquema_utilizado_tto_anterior', 'Em_caso_tto_TB_marcar_opções',  'Mudança_esquema_tto_TB', 'Outros_farmacos_mudança_tto2', 'Descrever_outros_farmacos_mudança_tto2' 

- Features representando a probabilidade da doença presente. Essas probabilidades são estimadas de acordo com os dados obtidos durante o projeto, portanto podem ser consideradas como redundantes(15 features): 'Probabilidade_TB_com_RX_Fup', 'TTO_TB_probabilidade','Probabilidade_TB_com_RX_Fup','Cavitação_alta_média_probabilidade', 'RX_Padrão_TÍPICO_alta_média_probabilidade', 'RX_padrão_COMPATIVEL_alta_média_probabilidade', 'RX_Padrão_ATÍPICO_alta_média_probabilidade', 'RX_baixa_probabilidade_TB_INATIVA_SEQUELA', 'RX_baixa_probabilidade_TB_OUTRA_DOENÇA2', 'RX_baixa_probabilidade_NORMAL','Probabilidade_médica_TB_ativa', 
'Probabilidade_TBP_com_RX', 'Probabilidade_TBP_comRX_e_sem_BAAR', 'Probabilidade_TBP_com_RX_sem_BAAR_percent', 'Probabilidade_TBP_com_2_BAAR_negativos'


Ao todo, <b>85 features</b> foram desconsideradas.

#### Resumo da primeira avaliação

Ao todo, 118 features foram desconsideras na primeira filtragem, realizada manualmente. Dessa forma, de 280 variáveis presentes(desconsiderando o desfecho), existem 163 features a serem avaliadas.

In [8]:
features_filtradas = ['Data_inclusão', 'Data_avaliação_médica', 'Data_início_TTO', 'Data_coleta_escarro_1', 'Data_coleta_escarro_2', 
                      'VAR00003', 'Data_TB_passado', 'Data_quimio', 'Data_nascimento', 'Data_assinatura_TCLE', 'Data_aplicação__PT', 
                      'Data_leitura_PT', 'Data_avaliação', 'Data_HIV', 'Data_mudança', 'Data_RX_Fup', 'Data_anti_HIV', 'Data_Fup', 
                      'Data_avaliação_custo_CA', 'Nome', 'Prontuário_PAAP', 'Número_cultura', 'Número_cultura_segunda_amostra', 
                      'N°_TB', 'Valor_comida_bebida_CA', 'Probabilidade_TBP_sem_RX_ou_BAAR', 'Probabilidade_TBP_com_RX_e_BAAR', 
                      'Número_geral', 'Telefone_1', 'Telefone_2','ANO  de inclusao', 'CEP', 'Valor_pts_escore', 'Descrever_outros_fármacos', 'Valor_pernoite_CA', 
                      'Valor_algo_CA', 'Valor_algo_posto_CA','Novocriteriotbafranio', 'Tbafranio', 'Obs_desfechoTB_Dri_Dani', 
                      'Data_inclusão','Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 'Observaça0_desfecho_TB','Desfecho_enfermeiro', 
                      'Descrever_outros_defechos', 'Desfecho_TB','Onde_vc_mora_CA', 'Transporte_CA', 'Custo_transporte_reais_CA', 'Acompanhado_CA', 
                      'Número_pessoas_CA', 'Horas_saiu_de_casa_CA', 'Horas_Chegou_posto_CA', 'Horas_viu_profissional_CA', 'Tempo_até_o_posto_minutos_CA', 
                      'Caso_FORA_DO_RJ_retorno_onde_pernoitar_CA', 'Pagará_pernoite', 'Trouxe_algo_amigos_CA', 'Comeu_bebeu_CA', 'Pagou_algo_no_posto_CA', 
                      'Profissão_CA', 'Perdeu_aula_hoje_CA', 'Deixou_de_ganhar_dinheiro_hoje_CA', 'Quanto_deixou_ganhar_CA', 'Caso_acompanhado_quem_custeou_tudo_CA', 
                      'Valor_CA','Nome_mãe', 'Endereço2', 'Bairro_Residência', 'Cidade_residência', 'Naturalidade_cidade', 'Naturalidade_estado2', 
                      'Mora_no_Rio_há_quantos_anos', 'Avaliador_custo_CA', 'Resultado_cultura_final < 3 & Realizou_RX = 1  (FILTER)', 'Karen_amostra', 'Óbito', 
                      'Causa_óbito', 'Número_laboratório', 'Biometrix_inserido_tabela_por_nomes', 'Resultado_biometrix_CTMtb', 'Resultados_biometrix_CTinterno', 
                      'Resultado_biometrix_bula', 'Total_escore_Paulo', 'Leitor_PT', 'Enfemeiro_avaliação','Motivo_mudança','Descrever_outro_motivo_mudança', 
                      'Médico_avaliador_Fup', 'Médico_avaliador_Fup', 'HIV_teste_Fup', 'Diagnóstico_90_dias', 'Outro_diagnóstico_Fup', 'Descrever_outro_diagnóstico',
                      'Motivo_mudança', 'Descrever_outro_motivo_mudança', 'Peso_atual_Fup', 'Médico_avaliador', 'Descrever_outra_patologia', 
                      'Compareceram_consulta_medica','Escore_Cat', 'Data_RX', 'Esquema_utilizado_tto_anterior', 'Em_caso_tto_TB_marcar_opções', 'Mudança_esquema_tto_TB', 
                      'Outros_farmacos_mudança_tto2', 'Descrever_outros_farmacos_mudança_tto2','Probabilidade_TB_com_RX_Fup', 'TTO_TB_probabilidade',
                      'Probabilidade_TB_com_RX_Fup','Cavitação_alta_média_probabilidade', 'RX_Padrão_TÍPICO_alta_média_probabilidade', 
                      'RX_padrão_COMPATIVEL_alta_média_probabilidade', 'RX_Padrão_ATÍPICO_alta_média_probabilidade', 'RX_baixa_probabilidade_TB_INATIVA_SEQUELA', 
                      'RX_baixa_probabilidade_TB_OUTRA_DOENÇA2', 'RX_baixa_probabilidade_NORMAL','Probabilidade_médica_TB_ativa', 'Probabilidade_TBP_com_RX', 
                      'Probabilidade_TBP_comRX_e_sem_BAAR', 'Probabilidade_TBP_com_RX_sem_BAAR_percent', 'Probabilidade_TBP_com_2_BAAR_negativos']

dados_filtrados = data.drop(features_filtradas,axis=1)

In [9]:
# Dados presentes
dados_filtrados.dtypes.value_counts()

object     159
float64      3
int64        1
dtype: int64

In [10]:
# Verificando os dados do tipo float64
print('Features do tipo float64: \n{}'.format(list(dados_filtrados.select_dtypes(include=['float64']).columns)))

# Verificando os dados do tipo int64
print('\nFeatures do tipo int64: \n{}'.format(list(dados_filtrados.select_dtypes(include=['int64']).columns)))

# Verificando os dados do tipo object
print('\nFeatures do tipo object: \n{}'.format(list(dados_filtrados.select_dtypes(include=['object']).columns)))

Features do tipo float64: 
['Peso_habitual', 'Peso_atual', 'Altura_cm']

Features do tipo int64: 
['Idade']

Features do tipo object: 
['TB_desfecho_final_Dri', 'Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 'Houve_desfecho_consulta_médica__inicial', 'TTO_TB_confirmação_bacteriológica', 'Transferência_internação_não_TB_outra_especialidade', 'TTO_pneumologia_patologia_não_TB', 'Alta', 'Asma', 'TTO_anterior_TB_triagem_enfermeiro', 'Fator_risco_TBP_MDR', 'Tto_TB_prescrito', 'Rifampicina_TTO_TB', 'Isoniazida_TTO_TB', 'Pirazinamida_TTO_TB', 'Etambutol_TTO_TB', 'Espécime_1', 'Espécime_2', 'Número_cruzes_BAAR_1', 'Número_cruzes_BAAR_2', 'Resultado_BAAR_Final', 'Número_Cruzes_Cultura_1', 'Número_cruzes_Cultura_2', 'Resultado_cultura_final', 'Realizou_RX', 'TSA', 'Detect_TB_Primeira_amostra', 'Detect_TB_Segunda_amostra', 'Cicatriz_BCG', 'Tto_anterior_TB_avaliação_médica', 'Tto_anterior_TB_INH', 'Tto_anterior_TB_RIF', 'Quimio_prévia'

### Seleção de features: segundo filtro

Features que são resultados de exames (tais como baciloscopia, cultura, raio-X e outros) não podem ser utilizadas como atributos em um processo de triagem de pacientes. Outras features que representam fármacos utilizados durante o tratamento de pacientes com TB positiva também são descartadas.

Features desconsideradas (51 features): 'Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 'Houve_desfecho_consulta_médica__inicial', 'TTO_TB_confirmação_bacteriológica', 'Transferência_internação_não_TB_outra_especialidade', 'TTO_pneumologia_patologia_não_TB', 'Alta', 'Número_cruzes_BAAR_1', 'Número_cruzes_BAAR_2', 'Resultado_BAAR_Final', 'Número_Cruzes_Cultura_1', 'Número_cruzes_Cultura_2', 'Resultado_cultura_final', 'Realizou_RX', 'TSA', 'Detect_TB_Primeira_amostra', 'Detect_TB_Segunda_amostra', 'Cavitação__RX_Fup_Alta_média', 'Padrão_RX_TIPICO_Fup_Alta_média', 'Padrão_RX_COMPATIVEL_Fup_Alta_Média', 'Padrão_RX_ATIPICO_Fup_Alta_Media', 'Padrão_RX_Fup_Baixa', 'Fup_RX', 'Fator_risco_TBP_MDR','Número_anos', 'Resultado_PPT_mm', 'Critério_de_entrada_perfil_bacteriologico_Fup', 'Outros_fármacos', 'Reação_Adversa_Fármacos_TTO_TB', 'Reação_adversa_maior', 'Reação_adversa_menor', 'Rifampicina_mudança_tto', 'Pirazinamida_mudança_tto', 'Isoniazida_mudança_tto', 'Etambutol_mudança_tto', 'Etionamida_mudança_tto', 'Estreptomicina_mudança_tto', 'Ofloxacino_mudança_tto', 'Tosse_diminuída', 'Incluído_TB_Adapt', 'Critério_1_TB_Adapt_tosse_por_mais_2_semanas', 'Critério_2_TB_Adapt_assinou_TCLE', 'Aplicou_PPD', 'Leu_PT', 'Outras', 'descrever_outras_comorbidades2','Espécime_1', 'Espécime_2'

#### Resumo da segunda avaliação

Ao final da segunda avaliação, mais 51 features foram eliminadas. Assim, 112 atributos ainda necessitam ser avaliados.

In [11]:
features_filtradas     = ['Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 
                          'Houve_desfecho_consulta_médica__inicial', 'TTO_TB_confirmação_bacteriológica', 'Transferência_internação_não_TB_outra_especialidade', 
                          'TTO_pneumologia_patologia_não_TB', 'Alta', 'Número_cruzes_BAAR_1', 'Número_cruzes_BAAR_2', 'Resultado_BAAR_Final', 
                          'Número_Cruzes_Cultura_1', 'Número_cruzes_Cultura_2', 'Resultado_cultura_final', 'Realizou_RX', 'TSA', 'Detect_TB_Primeira_amostra', 
                          'Detect_TB_Segunda_amostra', 'Cavitação__RX_Fup_Alta_média', 'Padrão_RX_TIPICO_Fup_Alta_média', 'Padrão_RX_COMPATIVEL_Fup_Alta_Média', 
                          'Padrão_RX_ATIPICO_Fup_Alta_Media', 'Padrão_RX_Fup_Baixa', 'Fup_RX', 'Fator_risco_TBP_MDR','Número_anos', 'Resultado_PPT_mm', 
                          'Critério_de_entrada_perfil_bacteriologico_Fup', 'Outros_fármacos', 'Reação_Adversa_Fármacos_TTO_TB', 'Reação_adversa_maior', 
                          'Reação_adversa_menor', 'Rifampicina_mudança_tto', 'Pirazinamida_mudança_tto', 'Isoniazida_mudança_tto', 'Etambutol_mudança_tto', 
                          'Etionamida_mudança_tto', 'Estreptomicina_mudança_tto', 'Ofloxacino_mudança_tto', 'Tosse_diminuída', 'Incluído_TB_Adapt', 
                          'Critério_1_TB_Adapt_tosse_por_mais_2_semanas', 'Critério_2_TB_Adapt_assinou_TCLE', 'Aplicou_PPD', 'Leu_PT', 'Outras', 
                          'descrever_outras_comorbidades2','Espécime_1', 'Espécime_2'] 

dados_filtrados = dados_filtrados.drop(features_filtradas,axis=1)

In [12]:
# Dados presentes
dados_filtrados.dtypes.value_counts()

object     108
float64      3
int64        1
dtype: int64

In [13]:
# Verificando os dados do tipo float64
print('Features do tipo float64: \n{}'.format(list(dados_filtrados.select_dtypes(include=['float64']).columns)))

# Verificando os dados do tipo int64
print('\nFeatures do tipo int64: \n{}'.format(list(dados_filtrados.select_dtypes(include=['int64']).columns)))

# Verificando os dados do tipo object
print('\nFeatures do tipo object: \n{}'.format(list(dados_filtrados.select_dtypes(include=['object']).columns)))

Features do tipo float64: 
['Peso_habitual', 'Peso_atual', 'Altura_cm']

Features do tipo int64: 
['Idade']

Features do tipo object: 
['TB_desfecho_final_Dri', 'Asma', 'TTO_anterior_TB_triagem_enfermeiro', 'Tto_TB_prescrito', 'Rifampicina_TTO_TB', 'Isoniazida_TTO_TB', 'Pirazinamida_TTO_TB', 'Etambutol_TTO_TB', 'Cicatriz_BCG', 'Tto_anterior_TB_avaliação_médica', 'Tto_anterior_TB_INH', 'Tto_anterior_TB_RIF', 'Quimio_prévia', 'Quimio_INH', 'Quimio_RIF', 'Desfecho_quimio', 'HIV', 'Comorbidades', 'Sexo', 'Raça', 'Raça_2', 'Estado_civil', 'Tem_companheiro', 'Tosse', 'Semanas_tosse', 'Expectoração', 'Semanas_expectoração', 'Hemoptóicos', 'Semanas_hemoptóicos', 'Hemoptise', 'Semanas_hemoptise', 'Quantidade_hemoptise', 'Sudorese_noturna', 'Semanas_sudorese', 'Febre', 'Semanas_febre', 'Dispnéia', 'Dispnéia_semanas', 'Perda_de_apetite', 'Perda_apetite_semanas', 'Perda_peso_10percent', 'Perda_peso_semanas', 'Dor_torácica', 'Dor_torácica_semanas', 'Internação_hospital_2anos', 'Prisão_2anos', 'Dele

### Seleção de features: Terceiro filtro

Features com números superiores a 30% de ignorados serão descartadas.

In [18]:
# Alterando o nome do atributo TB_desfecho_final_Dri para desfecho
dados_filtrados.rename(index=str,columns={'TB_desfecho_final_Dri':'desfecho'},inplace=True)

# Renomeando os labels do desfecho
dados_filtrados['desfecho'].replace(['Não TB','TB',8,'IGN'],['TB-','TB+','ignorado','ignorado'],inplace=True)

# Dados somente de diagnósticos conhecidos: TB+/-
dados_filtrados = dados_filtrados[(dados_filtrados.desfecho == 'TB-') | (dados_filtrados.desfecho == 'TB+')]

# Renomeando os labels do desfecho
dados_filtrados.replace([np.nan,'IGN'],['ignorado','ignorado'],inplace=True)

In [19]:
# Mostrando a proporção de valores para cada feature 
for feature in list(dados_filtrados.columns):
    
    values = (dados_filtrados[feature].value_counts(dropna=False)/len(dados_filtrados))    
    print('Feature ' + feature)
    print(100 * values)
    print()

Feature desfecho
TB-    68.060139
TB+    31.939861
Name: desfecho, dtype: float64

Feature Asma
ignorado    86.982032
Não          9.460946
Sim          3.557022
Name: Asma, dtype: float64

Feature TTO_anterior_TB_triagem_enfermeiro
Não         75.394206
Sim         24.019069
ignorado     0.586725
Name: TTO_anterior_TB_triagem_enfermeiro, dtype: float64

Feature Tto_TB_prescrito
ignorado    74.330766
Sim         17.161716
Não          8.507517
Name: Tto_TB_prescrito, dtype: float64

Feature Rifampicina_TTO_TB
ignorado           69.783645
Sim                16.538320
"não se aplica"    13.531353
Não                 0.146681
Name: Rifampicina_TTO_TB, dtype: float64

Feature Isoniazida_TTO_TB
ignorado           69.783645
Sim                16.538320
"não se aplica"    13.531353
Não                 0.146681
Name: Isoniazida_TTO_TB, dtype: float64

Feature Pirazinamida_TTO_TB
ignorado           69.746975
Sim                16.685002
"não se aplica"    13.531353
Não                 0.036670


In [20]:
# Selecionando features que possuem a quantidade de ignorados maior que 30%
features_ignoradas = ['Asma','Tto_TB_prescrito','Rifampicina_TTO_TB','Isoniazida_TTO_TB','Pirazinamida_TTO_TB',
                      'Etambutol_TTO_TB','Tto_anterior_TB_avaliação_médica','Tto_anterior_TB_INH','Tto_anterior_TB_RIF',
                      'Quimio_prévia','Quimio_INH','Quimio_RIF','Desfecho_quimio','HIV','TBP_Morava_com_vc','TBP_trabalhava_com_vc',
                      'TBP_amigo_parente_não_morava_com_vc','Contato_TBP_menor_3anos','Contato_TBP_Casa','Contato_TBP_Trabalho',
                      'Contato_TBP_Social','IRC','Hepatopatia','Etilismo','Uso_corticoide','Neo_maligna','Transplante','DM_NID','DM_ID',
                      'Silicose','DPOC','Doença_pumonar_difusa','Etionamida_TTO_TB','Estreptomicina_TTO_TB','Ofolxacino_TTO_TB','Exantema',
                      'Confusão_mental','Icterícia','Hepatotoxicidade','Vertigem','Hipoacusia','Crise_convulsiva','Encefalopatia','Psicose',
                      'Neurite_óptica','Plaquetopenia_leucopenia_eosinofilia','Anemia_hemolítica_vasculite','Choque_púrpura','Nefrite','Insuficiência_renal_rabdomiólise',
                      'Prurido','Anorexia','Náuseas_vômitos','Dor_abdominal','Dor_articular','Neurite_periférica','Euforia','Insônia_sonolência','Ansiedade',
                      'Cefaléia','Acne','Hiperuricemia','Febre_AD','Hipotensão_ortostática','Ginecomastia','Comorbidades','Raça_2',
                      'Cachaça', 'Cerveja', 'Nenhuma_bebida_alcoólica', 'Outras_bebidas_alcoólicas', 'Whisky', 'Vinho'
                     ]

dados_filtrados = dados_filtrados.drop(features_ignoradas,axis=1)

In [25]:
features_selecionadas = list(dados_filtrados.columns)

# Exibindo as variáveis salvas
print(features_selecionadas)

['desfecho', 'TTO_anterior_TB_triagem_enfermeiro', 'Cicatriz_BCG', 'Idade', 'Sexo', 'Raça', 'Estado_civil', 'Tem_companheiro', 'Peso_habitual', 'Peso_atual', 'Altura_cm', 'Tosse', 'Semanas_tosse', 'Expectoração', 'Semanas_expectoração', 'Hemoptóicos', 'Semanas_hemoptóicos', 'Hemoptise', 'Semanas_hemoptise', 'Quantidade_hemoptise', 'Sudorese_noturna', 'Semanas_sudorese', 'Febre', 'Semanas_febre', 'Dispnéia', 'Dispnéia_semanas', 'Perda_de_apetite', 'Perda_apetite_semanas', 'Perda_peso_10percent', 'Perda_peso_semanas', 'Dor_torácica', 'Dor_torácica_semanas', 'Internação_hospital_2anos', 'Prisão_2anos', 'Delegacia_2anos', 'Contato_TBP_2anos', 'Fuma', 'Número_cigarros_dia', 'CAGE']


In [27]:
# Criando um dataframe a partir das features pré-selecionadas
dados = dados_filtrados[features_selecionadas].copy()

for feature in list(dados.columns):
    print(feature)
    print(dados[feature].unique(),'\n')

desfecho
['TB+' 'TB-'] 

TTO_anterior_TB_triagem_enfermeiro
['Sim' 'Não' 'ignorado'] 

Cicatriz_BCG
['Sim' 'ignorado' 'Não'] 

Idade
[ 30  53  84  18  36  71  26  22  54  52  57  32  21  23  50  24  27  19
  58  47  63  46  20  12  33  17  31  51  66  59  62  41  34  29  14  16
  70  61  43  44  42  37  73  56  49  39  25  35  45  48  64  68  40  75
  72  28  55  38  92  67  15  85  65  82  60  13  78  69  74  77  81  86
  88  79 999  76  93  80  83  89  87  91   9] 

Sexo
['Masculino' 'Feminino' 2 'ignorado'] 

Raça
['Não branco' 'Branco' 'ignorado' 8] 

Estado_civil
['Solteiro' 'ignorado' 'viúvo' 'Casado' 'Separado' 0] 

Tem_companheiro
['Não' 'Sim' 'ignorado'] 

Peso_habitual
[  62.    75.    56.    51.    63.    76.    65.    55.    70.    69.    45.
   60.    44.    48.    58.    53.    92.    33.3   95.    64.    87.
   70.5   90.    34.    67.   999.    49.    78.    68.    59.    74.    66.
   80.    52.    91.    82.   100.    50.    54.    73.    42.    89.    83.
   77.    4

In [28]:
# Alterando os labels dos desfechos
dados.desfecho.replace(['TB', 'Não TB','IGN',8],['TB+','TB-','desconhecido','desconhecido'],inplace=True)

# Alterando os outros labels dos outros atributos
dados.replace(['IGN',np.nan],['ignorado','ignorado'],inplace=True)

# Selecionando os desfechos que possuem diagnóstico conhecido: TB+ e TB-
dados = dados[(dados.desfecho == 'TB+') | (dados.desfecho == 'TB-')]

# Quantidade_hemoptise: Poucos valores significantes
dados.drop(['Quantidade_hemoptise'],axis=1,inplace=True)

# # Peso atual/habitual: Não importa para o diagnóstico
# dados.drop(['Peso_atual'],axis=1,inplace=True)
# dados.drop(['Peso_habitual'],axis=1,inplace=True)

# # Altura: Não importa para o diagnóstico
# dados.drop(['Altura_cm'],axis=1,inplace=True)

# # Número de cigarros
# dados.drop(['Número_cigarros_dia'],axis=1,inplace=True)

# # Número de cigarros
# dados.drop(['Perda_apetite_semanas'],axis=1,inplace=True)

In [29]:
# Substituindo os valores da variável Sexo
dados.Sexo.replace([8,2],['ignorado','ignorado'],inplace=True)
                    
# Substituindo os valores da variável Raça
dados.Raça.replace([8],'ignorado',inplace=True)
                    
# Substituindo os valores da variável Estado_civil
dados.Estado_civil.replace([np.nan, 8, 0],['ignorado','ignorado','ignorado'],inplace=True)        

# Substituindo os valores da variável Semanas_tosse
dados.Semanas_tosse.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_expectoração
dados.Semanas_expectoração.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_tosse
dados.Semanas_hemoptóicos.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Semanas_hemoptise
dados.Semanas_hemoptise.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Sudorese_noturna.replace([9],'ignorado',inplace=True)

# Substituindo os valores da variável 
dados.Semanas_sudorese.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Semanas_febre.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Dispnéia.replace([2],['ignorado'],inplace=True)

# Substituindo os valores da variável 
dados.Dispnéia_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Perda_peso_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável 
dados.Dor_torácica_semanas.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

# Substituindo os valores da variável Número_cigarros_dia
dados.Número_cigarros_dia.replace(['não se aplica','crônico+sempre'],[0,180],inplace=True)

In [30]:
len(dados.columns)

38

In [37]:
# Armazenando as features pré-selecionadas em um arquivo csv
dados.to_csv('../../Dados/preprocessed.csv',index=False,columns=list(dados.columns))