# Análise dos dados

Este notebook tem como objetivo verificar os exemplos presentes na base de dados e selecionar as features mais relevantes para a predição do desfecho.

### Análise inicial dos dados

In [1]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [2]:
# Carregando os dados
data = pd.read_csv('../Dados/labels.csv',low_memory=False)

In [3]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,3/abr/08,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,9/set/99,Selected,2008,1
1,TB,SIM,,3/out/06,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,9/set/99,Selected,2006,1
2,TB,SIM,,21/jun/07,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,9/set/99,Selected,2007,1
3,TB,SIM,,30/set/09,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,9/set/99,Selected,2009,1
4,TB,SIM,,19/jun/09,,TB,#NULL!,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,19/jun/09,Not Selected,2009,1


In [4]:
# Tipos de dados presentes
data.dtypes.value_counts()

object     268
int64       11
float64      2
dtype: int64

In [5]:
# Verificando os dados do tipo float64
print('Features do tipo float64: \n{}'.format(list(data.select_dtypes(include=['float64']).columns)))

# Verificando os dados do tipo int64
print('\nFeatures do tipo int64: \n{}'.format(list(data.select_dtypes(include=['int64']).columns)))

# Verificando os dados do tipo object
print('\nFeatures do tipo int64: \n{}'.format(list(data.select_dtypes(include=['object']).columns)))

Features do tipo float64: 
['Nome', 'Número_cultura']

Features do tipo int64: 
['Probabilidade_TBP_sem_RX_ou_BAAR', 'Probabilidade_TBP_com_RX_e_BAAR', 'Número_geral', 'Idade', 'Telefone_1', 'Telefone_2', 'CEP', 'Valor_pts_escore', 'Descrever_outros_fármacos', 'ANO  de inclusao', 'Novocriteriotbafranio']

Features do tipo int64: 
['TB_desfecho_final_Dri', 'Tbafranio', 'Obs_desfechoTB_Dri_Dani', 'Data_inclusão', 'Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 'Observaça0_desfecho_TB', 'Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 'Houve_desfecho_consulta_médica__inicial', 'Compareceram_consulta_medica', 'TTO_TB_confirmação_bacteriológica', 'TTO_TB_probabilidade', 'Transferência_internação_não_TB_outra_especialidade', 'TTO_pneumologia_patologia_não_TB', 'Alta', 'Descrever_outra_patologia', 'Asma', 'Em_caso_tto_TB_marcar_opções', 'TTO_anterior_TB_triagem_enfermeiro', 'Fator_risco_TBP_MDR', 'Médico_avali

### Seleção de features: primeiro filtro

A primeira avaliação de features tem como objetivo eliminar variáveis que não possuem informação sobre a predição da doença. Tais variáveis a serem eliminadas são: informações pessoais do paciente, datas de exames, profissional avaliador, entre outras informações que não são relevantes.

#### Features do tipo float64 

As features Nome e Número_cultura não apresentam informações relevantes para a predição dos desfechos, pois representam o nome do paciente e o número de identificação utilizado para catálogo do teste de cultura.

In [6]:
# Removendo os atributos irrelevantes do tipo float64
data.drop(['Nome', 'Número_cultura'],axis=1,inplace=True)

#### Features do tipo int64 

As features Número_geral, Telefone_1, Telefone_2, CEP e ANO  de inclusao não possuem informações relevantes. A feature Novocriteriotbafranio representa um desfecho que não é considerado no estudo.

In [7]:
# Removendo os atributos irrelevantes
data.drop(['Número_geral', 'Telefone_1', 'Telefone_2', 'CEP', 'ANO  de inclusao', 'Valor_pts_escore'],axis=1,inplace=True)

# Novocriteriotbafranio: desfecho não considerado no estudo
data.drop(['Novocriteriotbafranio'],axis=1,inplace=True)

#### Features do tipo Object

As features a serem desconsideradas seguem o mesmo critério de seleção descrito anteriormente.

In [8]:
# Desfechos desconsiderados no estudo.
data.drop(['Tbafranio', 'Obs_desfechoTB_Dri_Dani', 'Data_inclusão', 
           'Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 
           'Observaça0_desfecho_TB'],axis=1,inplace=True)

In [9]:
# Atributos com informações descorrelacionadas com o desfecho
data.drop(['Escore_Cat','VAR00003','Data_início_TTO','Data_coleta_escarro_1','Data_RX','Médico_avaliador', 'Data_avaliação_médica',
           'Médico_avaliador_Fup', 'Data_Fup', 'Onde_vc_mora_CA', 'Transporte_CA', 'Custo_transporte_reais_CA', 
           'Acompanhado_CA', 'Número_pessoas_CA', 'Horas_saiu_de_casa_CA', 'Horas_Chegou_posto_CA', 'Horas_viu_profissional_CA', 
           'Tempo_até_o_posto_minutos_CA', 'Caso_FORA_DO_RJ_retorno_onde_pernoitar_CA', 'Pagará_pernoite', 'Valor_pernoite_CA', 
           'Trouxe_algo_amigos_CA', 'Valor_algo_CA', 'Comeu_bebeu_CA', 'Valor_comida_bebida_CA', 'Pagou_algo_no_posto_CA', 'Valor_algo_posto_CA', 
           'Profissão_CA', 'Perdeu_aula_hoje_CA', 'Deixou_de_ganhar_dinheiro_hoje_CA', 'Quanto_deixou_ganhar_CA', 'Caso_acompanhado_quem_custeou_tudo_CA', 
           'Valor_CA', 'Avaliador_custo_CA', 'Data_avaliação_custo_CA', 'Resultado_cultura_final < 3 & Realizou_RX = 1  (FILTER)','Data_coleta_escarro_2',
           'Karen_amostra','Prontuário_PAAP', 'Óbito', 'Causa_óbito', 'Número_laboratório', 'Número_cultura_segunda_amostra', 'Biometrix_inserido_tabela_por_nomes', 
           'Resultado_biometrix_CTMtb','N°_TB', 'Data_TB_passado', 'Data_quimio', 'Nome_mãe', 'Endereço2','Bairro_Residência', 'Cidade_residência', 'Data_nascimento', 
           'Naturalidade_cidade', 'Naturalidade_estado2', 'Mora_no_Rio_há_quantos_anos', 'Total_escore_Paulo', 'Número_anos', 'Data_assinatura_TCLE', 
           'Data_aplicação__PT', 'Data_leitura_PT', 'Leitor_PT', 'Enfemeiro_avaliação', 'Data_avaliação', 'Data_HIV', 'Data_mudança', 'Motivo_mudança', 
           'Descrever_outro_motivo_mudança','Data_RX_Fup', 'Data_anti_HIV'],axis=1,inplace=True)

In [10]:
# Após a primeira avaliação das features
data.shape

(4381, 196)

Após análise inicial, foram eliminadas 84 variáveis.

In [47]:
# Verificação das features até o momento:
for feature in list(data.columns):
    print(feature,end='\n')
    print(data[feature].unique(),end='\n\n')

TB_desfecho_final_Dri
['TB' 'Não TB' 'IGN' '8']

Resultado_BAAR_1
['Negativo' 'Positivo' 'Não realizado/Desconhecido' 'IGN']

Resultado_BAAR_2
['Negativo' 'Positivo' 'Não realizado/Desconhecido' 'IGN']

Resultado_Cultutra_1
['negativo' 'positivo' 'NR' 'contaminada' 'IGN' 'prejudicada']

Resultado_Cultura_2
['negativo' 'positivo' 'NR' 'contaminada' 'prejudicada' 'IGN']

identificado_tb_ntb
[nan 'MTB' 'MNT']

Houve_desfecho_consulta_médica__inicial
['Sim' 'IGN' '8' 'Não']

Compareceram_consulta_medica
['Sim' 'Não']

TTO_TB_confirmação_bacteriológica
['Não' 'Sim' 'IGN' 'não se aplica']

TTO_TB_probabilidade
['Sim' 'Não' 'IGN' 'não se aplica']

Transferência_internação_não_TB_outra_especialidade
['Não' 'Sim' 'IGN' 'não se aplica']

TTO_pneumologia_patologia_não_TB
['Não' 'Sim' 'IGN' 'não se aplica']

Alta
['Não' 'IGN' 'Sim' 'não se aplica']

Descrever_outra_patologia
['TB Ganglionar-BX' 'SEQUELA TB' 'Sequela TB' 'Rinite + Sinusite' 'MNT'
 'mnt' 'Em observação' 'Asma' '9' '8' 'Rinite' 'Pneu

### Seleção de features: segundo filtro

Utilização de tabelas de contingência e teste do chi-quadrado para verificação de independência entre as variáveis e o desfecho

In [13]:
from scipy.stats import chi2_contingency

In [21]:
# Separação entre atributos e desfecho
desfecho = data['TB_desfecho_final_Dri']
data.drop(['TB_desfecho_final_Dri'],axis=1,inplace=True)