# Teste de modelos

Este notebook contém os modelos a serem avaliados utilizando os atributos considerados pelo relatório da Organização Mundial da Saúde.

In [1]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [2]:
# Carregando os dados
data = pd.read_excel('../Dados/Banco labels.xlsx')

In [3]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,2008-04-03,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2008,1
1,TB,SIM,,2006-10-03,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2006,1
2,TB,SIM,,2007-06-21,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2007,1
3,TB,SIM,,2009-09-30,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2009,1
4,TB,SIM,,2009-06-19,,TB,,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,2009-06-19,Not Selected,2009,1


In [4]:
# Lista de features presentes
print(list(data.columns))

['TB_desfecho_final_Dri', 'Tbafranio', 'Obs_desfechoTB_Dri_Dani', 'Data_inclusão', 'Nome', 'Desfecho_tuberculose_lista_Mauro', 'Desfecho_TB_162_Revisão_ADRIANA', 'Observaça0_desfecho_TB', 'Resultado_BAAR_1', 'Resultado_BAAR_2', 'Resultado_Cultutra_1', 'Resultado_Cultura_2', 'identificado_tb_ntb', 'Houve_desfecho_consulta_médica__inicial', 'Compareceram_consulta_medica', 'TTO_TB_confirmação_bacteriológica', 'TTO_TB_probabilidade', 'Transferência_internação_não_TB_outra_especialidade', 'TTO_pneumologia_patologia_não_TB', 'Alta', 'Descrever_outra_patologia', 'Asma', 'Em_caso_tto_TB_marcar_opções', 'TTO_anterior_TB_triagem_enfermeiro', 'Fator_risco_TBP_MDR', 'Médico_avaliador', 'Data_avaliação_médica', 'Cavitação_alta_média_probabilidade', 'RX_Padrão_TÍPICO_alta_média_probabilidade', 'RX_padrão_COMPATIVEL_alta_média_probabilidade', 'RX_Padrão_ATÍPICO_alta_média_probabilidade', 'RX_baixa_probabilidade_TB_INATIVA_SEQUELA', 'RX_baixa_probabilidade_TB_OUTRA_DOENÇA2', 'RX_baixa_probabilidade_NO

## Sintomas considerados pelo WHO

De acordo com o [WHO](http://www.who.int/news-room/fact-sheets/detail/tuberculosis):

"Common symptoms of active lung TB are cough with sputum and blood at times, chest pains, weakness, weight loss, fever and night sweats. Many countries still rely on a long-used method called sputum smear microscopy to diagnose TB. Trained laboratory technicians look at sputum samples under a microscope to see if TB bacteria are present. Microscopy detects only half the number of TB cases and cannot detect drug-resistance."

In [7]:
# Atributos considerados pelo WHO
features_selecionadas = ['TB_desfecho_final_Dri','Tosse','Hemoptise','Dor_torácica','Perda_peso_10percent','Sudorese_noturna','Febre']

# Dados filtrados
dados = data[features_selecionadas].copy()

In [8]:
dados.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tosse,Hemoptise,Dor_torácica,Perda_peso_10percent,Sudorese_noturna,Febre
0,TB,Sim,Não,Não,Não,Não,Não
1,TB,Sim,Não,Não,Não,Não,Não
2,TB,Sim,Não,Sim,Sim,Não,Sim
3,TB,Sim,Não,Sim,Não,Não,Não
4,TB,Sim,Não,Sim,Não,Sim,Não


In [13]:
# Informações sobre cada features presente
for feature in list(dados.columns):
    print('Feature {}:'.format(feature))
    print(dados[feature].value_counts())
    print('\n')

Feature TB_desfecho_final_Dri:
Não TB    1856
IGN       1633
TB         871
8           21
Name: TB_desfecho_final_Dri, dtype: int64


Feature Tosse:
Sim    3674
Não     705
IGN       2
Name: Tosse, dtype: int64


Feature Hemoptise:
Não    4040
Sim     305
IGN      34
8         2
Name: Hemoptise, dtype: int64


Feature Dor_torácica:
Sim    2924
Não    1447
IGN      10
Name: Dor_torácica, dtype: int64


Feature Perda_peso_10percent:
Não    3139
Sim     962
IGN     280
Name: Perda_peso_10percent, dtype: int64


Feature Sudorese_noturna:
Não    3003
Sim    1361
9        17
Name: Sudorese_noturna, dtype: int64


Feature Febre:
Não    2641
Sim    1726
IGN      14
Name: Febre, dtype: int64




## Pré-processamento dos dados

In [20]:
# Alteração do label da variável alvo
dados.rename(index=str,columns={'TB_desfecho_final_Dri':'desfecho'},inplace=True)

# Alteração dos labels presentes do desfecho
dados.desfecho.replace(['TB','Não TB','IGN',8],['TB+','TB-','ignorado','ignorado'],inplace=True)