# Análise Exploratória de Dados

In [1]:
# Módulos para análise dos dados
import numpy  as np
import pandas as pd

# Visualização de dados
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

# Configurações globais para o matplotlib
matplotlib.rcParams['figure.figsize'] = (16.0, 8.0)
matplotlib.rc('xtick', labelsize=9) 
matplotlib.rc('ytick', labelsize=9)

%matplotlib inline

In [2]:
# Importação dos dados da base de triagem de pacientes com tuberculose
data = pd.read_excel('../../Data/Raw/Banco labels.xlsx')

## Verificação inicial dos dados

In [3]:
# Visualização dos dados
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,2008-04-03,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2008,1
1,TB,SIM,,2006-10-03,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2006,1
2,TB,SIM,,2007-06-21,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2007,1
3,TB,SIM,,2009-09-30,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2009,1
4,TB,SIM,,2009-06-19,,TB,,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,2009-06-19,Not Selected,2009,1


## Remoção de atributos da base

Selecionar somente as variáveis escolhidas por especialistas, de acordo com o trabalho do Fabio.

In [7]:
features_selecionadas   = [
                        # Variáveis relacionadas ao desfecho
                        'TB_desfecho_final_Dri', 
                        'Tbafranio', 
                        'Desfecho_tuberculose_lista_Mauro', 
                        'Desfecho_TB_162_Revisão_ADRIANA',
                        'Desfecho_TB', 
    
                        # Sintomas e outros
                        'Asma', 
                        'TTO_anterior_TB_triagem_enfermeiro', 
                        'Cicatriz_BCG',                         
                        'Tto_anterior_TB_avaliação_médica', 
                        'Tto_anterior_TB_INH', 
                        'Tto_anterior_TB_RIF', 
                        'Quimio_prévia', 
                        'Quimio_INH', 
                        'Quimio_RIF', 
                        'Desfecho_quimio', 
                        'HIV', 
                        'Comorbidades', 
                        'Idade', 
                        'Sexo', 
                        'Raça', 
                        'Raça_2', 
                        'Estado_civil', 
                        'Tem_companheiro', 
                        'Tosse', 
                        'Semanas_tosse', 
                        'Expectoração', 
                        'Semanas_expectoração', 
                        'Hemoptóicos', 
                        'Semanas_hemoptóicos', 
                        'Hemoptise', 
                        'Semanas_hemoptise', 
                        'Quantidade_hemoptise', 
                        'Sudorese_noturna', 
                        'Semanas_sudorese', 
                        'Febre', 
                        'Semanas_febre', 
                        'Dispnéia', 
                        'Dispnéia_semanas', 
                        'Perda_de_apetite', 
                        'Perda_apetite_semanas', 
                        'Perda_peso_10percent', 
                        'Perda_peso_semanas', 
                        'Dor_torácica', 
                        'Dor_torácica_semanas', 
                        'Internação_hospital_2anos', 
                        'Prisão_2anos', 
                        'Delegacia_2anos', 
                        'Contato_TBP_2anos', 
                        'TBP_Morava_com_vc', 
                        'TBP_trabalhava_com_vc', 
                        'TBP_amigo_parente_não_morava_com_vc', 
                        'Contato_TBP_menor_3anos', 
                        'Contato_TBP_Casa', 
                        'Contato_TBP_Trabalho', 
                        'Contato_TBP_Social', 
                        'Fuma', 
                        'Número_cigarros_dia', 
                        'Número_anos', 
                        
                        # Variáveis relacionadas ao consumo de álcool do paciente
                        'Cerveja', 
                        'Vinho', 
                        'Whisky', 
                        'Cachaça', 
                        'Outras_bebidas_alcoólicas', 
                        'Nenhuma_bebida_alcoólica', 
                        'CAGE',
                        'Etilismo', 
                        'Hepatopatia', 
                        'Uso_corticoide', 
                        'Neo_maligna', 
                        'Transplante',  
                        'Silicose', 
                        'Doença_pumonar_difusa', 
                        'Novocriteriotbafranio']

In [10]:
# Dados das features pré-filtradas 
dados_selecionados = data[features_selecionadas]

# Salvandos os dados pré-filtrados
dados_selecionados.to_csv('../../Data/Processed/filtered.csv',index=False)

print('Quantidade de features selecionadas: {}'.format(len(features_selecionadas)))

Quantidade de features selecionadas: 73


## Codificação da base de dados

#### Verificação das labels relacionadas ao desfecho

In [28]:
# Verificação dos dados relacionados ao desfecho/target.
desfecho = dados_selecionados[['TB_desfecho_final_Dri','Tbafranio','Desfecho_tuberculose_lista_Mauro','Desfecho_TB_162_Revisão_ADRIANA','Desfecho_TB','Novocriteriotbafranio']]

In [29]:
desfecho.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Desfecho_TB,Novocriteriotbafranio
0,TB,TB+,9,TB,Abandono,1
1,TB,TB+,TB+,TB,Abandono,1
2,TB,TB+,TB+,TB,IGN,1
3,TB,TB+,TB+,TB,não se aplica,1
4,TB,TB+,TB+,,Cura,1


In [16]:
# Verificação de cada valor possível
for feature in list(desfecho.columns):
    print('Valores possíveis para a feature {}: {}'.format(feature,desfecho[feature].unique()))

Valores possíveis para a feature TB_desfecho_final_Dri: ['TB' 'Não TB' 'IGN' 8]
Valores possíveis para a feature Tbafranio: ['SIM' 'NAO']
Valores possíveis para a feature Desfecho_tuberculose_lista_Mauro: [9 'TB' 'Não TB']
Valores possíveis para a feature Desfecho_TB_162_Revisão_ADRIANA: ['TB' nan 'Não TB']
Valores possíveis para a feature Desfecho_TB: ['Abandono' 'IGN' 'não se aplica' 'Cura' 'Completou tto' 0 'Falência']


In [31]:
# Feature Tbafranio - Única com TB+ e TB-
dados_selecionados['Tbafranio'] = dados_selecionados['Tbafranio'].replace(['NAO','SIM'],['TB-','TB+'])

# Removendo as outras features relacionadas ao target
dados_selecionados.drop(['TB_desfecho_final_Dri','Desfecho_tuberculose_lista_Mauro','Desfecho_TB_162_Revisão_ADRIANA','Desfecho_TB','Novocriteriotbafranio'],axis=1,inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [34]:
# Alterando o nome da feature
dados_selecionados.rename(columns={'Tbafranio' : 'target'},inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  **kwargs)


In [35]:
# Verificando novamente os dados
dados_selecionados.head(5)

Unnamed: 0,target,Asma,TTO_anterior_TB_triagem_enfermeiro,Cicatriz_BCG,Tto_anterior_TB_avaliação_médica,Tto_anterior_TB_INH,Tto_anterior_TB_RIF,Quimio_prévia,Quimio_INH,Quimio_RIF,...,Outras_bebidas_alcoólicas,Nenhuma_bebida_alcoólica,CAGE,Etilismo,Hepatopatia,Uso_corticoide,Neo_maligna,Transplante,Silicose,Doença_pumonar_difusa
0,TB+,Não,Sim,Sim,Não,,,Não,,,...,Sim,Não,Negativo,Não,Não,Não,Não,Não,Não,Não
1,TB+,Não,Sim,IGN,Sim,Sim,Não,Não,IGN,IGN,...,Não,Sim,Negativo,IGN,IGN,IGN,IGN,IGN,IGN,IGN
2,TB+,Não,Não,Não,Não,IGN,IGN,Não,IGN,IGN,...,Não,Sim,Negativo,IGN,IGN,IGN,IGN,IGN,IGN,IGN
3,TB+,Não,Não,Sim,Não,,,Não,,,...,Não,Sim,Negativo,8,8,8,8,8,8,8
4,TB+,Não,Sim,IGN,Sim,IGN,IGN,Não,,,...,Não,Não,Positivo,Sim,Não,Não,Não,Não,Não,Não


In [41]:
print('Informações gerais sobre a base de dados:\n')

# Tamanho da base de dados
print('-> Quantidade de pacientes presentes na base de dados: {}'.format(len(data)))

# Quantidade de pacientes com TB+ e TB-
print('-> Quantidade de pacientes com TB+: {}\n-> Quantidade de pacientes com TB-: {}'.format(len(dados_selecionados[dados_selecionados.target == 'TB+']),
                                                                                              len(dados_selecionados[dados_selecionados.target == 'TB-'])))

# Proporcão da base
print('-> Proporção de pacientes TB+ e TB-: {:.2f}% de casos TB+ e {:.2f}% de casos TB-'.format(100 * len(dados_selecionados[dados_selecionados.target == 'TB+'])/len(dados_selecionados),
                                                                                                100 * len(dados_selecionados[dados_selecionados.target == 'TB-'])/len(dados_selecionados)))

# Quantidade de features presentes
print('-> Quantidade de atributos presentes: {}\n'.format(len(data.columns)))

Informações gerais sobre a base de dados:

-> Quantidade de pacientes presentes na base de dados: 4381
-> Quantidade de pacientes com TB+: 799
-> Quantidade de pacientes com TB-: 3582
-> Proporção de pacientes TB+ e TB-: 18.24% de casos TB+ e 81.76% de casos TB-
-> Quantidade de atributos presentes: 281



## Verificação das variáveis, de acordo com o texto

De acordo com o trabalho do fabio, as variáveis Doença_pumonar_difusa, Transplante e Silicose foram retiradas por apresentarem discrepância entre os rótulos e os dados. <br>
Verificando...

In [48]:
# Verificando os dados presentes 
for feature in ['Doença_pumonar_difusa','Transplante','Silicose']:
    print('Possíveis valores para a feature {}: {}'.format(feature,dados_selecionados[feature].unique()))

Possíveis valores para a feature Doença_pumonar_difusa: ['Não' 'IGN' 8]
Possíveis valores para a feature Transplante: ['Não' 'IGN' 8]
Possíveis valores para a feature Silicose: ['Não' 'IGN' 8]


In [None]:
# Excluindo as features acima do modelo
