# Análise dos dados - Trabalho Fabio

Análise dos dados e testes de independência assumindo as features utilizadas no trabalho do Fábio, para averiguação.

### Análise inicial dos dados

In [1]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [2]:
# Carregando os dados
data = pd.read_csv('../Dados/labels.csv',low_memory=False)

In [3]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,3/abr/08,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,9/set/99,Selected,2008,1
1,TB,SIM,,3/out/06,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,9/set/99,Selected,2006,1
2,TB,SIM,,21/jun/07,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,9/set/99,Selected,2007,1
3,TB,SIM,,30/set/09,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,9/set/99,Selected,2009,1
4,TB,SIM,,19/jun/09,,TB,#NULL!,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,19/jun/09,Not Selected,2009,1


In [27]:
# De acordo com o trabaho do Fabio, as seguintes features foram selecionadas por especialistas

features_selecionadas = ['Doença_pumonar_difusa','Transplante','Silicose','Tto_anterior_TB_INH','Tto_anterior_TB_RIF',
                         'Quimio_prévia', 'Quimio_INH', 'Quimio_RIF', 'Desfecho_quimio', 'HIV', 'Hepatopatia', 'Uso_corticoide',
                         'Neo_maligna', 'Asma', 'TTO_anterior_TB_triagem_enfermeiro','Cicatriz_BCG', 'Tto_anterior_TB_avaliação_médica',
                         'Comorbidades','Idade','Sexo','Raça','Estado_civil','Tem_companheiro','Tosse','Semanas_tosse','Expectoração',
                         'Hemoptóicos','Hemoptise','Sudorese_noturna','Febre','Dispnéia','Perda_de_apetite','Perda_peso_10percent',
                         'Dor_torácica','Internação_hospital_2anos','Prisão_2anos','Delegacia_2anos','Contato_TBP_2anos','TBP_Morava_com_vc',
                         'TBP_trabalhava_com_vc','TBP_amigo_parente_não_morava_com_vc','Contato_TBP_menor_3anos','Contato_TBP_Casa',
                         'Contato_TBP_Trabalho','Contato_TBP_Social','Fuma','Nenhuma_bebida_alcoólica','Etilismo','TB_desfecho_final_Dri']

# Não alterar o conjunto de dados original
data_reduced = data[features_selecionadas].copy()

# Informações sobre o conjunto de dados reduzido
print('Conjunto de dados reduzido.\nExemplos: {}\nFeatures: {}'.format(*data_reduced.shape))

# Renomeando o desfecho
data_reduced.rename(index=str,columns={'TB_desfecho_final_Dri':'desfecho'},inplace=True)

# Renomeando os labels do desfecho
data_reduced.replace(['Não TB','TB','8','IGN'],['TB-','TB+','ignorado','ignorado'],inplace=True)

Conjunto de dados reduzido.
Exemplos: 4381
Features: 49


In [1]:
# Realização dos testes de chi quadrado utilizando tabelas de contingência
from scipy.stats import chi2_contingency

In [38]:
# Tabelas de contingência entre o desfecho e cada variável.

for feature in list(features_selecionadas[:-1]):
    
    if data[feature].dtype != 'O':
        continue
        
    print('Tabela de Contingência entre o desfecho e {}\n'.format(feature))
    
    # Contingency table from pandas
    cross_tab = pd.crosstab(data_reduced[feature],data_reduced['desfecho'],margins=True)
    print(pd.crosstab(data_reduced[feature],data_reduced['desfecho'],margins=True))
    print()
    
    # Chi Squared Test 
    chi2, p, dof, expected =  chi2_contingency(cross_tab)
    print('Chi2: {}\tp-value: {}\tDOF: {}\nExpected_val: \n{}\n\n'.format(chi2,p,dof,expected))

Tabela de Contingência entre o desfecho e Doença_pumonar_difusa

desfecho               TB+   TB-  ignorado   All
Doença_pumonar_difusa                           
Não                    116   161         2   279
ignorado               755  1695      1652  4102
All                    871  1856      1654  4381

Chi2: 195.3686031450702	p-value: 1.8355135687635442e-39	DOF: 6
Expected_val: 
[[   55.46884273   118.19767176   105.33348551   279.        ]
 [  815.53115727  1737.80232824  1548.66651449  4102.        ]
 [  871.          1856.          1654.          4381.        ]]


Tabela de Contingência entre o desfecho e Transplante

desfecho     TB+   TB-  ignorado   All
Transplante                           
Não          116   161         2   279
ignorado     755  1695      1652  4102
All          871  1856      1654  4381

Chi2: 195.3686031450702	p-value: 1.8355135687635442e-39	DOF: 6
Expected_val: 
[[   55.46884273   118.19767176   105.33348551   279.        ]
 [  815.53115727  1737.8023