# Análise dos dados - Trabalho Luís

Análise dos dados e testes de independência assumindo as features utilizadas no trabalho do Luís, para averiguação.

### Análise inicial dos dados

In [2]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [6]:
# Carregando os dados
data = pd.read_excel('../Dados/Banco labels.xlsx')

In [7]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,2008-04-03,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2008,1
1,TB,SIM,,2006-10-03,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2006,1
2,TB,SIM,,2007-06-21,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2007,1
3,TB,SIM,,2009-09-30,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2009,1
4,TB,SIM,,2009-06-19,,TB,,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,2009-06-19,Not Selected,2009,1


In [15]:
# De acordo com o trabaho do Fabio, as seguintes features foram selecionadas por especialistas

features_selecionadas = ['Idade','Tosse','Hemoptise','Sudorese_noturna',
                         'Febre','Perda_peso_10percent','Dispnéia','Fuma','Internação_hospital_2anos',
                         'Dor_torácica','HIV','TB_desfecho_final_Dri']

# Não alterar o conjunto de dados original
data_reduced = data[features_selecionadas].copy()

# Informações sobre o conjunto de dados reduzido
print('Conjunto de dados reduzido.\nExemplos: {}\nFeatures: {}'.format(*data_reduced.shape))

# Renomeando o desfecho
data_reduced.rename(index=str,columns={'TB_desfecho_final_Dri':'desfecho'},inplace=True)

# Renomeando os labels do desfecho
data_reduced.replace(['Não TB','TB',8,'IGN'],['TB-','TB+','ignorado','ignorado'],inplace=True)

Conjunto de dados reduzido.
Exemplos: 4381
Features: 12


## Verificação dos dados

## Independência entre as variáveis utilizando o teste do chi quadrado

O teste do Chi-quadrado e realizado para a verificação de (in)dependência entre duas variáveis categóricas.

- Hipótese nula <i>$H_0$</i> : As variáveis são independentes.

- Hipótese alternativa <i>$H_a$</i> : As variáveis são dependentes

In [16]:
# Realização dos testes de chi quadrado utilizando tabelas de contingência
from scipy.stats import chi2_contingency

In [17]:
# Tabelas de contingência entre o desfecho e cada variável.

for feature in list(features_selecionadas[:-1]):
    
    if data[feature].dtype != 'O':
        continue
        
    print('Tabela de Contingência entre o desfecho e {}\n'.format(feature))
    
    # Contingency table from pandas
    cross_tab = pd.crosstab(data_reduced[feature],data_reduced['desfecho'],margins=True)
    print(pd.crosstab(data_reduced[feature],data_reduced['desfecho'],margins=True))
    print()
    
    # Chi Squared Test 
    chi2, p, dof, expected =  chi2_contingency(cross_tab)
    print('Chi2: {}\tp-value: {}\tDOF: {}\nExpected_val: \n{}\n\n'.format(chi2,p,dof,expected))

Tabela de Contingência entre o desfecho e Tosse

desfecho  TB+   TB-  ignorado   All
Tosse                              
Não        76   203       426   705
Sim       795  1652      1227  3674
ignorado    0     1         1     2
All       871  1856      1654  4381

Chi2: 186.547574597534	p-value: 2.170945755327427e-35	DOF: 9
Expected_val: 
[[  1.40163205e+02   2.98671536e+02   2.66165259e+02   7.05000000e+02]
 [  7.30439169e+02   1.55648117e+03   1.38707966e+03   3.67400000e+03]
 [  3.97626113e-01   8.47295138e-01   7.55078749e-01   2.00000000e+00]
 [  8.71000000e+02   1.85600000e+03   1.65400000e+03   4.38100000e+03]]


Tabela de Contingência entre o desfecho e Hemoptise

desfecho   TB+   TB-  ignorado   All
Hemoptise                           
Não        773  1692      1575  4040
Sim         97   145        63   305
ignorado     1    19        16    36
All        871  1856      1654  4381

Chi2: 56.97765385972671	p-value: 5.103536875424961e-09	DOF: 9
Expected_val: 
[[  803.20474777  