Centro de Inovação em Inteligência Artificial para a Saúde da UFMG

**Curso de Introdução à Análise de Dados em Saúde com Python**

**Prof. Juliano Gaspar** - Faculdade de Medicina da UFMG

Mais informações: https://ciia-saude.medicina.ufmg.br/

## **Estatística Inferencial**

In [1]:
# importar as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from google.colab import files

import scipy.stats as stats
import statsmodels.stats as stsmodels
import statsmodels.stats.contingency_tables as stsmct

# Abrir o arquivo

In [2]:
# Endereço do arquivo com a base de dados
arquivo = 'https://ftp.medicina.ufmg.br/cursosciia/iads/BD_PARTOS.xlsx'

# Ler o arquivo
dados = pd.read_excel(arquivo)
dados

Unnamed: 0.1,Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,...,IG_TERMO,HOUVE_CESAREA,HOUVE_LACERACAO,HOUVE_CM,PARIDADE,PESO_VIAVEIS,PESO_US,PESO_ALTA,BAIXO_APGAR5,PARTO_CESAREO
0,0,2014-01-20,2014-01-21,1,2,1.0,38.0,38.0,Sim,Parto Normal,...,Termo-precoce,Não,Não,Sim,Primípara,3590.0,2590.0,3440.0,Não,Não
1,1,2014-05-21,2014-05-22,1,1,0.0,36.0,36.0,Sim,Parto Normal,...,Prematuro,Não,Não,Não,Nulípara,2660.0,1660.0,2510.0,Não,Não
2,2,2014-04-13,2014-04-14,1,2,1.0,39.0,39.0,Não,Parto Normal,...,Termo,Sim,Sim,Sim,Primípara,3075.0,2075.0,2925.0,Não,Não
3,3,2013-12-04,2013-12-05,1,2,1.0,41.0,41.0,Não,Parto Normal,...,Termo,Não,Sim,Sim,Primípara,3505.0,2755.5,3355.0,Não,Não
4,4,2013-12-05,2013-12-06,1,1,0.0,36.0,36.0,Não,Parto Normal,...,Prematuro,Não,Não,Sim,Nulípara,3405.0,2405.0,3255.0,Não,Não
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1703,1703,2014-07-05,2014-08-12,38,2,1.0,38.0,38.0,Não,Parto Normal,...,Termo-precoce,Não,Sim,Sim,Primípara,2940.0,1940.0,2790.0,Não,Não
1704,1704,2014-04-25,2014-06-10,46,2,1.0,29.0,34.0,Sim,Parto Cesáreo,...,Prematuro,Não,Não,Sim,Primípara,1945.0,661.5,1795.0,Não,Sim
1705,1705,2013-11-04,2013-12-22,48,2,1.0,26.0,32.0,Sim,Parto Cesáreo,...,Prematuro,Não,Não,Sim,Primípara,2275.0,892.5,2125.0,Não,Sim
1706,1706,2013-10-04,2013-11-28,55,3,0.0,27.0,34.0,Sim,Parto Cesáreo,...,Prematuro,Não,Não,Sim,Nulípara,2590.0,1113.0,2440.0,Não,Sim


In [3]:
# informações sobre as variáveis/colunas
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1708 entries, 0 to 1707
Data columns (total 50 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Unnamed: 0          1708 non-null   int64         
 1   DT_INTERNACAO       1708 non-null   datetime64[ns]
 2   DT_ALTA             1708 non-null   datetime64[ns]
 3   DURACAO_INT         1708 non-null   int64         
 4   GESTACOES           1708 non-null   int64         
 5   PARTOS              1707 non-null   float64       
 6   IG_OBSTETRA         1686 non-null   float64       
 7   IG_PEDIATRA         1704 non-null   float64       
 8   ALTO_RISCO          1708 non-null   object        
 9   TIPO_PARTO          1708 non-null   object        
 10  HIPERTENSAO         1708 non-null   object        
 11  GEMELAR             1708 non-null   object        
 12  CESAREAS_PREVIAS    1701 non-null   float64       
 13  EPISIOTOMIA         1708 non-null   object      

# **Estatística Inferencial - Variáveis Categóricas x Categóricas**

In [4]:
# caso a biblioteca scipy não esteja no servidor da Google
# instalar ela com o comando !pip (somente se der algum erro no bloco de cima)

# !pip install scipy

# Tabelas Cruzadas - Tabelas de Contigência

In [5]:
# pd.crosstab(VAR1, VAR2)
# Tabela cruzada - valor absoluto

pd.crosstab(dados.SEXO, dados.TIPO_PARTO)

TIPO_PARTO,Parto Cesáreo,Parto Normal
SEXO,Unnamed: 1_level_1,Unnamed: 2_level_1
Feminino,274,523
Masculino,356,497


In [6]:
# Tabela cruzada - valor relativo (%)

pd.crosstab(dados.SEXO, dados.TIPO_PARTO, normalize=True)

TIPO_PARTO,Parto Cesáreo,Parto Normal
SEXO,Unnamed: 1_level_1,Unnamed: 2_level_1
Feminino,0.166061,0.31697
Masculino,0.215758,0.301212


In [7]:
# Selecionar os nomes das variáveis  (SEXO, TIPO_PARTO)
varPreditora = 'SEXO'
varDesfecho = 'TIPO_PARTO'

In [8]:
# 1º Filtrar registros que sem nulos nas duas colunas que se deseja trabalhar
dados2 = dados.dropna(how = 'any', subset=[varPreditora, varDesfecho])

# Tabela cruzada - valor absoluto
pd.crosstab(dados2[varPreditora], dados2[varDesfecho])

TIPO_PARTO,Parto Cesáreo,Parto Normal
SEXO,Unnamed: 1_level_1,Unnamed: 2_level_1
Feminino,274,523
Masculino,356,497


In [9]:
# Tabela cruzada - valor relativo (%)
pd.crosstab(dados2[varPreditora], dados2[varDesfecho], normalize=True)

TIPO_PARTO,Parto Cesáreo,Parto Normal
SEXO,Unnamed: 1_level_1,Unnamed: 2_level_1
Feminino,0.166061,0.31697
Masculino,0.215758,0.301212


# Teste de hipótese de Qui-Quadrado de Pearson

**Exemplo 1: Existe associação entre o sexo do RN e o tipo de parto?**

In [10]:
# stats.chi2_contingency()

# Qui-Quadrado de Pearson
# H0 = Variáveis independentes! Não existe associação entre as variáveis!

# Definir as variáveis
preditora = dados2[varPreditora]
desfecho = dados2[varDesfecho]

# criando a tabela contigência
tabela_contigencia = pd.crosstab(preditora, desfecho)

# Calculando o qui-quadrado
stat, pvalue, dof, expected = stats.chi2_contingency(tabela_contigencia)

pvalue
# como o valor de p é muito pequeno, o valor é apresentado em notação cietífica (mais complexo de entender)

0.0025049841110011883

In [11]:
# mostrar o valor formatado em 3 casas decimais
round(pvalue, 3)

0.003

In [12]:
# mostrar o valor formatado em 3 casas decimais
print(f'{pvalue:.3f}')

0.003


In [13]:
# mostrar o valor formatado em 100 casas decimais
print(f'{pvalue:.100f}')

0.0025049841110011883058006354474400723120197653770446777343750000000000000000000000000000000000000000


**Código pronto para executar o Qui-quadrado de Pearson**

In [14]:
# Escolher as variáveis e executar o bloco de código abaixo (ALTO_RISCO x TIPO_PARTO)
varPreditora = 'ALTO_RISCO'
varDesfecho = 'TIPO_PARTO'

In [15]:
# stats.chi2_contingency()

# Qui-Quadrado de Pearson
# H0 = Variáveis independentes! Não existe associação entre as variáveis!

# Filtrar registros que sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varPreditora, varDesfecho])

# Definir as variáveis
preditora = dados2[varPreditora]
desfecho = dados2[varDesfecho]

# criando a tabela contigência
tabela_contigencia = pd.crosstab(preditora, desfecho)
print(tabela_contigencia)
print('')

# Calculando o qui-quadrado
stat, pvalue, dof, expected = stats.chi2_contingency(tabela_contigencia)

# Código para interpretar o resultado
print(f'p-value: {pvalue:.3f}')

if pvalue <= 0.05:
    print('Rejeita H0 = Variáveis dependentes! Existe associação!')
else:
    print('Aceita H0 = Variáveis independentes! Não existe associação!')

TIPO_PARTO  Parto Cesáreo  Parto Normal
ALTO_RISCO                             
Não                   265           642
Sim                   387           414

p-value: 0.000
Rejeita H0 = Variáveis dependentes! Existe associação!


**Atividade 04: Faça a análise de associação entre SEXO e UTI_RN**

In [16]:
# Escolher as variáveis e executar o bloco de código abaixo (SEXO x UTI_RN)
varPreditora = 'SEXO'
varDesfecho = 'UTI_RN'

In [17]:
# Qui-Quadrado de Pearson
# H0 = Variáveis independentes! Não existe associação entre as variáveis!

# Filtrar registros que sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varPreditora, varDesfecho])

# Definir as variáveis
preditora = dados2[varPreditora]
desfecho = dados2[varDesfecho]

# criando a tabela contigência
tabela_contigencia = pd.crosstab(preditora, desfecho)
print(tabela_contigencia)
print('')

# Calculando o qui-quadrado
stat, pvalue, dof, expected = stats.chi2_contingency(tabela_contigencia)

# Código para interpretar o resultado
print(f'p-value: {pvalue:.3f}')

if pvalue <= 0.05:
    print('Rejeita H0 = Variáveis dependentes! Existe associação!')
else:
    print('Aceita H0 = Variáveis independentes! Não existe associação!')

UTI_RN     Não  Sim
SEXO               
Feminino   695  102
Masculino  711  142

p-value: 0.033
Rejeita H0 = Variáveis dependentes! Existe associação!


Saiba mais: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

# Teste exato de Fisher

**Exemplo 1: Existe associação entre usar Fórceps e complicações maternas de Nearmiss?**

In [26]:
# Escolher as variáveis e executar o bloco de código abaixo (FORCEPS e NEARMISS)
varPreditora = 'FORCEPS'
varDesfecho = 'CM_NEARMISS'

**Código pronto para executar o Teste Exato de Fisher**

In [27]:
# stats.fisher_exact()

# Teste exato de Fisher
# H0 = Variáveis independentes! Não existe associação entre as variáveis!

# Filtrar registros que sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varPreditora, varDesfecho])

# Definir as variáveis
preditora = dados2[varPreditora]
desfecho = dados2[varDesfecho]

# criando a tabela contigência
tabela_contigencia = pd.crosstab(preditora, desfecho)
print(tabela_contigencia)
print('')

# Calculando o Fisher
oddsr, pvalue = stats.fisher_exact(tabela_contigencia, alternative='two-sided')

# Código para interpretar o resultado
print(f'p-value: {pvalue:.3f}')
print(f'oddsr: {oddsr:.3f}')
if pvalue <= 0.05:
    print('Rejeita H0 = Variáveis dependentes! Existe associação!')
else:
    print('Aceita H0 = Variáveis independentes! Não existe associação!')

CM_NEARMISS   Não  Sim
FORCEPS               
Não          1604   17
Sim            87    0

p-value: 1.000
oddsr: 0.000
Aceita H0 = Variáveis independentes! Não existe associação!


In [28]:
stat, pvalue, dof, expected = stats.chi2_contingency(tabela_contigencia)
expected

array([[1.60486593e+03, 1.61340749e+01],
       [8.61340749e+01, 8.65925059e-01]])

**Exemplo 2: Existe associação entre o recém-nascido nascer vivo ou morto e complicações maternas de Nearmiss?**

In [29]:
# Escolher as variáveis e executar o bloco de código abaixo (VIVO x CM_NEARMISS)
varPreditora = 'VIVO'
varDesfecho = 'CM_NEARMISS'

In [30]:
# Teste exato de Fisher
# H0 = Variáveis independentes! Não existe associação entre as variáveis!

# Filtrar registros que sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varPreditora, varDesfecho])

# Definir as variáveis
preditora = dados2[varPreditora]
desfecho = dados2[varDesfecho]

# criando a tabela contigência
tabela_contigencia = pd.crosstab(preditora, desfecho)
print(tabela_contigencia)
print('')

# Calculando o Fisher
oddsr, pvalue = stats.fisher_exact(tabela_contigencia, alternative='two-sided')

# Código para interpretar o resultado
print(f'p-value: {pvalue:.3f}')
print(f'oddsr: {oddsr:.3f}')
if pvalue <= 0.05:
    print('Rejeita H0 = Variáveis dependentes! Existe associação!')
else:
    print('Aceita H0 = Variáveis independentes! Não existe associação!')

CM_NEARMISS     Não  Sim
VIVO                    
Nascido morto    30    1
Nascido vivo   1625   16

p-value: 0.274
oddsr: 0.295
Aceita H0 = Variáveis independentes! Não existe associação!


In [25]:
stat, pvalue, dof, expected = stats.chi2_contingency(tabela_contigencia)
expected

array([[3.06848086e+01, 3.15191388e-01],
       [1.62431519e+03, 1.66848086e+01]])

# Teste de McNemar - Variáveis pareadas (antes e após) - variáveis categóricas

**IMPORTANTE:** Precisa sempre verificar se os códigos das variáveis tem o mesmo valor.

**Exemplo 1: O escore de Apgar de 1º minuto está associado ao escore de Apgar de 5º minuto?**

In [31]:
# Escolher as variáveis e executar o bloco de código abaixo (BAIXO_APGAR1 x BAIXO_APGAR5)
varAntes = 'BAIXO_APGAR1'
varApos = 'BAIXO_APGAR5'

In [32]:
# stsmct.mcnemar()

# Filtrar registros sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varAntes, varApos])

# Teste de McNemar - Variáveis pareadas (antes e após)
# H0 = Variáveis independentes! Não existe associação entre as variáveis!

# Definir as variáveis
vAntes = dados2[varAntes]
vApos = dados2[varApos]

# criando a tabela contigência
tabela_contigencia = pd.crosstab(vAntes, vApos)
print(tabela_contigencia)
print('')

# Calculando o qui-quadrado
resultado = stsmct.mcnemar(tabela_contigencia, exact=True, correction=True)
pvalue = resultado.pvalue

# Código para interpretar o resultado
print(f'p-value: {pvalue:.3f}')

if pvalue <= 0.05:
    print('Rejeita H0 = Variáveis dependentes! Existe associação!')
else:
    print('Aceita H0 = Variáveis independentes! Não existe associação!')


BAIXO_APGAR5   Não  Sim
BAIXO_APGAR1           
Não           1440    5
Sim            158   47

p-value: 0.000
Rejeita H0 = Variáveis dependentes! Existe associação!


In [33]:
# mostrar o valor formatado em 100 casas decimais
print(f'{pvalue:.100f}')

0.0000000000000000000000000000000000000001591435028596816758068228363992826294927333456374641454170709


**Exemplo 2: O já ter feito uma cesárea está associado a fazer uma cesárea no parto atual?**

Nesta análise, só podem ser analisadas registros de gestantes que já fizeram pelo menos 1 parto, para que a comparação seja justa.

**IMPORTANTE:** Precisa sempre verificar se os códigos das variáveis tem o mesmo valor.

In [34]:
# Neste exemplo precisamos filtrar apenas os casos de gestantes que já tiveram filhos (partos > 0)
dadosFiltrados = dados[ (dados.PARTOS >= 1) ]

In [35]:
# Escolher as variáveis e executar o bloco de código abaixo (HOUVE_CESAREA x PARTO_CESAREO)
varAntes = 'HOUVE_CESAREA'
varApos = 'PARTO_CESAREO'

**Código pronto para executar o Teste de McNemar**

In [36]:
# stsmct.mcnemar()

# IMPORTANTE: neste caso usar dadosFiltrados, pelo fato de só ter gestantes com partos anteriores

# Filtrar registros sem nulos nas duas colunas
dados2 = dadosFiltrados.dropna(how = 'any', subset=[varAntes, varApos])

# Teste de McNemar - Variáveis pareadas (antes e após)
# H0 = Variáveis independentes! Não existe associação entre as variáveis!

# Definir as variáveis
vAntes = dados2[varAntes]
vApos = dados2[varApos]

# criando a tabela contigência
tabela_contigencia = pd.crosstab(vAntes, vApos)
print(tabela_contigencia)
print('')

# Calculando o qui-quadrado
resultado = stsmct.mcnemar(tabela_contigencia, exact=True, correction=True)
pvalue = resultado.pvalue

# Código para interpretar o resultado
print(f'p-value: {pvalue:.3f}')
if pvalue <= 0.05:
    print('Rejeita H0 = Variáveis dependentes! Existe associação!')
else:
    print('Aceita H0 = Variáveis independentes! Não existe associação!')

PARTO_CESAREO  Não  Sim
HOUVE_CESAREA          
Não            477  121
Sim             60  267

p-value: 0.000
Rejeita H0 = Variáveis dependentes! Existe associação!


Saiba mais: https://www.statsmodels.org/devel/generated/statsmodels.stats.contingency_tables.mcnemar.html

# Risco Relativo = RR = A/(A+B)   /   C/(C+D)

scipy.stats.contingency.relative_risk(**exposed_cases, exposed_total, control_cases, control_total**)

scipy.stats.contingency.relative_risk(**A, A+B, C, C+D**)

**Exemplo 1 - Qual é o risco relativo de uma gestante realizar uma nova cesárea para aquelas que já realizaram cesáreas anteriores?**

In [37]:
# Escolher as variáveis e executar o bloco de código abaixo (HOUVE_CESAREA x TIPO_PARTO)
varPreditora = 'HOUVE_CESAREA'
varDesfecho = 'TIPO_PARTO'

In [38]:
# 1º Filtrar registros sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varPreditora, varDesfecho])

# 2º Analisar como os dados estão dispostos na Tabela de contigência - definir as variáveis
preditora = dados2[varPreditora]
desfecho = dados2[varDesfecho]

# criando a tabela contigência - para conferir
# pd.crosstab(preditora, desfecho)
pd.crosstab(preditora, desfecho).reindex(["Sim", "Não"])

TIPO_PARTO,Parto Cesáreo,Parto Normal
HOUVE_CESAREA,Unnamed: 1_level_1,Unnamed: 2_level_1
Sim,276,62
Não,374,989


*   A = casos da exposição = fator exposição SIM e fator desfecho SIM
*   A+B = total de casos da exposição = fator exposição SIM
*   C = casos de controle = fator exposição NÃO e fator desfecho SIM
*   C+D = total de caso de control e= fator exposição NÃO

In [39]:
# Forma simples, mas NÃO RECOMENDADO
# mas não é uma boa estratégia, pois toda vez que tiver novos valores,
# esses valores irão alterar e você pode esquecer de vir aqui e redigitar essa parte.

# Pode-se montar a função com valores digitados a mão
A = 276
AB = 276 + 62
C = 374
CD = 374 + 989

# para conferir
print('A : ', A)
print('AB: ', AB)
print('C : ', C)
print('CD: ', CD)

A :  276
AB:  338
C :  374
CD:  1363


In [40]:
# stats.contingency.relative_risk()

# Cálculo do risco relativo
resultado = stats.contingency.relative_risk(A, AB, C, CD)

# arredondar para 3 casas decimais
rr = round(resultado.relative_risk, 3)

# mostrar
print('Risco relativo: ', rr)

Risco relativo:  2.976


**Definir quem são os expostos e os controles de forma automática**

In [41]:
# Casos da exposição = Nº de casos que que tem o fator de exposição (presente) e o fator de desfecho (presente)
dados3 = dados2[(dados2[varPreditora] == 'Sim') & (dados2[varDesfecho]== 'Parto Cesáreo')].count()
A = dados3[varPreditora]

# Total de Casos da exposição = Nº de casos que que tem o fator de exposição (presente)
dados3 = dados2[(dados2[varPreditora]== 'Sim')].count()
AB = dados3[varPreditora]

# Casos da exposição = Nº de casos que que tem o fator de exposição (ausente) e o fator de desfecho (presente)
dados3 = dados2[(dados2[varPreditora] == 'Não') & (dados2[varDesfecho] == 'Parto Cesáreo')].count()
C = dados3[varPreditora]

# Casos da exposição = Nº de casos que que tem o fator de exposição (ausente) e o fator de desfecho (presente)
dados3 = dados2[(dados2[varPreditora] == 'Não')].count()
CD = dados3[varPreditora]

# para conferir
print('A : ', A)
print('AB: ', AB)
print('C : ', C)
print('CD: ', CD)

A :  276
AB:  338
C :  374
CD:  1363


**Executar a função de risco relativo**

Passar os valores para função na ordem: **casos expostos, casos totais, casos controle, total de controle**

In [42]:
# Cálculo do risco relativo
resultado = stats.contingency.relative_risk(A, AB, C, CD)

# arredondar para 3 casas decimais
rr = round(resultado.relative_risk, 3)

# mostrar
print('Risco relativo: ', rr)

Risco relativo:  2.976


In [None]:
# Calcular o intervalo de confiança a 95%
resultado.confidence_interval(confidence_level=0.95)

In [43]:
# Mostrar o resultado do risco relativo
rr = resultado.relative_risk
print(f'Risco relativo: {rr:.3f}')

# mostrar o intervalo de confiança a 95%
ci = resultado.confidence_interval(confidence_level=0.95)
print(f'IC 95% inferior: {ci.low:.3f}')
print(f'IC 95% superior: {ci.high:.3f}')

Risco relativo: 2.976
IC 95% inferior: 2.693
IC 95% superior: 3.289


**Exemplo 2 - Qual é o risco relativo de um RN ir para UTI em relação a gestante ter ou não Hipertensão?**

In [44]:
# Escolher as variáveis e executar o bloco de código abaixo (HIPERTENSAO x UTI_RN)
varPreditora = 'HIPERTENSAO'
varDesfecho = 'UTI_RN'

In [45]:
# stats.contingency.relative_risk()

# 1º Filtrar registros sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varPreditora, varDesfecho])

# 2º Analisar como os dados estão dispostos na Tabela de contigência - definir as variáveis
preditora = dados2[varPreditora]
desfecho = dados2[varDesfecho]

# criando a tabela contigência - para conferir
tabelaContigencia = pd.crosstab(preditora, desfecho).reindex(["Sim", "Não"])[['Sim', 'Não']]

# ****************************************************

# Casos da exposição = Nº de casos que que tem o fator de exposição (presente) e o fator de desfecho (presente)
dados3 = dados2[(dados2[varPreditora] == 'Sim') & (dados2[varDesfecho]== 'Sim')].count()
A = dados3[varPreditora]

# Total de Casos da exposição = Nº de casos que que tem o fator de exposição (presente)
dados3 = dados2[(dados2[varPreditora]== 'Sim')].count()
AB = dados3[varPreditora]

# Casos da exposição = Nº de casos que que tem o fator de exposição (ausente) e o fator de desfecho (presente)
dados3 = dados2[(dados2[varPreditora] == 'Não') & (dados2[varDesfecho] == 'Sim')].count()
C = dados3[varPreditora]

# Casos da exposição = Nº de casos que que tem o fator de exposição (ausente) e o fator de desfecho (presente)
dados3 = dados2[(dados2[varPreditora] == 'Não')].count()
CD = dados3[varPreditora]

# ****************************************************

# Função do risco relativo
resultado = stats.contingency.relative_risk(A, AB, C, CD)

# Mostrar o resultado do risco relativo
rr = resultado.relative_risk
print(f'Risco relativo: {rr:.3f}')

# cacular o intervalo de confiança a 95%
ci = resultado.confidence_interval(confidence_level=0.95)

# mostrar o intervalo de confiança
print(f'IC 95% inferior: {ci.low:.3f}')
print(f'IC 95% superior: {ci.high:.3f}')
print()

# mostrar a tabela
tabelaContigencia

Risco relativo: 1.378
IC 95% inferior: 1.020
IC 95% superior: 1.862



UTI_RN,Sim,Não
HIPERTENSAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Sim,42,181
Não,203,1282


Saiba mais: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.contingency.relative_risk.html

# Odds Ratio - Razão de Chance - AxD / BxC

In [46]:
# Escolher as variáveis e executar o bloco de código abaixo (HIPERTENSAO x UTI_RN)
varPreditora = 'HIPERTENSAO'
varDesfecho = 'UTI_RN'

In [47]:
# stats.fisher_exact()

# 1º Filtrar registros sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varPreditora, varDesfecho])

# 2º Analisar como os dados estão dispostos na Tabela de contigência - definir as variáveis
preditora = dados2[varPreditora]
desfecho = dados2[varDesfecho]

# criando a tabela contigência - para conferir
tabelaContigencia = pd.crosstab(preditora, desfecho).reindex(["Sim", "Não"])[['Sim', 'Não']]

# Calcula o Odds através do teste exato de fisher - formatando o resultado
oddsratio, pvalue = stats.fisher_exact(tabelaContigencia)

print(f'Odds ratio: {oddsratio:.3f}')
print(f'p-value: {pvalue:.3f}')

if pvalue <= 0.05:
    print('Rejeita H0 = Variáveis dependentes! Existe associação!')
else:
    print('Aceita H0 = Variáveis independentes! Não existe associação!')

tabelaContigencia

# ***************************************************************************************
# ATENÇÃO: p-value 0,051 no LIMITE de aceitar ou rejeitar,
# nesse caso vale discutir muito bem esse resultado bem interessante.
# avaliar o intervalo de confiança com 95% para ver se passa pelo limite de 1.0

Odds ratio: 1.465
p-value: 0.051
Aceita H0 = Variáveis independentes! Não existe associação!


UTI_RN,Sim,Não
HIPERTENSAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Sim,42,181
Não,203,1282


**A função do teste exato de fisher é boa, mas não calcula os intervalos de confiança inferior e superior, mas a gente pode calcular na força bruta (a mão)**

In [48]:
# A = Nº de casos que que tem o fator de exposição (presente) e o fator de desfecho (presente)
dados3 = dados2[(dados2.HIPERTENSAO == 'Sim') & (dados2.UTI_RN == 'Sim')].count()
A = dados3.HIPERTENSAO

# B = Nº de casos que que tem o fator de exposição (presente) e o fator de desfecho (ausente)
dados3 = dados2[(dados2.HIPERTENSAO == 'Sim') & (dados2.UTI_RN == 'Não')].count()
B = dados3.HIPERTENSAO

# C = Nº de casos que que tem o fator de exposição (ausente) e o fator de desfecho (presente)
dados3 = dados2[(dados2.HIPERTENSAO == 'Não') & (dados2.UTI_RN == 'Sim')].count()
C = dados3.HIPERTENSAO

# D = Nº de casos que que tem o fator de exposição (ausente) e o fator de desfecho (ausente)
dados3 = dados2[(dados2.HIPERTENSAO == 'Não') & (dados2.UTI_RN == 'Não')].count()
D = dados3.HIPERTENSAO

# para conferir
print('A : ', A)
print('AB: ', AB)
print('C : ', C)
print('CD: ', CD)

A :  42
AB:  223
C :  203
CD:  1485


**Fórmulas**

Odds = (A x D)/(C x B)

Lower 95% CI = eln(OR) – 1.96√(1/a + 1/b + 1/c + 1/d)

Upper 95% CI = eln(OR) + 1.96√(1/a + 1/b + 1/c + 1/d)

In [49]:
# Calcula o Odds de forma simples
odds = (A*D)/(C*B)

# Calcular o intervalo de Confiança com 95% para o Odds
soma = (1/A + 1/B + 1/C + 1/D)
desvio = 1.96 * np.sqrt(soma)
logOdds = np.log(odds)

lower = np.exp(logOdds - desvio)
upper = np.exp(logOdds + desvio)

print(f'Odds ratio: {odds:.3f}')
print(f'IC 95% inferior: {lower:.3f}')
print(f'IC 95% superior: {upper:.3f}')

Odds ratio: 1.465
IC 95% inferior: 1.015
IC 95% superior: 2.115


Calcule aqui: https://select-statistics.co.uk/calculators/confidence-interval-calculator-odds-ratio/

Saiba mais: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.fisher_exact.html

Saiba mais: https://www.statology.org/confidence-interval-for-odds-ratio/

Saiba mais: https://www.statology.org/confidence-interval-for-odds-ratio/