Centro de Inovação em Inteligência Artificial para a Saúde da UFMG

**Curso de Introdução à Análise de Dados em Saúde com Python**

**Prof. Juliano Gaspar** - Faculdade de Medicina da UFMG

Mais informações: https://ciia-saude.medicina.ufmg.br/

## **Estatística Inferencial**

In [1]:
# importar as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from google.colab import files

import scipy.stats as stats
import statsmodels.stats as stsmodels
import statsmodels.stats.contingency_tables as stsmct

# Abrir o arquivo

In [2]:
# Endereço do arquivo com a base de dados
arquivo = 'https://ftp.medicina.ufmg.br/cursosciia/iads/BD_PARTOS.xlsx'

# Ler o arquivo
dados = pd.read_excel(arquivo)
dados

Unnamed: 0.1,Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,...,IG_TERMO,HOUVE_CESAREA,HOUVE_LACERACAO,HOUVE_CM,PARIDADE,PESO_VIAVEIS,PESO_US,PESO_ALTA,BAIXO_APGAR5,PARTO_CESAREO
0,0,2014-01-20,2014-01-21,1,2,1.0,38.0,38.0,Sim,Parto Normal,...,Termo-precoce,Não,Não,Sim,Primípara,3590.0,2590.0,3440.0,Não,Não
1,1,2014-05-21,2014-05-22,1,1,0.0,36.0,36.0,Sim,Parto Normal,...,Prematuro,Não,Não,Não,Nulípara,2660.0,1660.0,2510.0,Não,Não
2,2,2014-04-13,2014-04-14,1,2,1.0,39.0,39.0,Não,Parto Normal,...,Termo,Sim,Sim,Sim,Primípara,3075.0,2075.0,2925.0,Não,Não
3,3,2013-12-04,2013-12-05,1,2,1.0,41.0,41.0,Não,Parto Normal,...,Termo,Não,Sim,Sim,Primípara,3505.0,2755.5,3355.0,Não,Não
4,4,2013-12-05,2013-12-06,1,1,0.0,36.0,36.0,Não,Parto Normal,...,Prematuro,Não,Não,Sim,Nulípara,3405.0,2405.0,3255.0,Não,Não
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1703,1703,2014-07-05,2014-08-12,38,2,1.0,38.0,38.0,Não,Parto Normal,...,Termo-precoce,Não,Sim,Sim,Primípara,2940.0,1940.0,2790.0,Não,Não
1704,1704,2014-04-25,2014-06-10,46,2,1.0,29.0,34.0,Sim,Parto Cesáreo,...,Prematuro,Não,Não,Sim,Primípara,1945.0,661.5,1795.0,Não,Sim
1705,1705,2013-11-04,2013-12-22,48,2,1.0,26.0,32.0,Sim,Parto Cesáreo,...,Prematuro,Não,Não,Sim,Primípara,2275.0,892.5,2125.0,Não,Sim
1706,1706,2013-10-04,2013-11-28,55,3,0.0,27.0,34.0,Sim,Parto Cesáreo,...,Prematuro,Não,Não,Sim,Nulípara,2590.0,1113.0,2440.0,Não,Sim


In [3]:
# informações sobre as variáveis/colunas
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1708 entries, 0 to 1707
Data columns (total 50 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Unnamed: 0          1708 non-null   int64         
 1   DT_INTERNACAO       1708 non-null   datetime64[ns]
 2   DT_ALTA             1708 non-null   datetime64[ns]
 3   DURACAO_INT         1708 non-null   int64         
 4   GESTACOES           1708 non-null   int64         
 5   PARTOS              1707 non-null   float64       
 6   IG_OBSTETRA         1686 non-null   float64       
 7   IG_PEDIATRA         1704 non-null   float64       
 8   ALTO_RISCO          1708 non-null   object        
 9   TIPO_PARTO          1708 non-null   object        
 10  HIPERTENSAO         1708 non-null   object        
 11  GEMELAR             1708 non-null   object        
 12  CESAREAS_PREVIAS    1701 non-null   float64       
 13  EPISIOTOMIA         1708 non-null   object      

# Cálculo Amostral

In [15]:
# Cálculo amostral

# Função para fazer o cálculo amostral padrão para uma população heterogênia
def calculoAmostral(e, N):
    n = (N / (1 + (N*(e**2))))
    return (n)

# A fórmula de Slovin é uma equação geral que é utilizada quando precisamos
# estimar uma população mas não temos referência do comportamento dela.

# ****************************************************************
# Para usar a função informar o erro e a população estimados

# Erro amostral definido para o estudo
erro = 0.05

# População estimada para o estudo
populacao = 50000

# Cálculo da amostra
amostra = calculoAmostral(erro, populacao)

# arredondar o resultado para valores inteiros
round(amostra)

397

Saiba mais: https://www.statisticshowto.com/probability-and-statistics/how-to-use-slovins-formula/

Outras fórmulas: https://pt.wikihow.com/Calcular-o-Tamanho-de-uma-Amostra

Informações sobre a Calculadora Amostral: https://comentto.com/calculadora-amostral/

# Amostra aleatória

In [5]:
# sample(N)
# Extrair uma amostra aleatória de 15 registros da base de dados

amostraAleatoria = dados.sample(15)

# Mostrar a amostra
amostraAleatoria

Unnamed: 0.1,Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,...,IG_TERMO,HOUVE_CESAREA,HOUVE_LACERACAO,HOUVE_CM,PARIDADE,PESO_VIAVEIS,PESO_US,PESO_ALTA,BAIXO_APGAR5,PARTO_CESAREO
24,24,2014-02-13,2014-02-14,1,3,0.0,40.0,40.0,Não,Parto Normal,...,Termo,Não,Não,Não,Nulípara,2720.0,1720.0,2570.0,Não,Não
318,318,2014-05-05,2014-05-06,1,1,0.0,40.0,40.0,Não,Parto Normal,...,Termo,Não,Sim,Sim,Nulípara,3390.0,2390.0,3240.0,Não,Não
160,160,2013-12-10,2013-12-11,1,6,2.0,37.0,37.0,Sim,Parto Normal,...,Termo-precoce,Não,Sim,Sim,Multípara,2275.0,1275.0,2125.0,Não,Não
451,451,2014-02-11,2014-02-13,2,2,1.0,37.0,37.0,Sim,Parto Cesáreo,...,Termo-precoce,Não,Não,Não,Primípara,3410.0,2410.0,3260.0,Não,Sim
506,506,2014-07-26,2014-07-28,2,1,0.0,38.0,38.0,Não,Parto Normal,...,Termo-precoce,Não,,,Nulípara,3270.0,2270.0,3120.0,Não,Não
749,749,2014-07-11,2014-07-13,2,2,1.0,41.0,41.0,Sim,Parto Cesáreo,...,Termo,Sim,,,Primípara,3930.0,3223.0,3780.0,Não,Sim
656,656,2014-06-27,2014-06-29,2,2,0.0,38.0,38.0,Não,Parto Normal,...,Termo-precoce,Não,Não,Não,Nulípara,2970.0,1970.0,2820.0,Não,Não
174,174,2014-05-02,2014-05-03,1,3,2.0,38.0,38.0,Não,Parto Normal,...,Termo-precoce,Não,Não,Não,Multípara,2800.0,1800.0,2650.0,Não,Não
549,549,2014-08-02,2014-08-04,2,1,0.0,41.0,40.0,Sim,Parto Normal,...,Termo,Não,Não,Não,Nulípara,3340.0,2574.0,3190.0,Não,Não
93,93,2014-07-06,2014-07-07,1,1,0.0,40.0,40.0,Não,Parto Normal,...,Termo,Não,Sim,Sim,Nulípara,3320.0,2320.0,3170.0,Não,Não


Saiba mais: https://www.delftstack.com/pt/api/python-pandas/pandas-dataframe-dataframe.sample-function/

# Amostragem Sistemática

In [6]:
# Amostragem Sistemática

# Definir o início e passo a passo da seleção de cada caso
inicio = 3
passo = 100

# arange(INICIO, TAMANHO, PASSO)
# criar uma lista com números de início a tamanho da base de dados de passo em passo

lista = np.arange(inicio, len(dados), step=passo)

# conferir lista de indices selecionados
print(lista)

[   3  103  203  303  403  503  603  703  803  903 1003 1103 1203 1303
 1403 1503 1603 1703]


In [7]:
# seleciona na base de dados as linhas iguais aos indices selecionados
amostraSistematica = dados.iloc[lista]

# Mostrar os dados registros selecionados
amostraSistematica

Unnamed: 0.1,Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,...,IG_TERMO,HOUVE_CESAREA,HOUVE_LACERACAO,HOUVE_CM,PARIDADE,PESO_VIAVEIS,PESO_US,PESO_ALTA,BAIXO_APGAR5,PARTO_CESAREO
3,3,2013-12-04,2013-12-05,1,2,1.0,41.0,41.0,Não,Parto Normal,...,Termo,Não,Sim,Sim,Primípara,3505.0,2755.5,3355.0,Não,Não
103,103,2014-08-21,2014-08-22,1,2,1.0,40.0,40.0,Não,Parto Normal,...,Termo,Não,Sim,Sim,Primípara,2850.0,1850.0,2700.0,Não,Não
203,203,2013-12-09,2013-12-10,1,1,0.0,38.0,38.0,Sim,Parto Normal,...,Termo-precoce,Não,Não,Não,Nulípara,2815.0,1815.0,2665.0,Não,Não
303,303,2014-10-28,2014-10-30,1,2,1.0,39.0,39.0,Não,Parto Normal,...,Termo,Não,Não,Não,Primípara,3110.0,2110.0,2960.0,Não,Não
403,403,2014-02-06,2014-02-07,2,1,0.0,41.0,41.0,Não,Parto Normal,...,Termo,Não,Não,Não,Nulípara,3460.0,2706.0,3310.0,Não,Não
503,503,2014-03-19,2014-03-21,2,2,1.0,40.0,40.0,Não,Parto Cesáreo,...,Termo,Sim,Não,Não,Primípara,3415.0,2415.0,3265.0,Não,Sim
603,603,2014-07-24,2014-07-26,2,1,0.0,39.0,40.0,Sim,Parto Normal,...,Termo,Não,Sim,Sim,Nulípara,2595.0,1595.0,2445.0,Não,Não
703,703,2014-02-07,2014-02-09,2,2,1.0,40.0,40.0,Não,Parto Normal,...,Termo,Não,Não,Não,Primípara,3025.0,2025.0,2875.0,Não,Não
803,803,2014-06-12,2014-06-14,2,2,1.0,41.0,40.0,Sim,Parto Normal,...,Termo,Não,Não,Não,Primípara,3310.0,2541.0,3160.0,Não,Não
903,903,2014-05-28,2014-05-30,2,2,1.0,40.0,40.0,Não,Parto Cesáreo,...,Termo,Sim,Não,Não,Primípara,,,,Não,Sim


# Amostragem Estratificada

In [8]:
# Importação das bibliotecas: StratifiedShuffleSplit para divisão da base de dados (separar amostras)
from sklearn.model_selection import StratifiedShuffleSplit

In [9]:
# Para relembrar como a base está distribuída por ALTO_RISCO
# Nos dados: 53.1% não tem alto risco e 46.9% tem alto risco

dados.ALTO_RISCO.value_counts(normalize=True)

Unnamed: 0_level_0,proportion
ALTO_RISCO,Unnamed: 1_level_1
Não,0.53103
Sim,0.46897


In [10]:
# Amostragem estratificada por ALTO_RISCO

# tamanho da amostra de 20% do total da base de dados
tamanhoAmostra = 0.2

split = StratifiedShuffleSplit(test_size = tamanhoAmostra)

for x, y in split.split(dados, dados.ALTO_RISCO):
  df_x = dados.iloc[x]
  df_y = dados.iloc[y]

# df_y é a AMOSTRA ESTRATIFICADA por ALTO_RISCO, com 20% dados balanceados por ALTO_RISCO
df_y

# df_x ficou com o restante dos 80% dos dados

Unnamed: 0.1,Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,...,IG_TERMO,HOUVE_CESAREA,HOUVE_LACERACAO,HOUVE_CM,PARIDADE,PESO_VIAVEIS,PESO_US,PESO_ALTA,BAIXO_APGAR5,PARTO_CESAREO
1072,1072,2013-12-31,2014-01-03,2,1,0.0,39.0,39.0,Não,Parto Cesáreo,...,Termo,Não,Não,Não,Nulípara,3165.0,2165.0,3015.0,Não,Sim
439,439,2014-02-11,2014-02-13,2,3,1.0,39.0,39.0,Sim,Parto Normal,...,Termo,Não,Sim,Sim,Primípara,3540.0,2540.0,3390.0,Não,Não
1671,1671,2013-11-12,2013-11-24,12,1,0.0,36.0,38.0,Sim,Parto Normal,...,Prematuro,Não,Sim,Sim,Nulípara,2880.0,1880.0,2730.0,Não,Não
968,968,2014-10-19,2014-10-21,2,2,1.0,39.0,39.0,Sim,Parto Cesáreo,...,Termo,Sim,,,Primípara,3300.0,2300.0,3150.0,Não,Sim
1667,1667,2013-11-06,2013-11-18,12,3,2.0,32.0,34.0,Sim,Parto Cesáreo,...,Prematuro,Sim,Não,Não,Multípara,2390.0,973.0,2240.0,Não,Sim
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,495,2014-03-19,2014-03-21,2,1,0.0,35.0,39.0,Sim,Parto Normal,...,Prematuro,Não,Sim,Sim,Nulípara,,,1555.0,Sim,Não
1023,1023,2013-10-07,2013-10-09,2,3,1.0,38.0,38.0,Não,Parto Normal,...,Termo-precoce,Não,Sim,Sim,Primípara,2975.0,1975.0,2825.0,Não,Não
883,883,2014-03-22,2014-03-24,2,2,1.0,38.0,38.0,Não,Parto Cesáreo,...,Termo-precoce,Não,Não,Não,Primípara,3410.0,2410.0,3260.0,Não,Sim
82,82,2013-12-14,2013-12-15,1,1,0.0,40.0,39.0,Não,Parto Normal,...,Termo,Não,Não,Não,Nulípara,3230.0,2230.0,3080.0,Não,Não


In [11]:
# Para conferir se o estrato manteve-se com as mesmas porcentagems de ALTO_RISCO
# Nos dados: 53.1% não tem alto risco e 46.9% tem alto risco
# Nos 20%:   53.2% não tem alto risco e 46.8% tem alto risco

df_y.ALTO_RISCO.value_counts(normalize=True)

Unnamed: 0_level_0,proportion
ALTO_RISCO,Unnamed: 1_level_1
Não,0.532164
Sim,0.467836
