# Testes de Hipóteses com Dados de Saúde Pública

Neste notebook, realizamos testes de hipóteses utilizando o dataset `saude_despesas.csv`.

## Objetivos:
1. Verificar se há relação significativa entre *gasto total em saúde municipal per capita* e *percentual de receita própria municipal aplicada em saúde*.
2. Avaliar se municípios com maior *cobertura de atenção básica* possuem maior *gasto total em saúde per capita*.


In [None]:
# Importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind, pearsonr

sns.set()
plt.rcParams['figure.figsize'] = (15, 9)

## Carregar o Dataset

In [None]:
# Carregar o dataset
dataset_path = 'datasets/saude_despesas.csv'
saude = pd.read_csv(dataset_path)

# Exibir informações iniciais
print(saude.head())
print(saude.info())

## Teste 1: Relação entre *Gasto Total per Capita* e *Percentual de Receita Própria Municipal*

**Hipótese Nula (H₀):** Não há correlação significativa entre os gastos e o percentual de receita própria.

**Hipótese Alternativa (H₁):** Há correlação significativa entre os gastos e o percentual de receita própria.

In [None]:
# Filtrar as colunas relevantes
dados_teste1 = saude[['desp_tot_saude_pc_mun', 'pct_desp_recp_saude_mun']].dropna()

# Calcular a correlação de Pearson
corr, p_value = pearsonr(dados_teste1['desp_tot_saude_pc_mun'], dados_teste1['pct_desp_recp_saude_mun'])

# Exibir os resultados
print(f"Correlação de Pearson: {corr:.2f}")
print(f"Valor-p: {p_value:.5f}")

# Visualização
sns.scatterplot(x='desp_tot_saude_pc_mun', y='pct_desp_recp_saude_mun', data=dados_teste1, alpha=0.7)
plt.title('Relação entre Gasto Total per Capita e Percentual de Receita Própria')
plt.xlabel('Gasto Total per Capita (R$)')
plt.ylabel('Percentual de Receita Própria (%)')
plt.grid(True)
plt.show()

## Teste 2: Comparação entre Municípios com Maior e Menor Cobertura de Atenção Básica

**Hipótese Nula (H₀):** Municípios com maior cobertura de atenção básica não possuem gastos significativamente diferentes.

**Hipótese Alternativa (H₁):** Municípios com maior cobertura de atenção básica possuem gastos significativamente diferentes.

In [None]:
# Definir limiar para alta e baixa cobertura de atenção básica
limiar_cobertura = saude['cob_ab'].median()

# Dividir os dados em dois grupos
grupo_alto = saude[saude['cob_ab'] >= limiar_cobertura]['desp_tot_saude_pc_mun'].dropna()
grupo_baixo = saude[saude['cob_ab'] < limiar_cobertura]['desp_tot_saude_pc_mun'].dropna()

# Teste t independente
t_stat, p_value = ttest_ind(grupo_alto, grupo_baixo)

# Exibir resultados
print(f"Estatística t: {t_stat:.2f}")
print(f"Valor-p: {p_value:.5f}")

# Visualização
plt.figure(figsize=(10, 6))
sns.boxplot(data=[grupo_alto, grupo_baixo], palette='pastel')
plt.xticks([0, 1], ['Alta Cobertura', 'Baixa Cobertura'])
plt.title('Gasto Total per Capita por Cobertura de Atenção Básica')
plt.ylabel('Gasto Total per Capita (R$)')
plt.show()