# Exploratory Data Analysis: Synthetic Epidemiological Dataset 2019

Este notebook analisa um conjunto de dados **sintético** construído para representar múltiplos indicadores epidemiológicos, socioeconômicos, ambientais e de infraestrutura de saúde das 27 unidades federativas do Brasil em 2019.

A base inclui variáveis como:

- **Casos** de SRAG (sintéticos).
- **IDHM** médio (real).
- **Leitos hospitalares** (real, agregados a partir do CNES).
- **Temperatura média** (sintética por região).
- **Cobertura vacinal**, **mobilidade**, **cobertura florestal**, **eventos de queimadas**, **qualidade do ar**, **renda média**, **anos de educação**, **índice de Gini** (variáveis sintéticas).

O objetivo é demonstrar o potencial de análise cruzada entre diferentes dimensões que podem influenciar a ocorrência de doenças respiratórias graves.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Carregar o conjunto de dados sintético
df = pd.read_csv('/home/oai/share/synthetic_state_2019.csv')

# Visualizar as primeiras linhas
df.head()


## Descrição das variáveis

- **UF**: Unidade Federativa (estado).
- **total_beds**: Total de leitos existentes em 2019.
- **sus_beds**: Total de leitos destinados ao SUS.
- **total_uti** / **sus_uti**: Total de leitos de UTI existentes/SUS.
- **idhm_mean**: Índice de Desenvolvimento Humano Municipal médio (2010).
- **mean_temperature**: Temperatura média anual (sintética, °C).
- **population**: População aproximada (baseada em 100 habitantes por leito existente).
- **cases**: Número de casos de SRAG (sintéticos).
- **vac_influenza**, **vac_pneumo**: Cobertura vacinal contra influenza e pneumococo (%).
- **mobility_change**: Variação percentual da mobilidade.
- **forest_cover_pct**: Percentual de cobertura florestal.
- **burning_events**: Número de focos de queimadas.
- **air_quality_index**: Índice de qualidade do ar (quanto maior, pior).
- **average_income**: Renda média mensal per capita (R$).
- **education_years**: Anos médios de escolaridade.
- **gini_index**: Índice de Gini (desigualdade).
- **beds_per_100k**: Leitos por 100 mil habitantes.


In [None]:
# Estatísticas descritivas das variáveis numéricas
summary = df.describe().T
summary['median'] = df.median()
summary[['mean','median','std','min','max']]


In [None]:
# Top 10 estados por número de casos
top_cases = df.sort_values(by='cases', ascending=False).head(10)
plt.figure()
plt.bar(top_cases['UF'], top_cases['cases'])
plt.title('Top 10 estados por número de casos (sintéticos)')
plt.xlabel('Estado')
plt.ylabel('Casos de SRAG')
plt.xticks(rotation=45)
plt.show()


In [None]:
# Relação entre casos e IDHM
plt.figure()
plt.scatter(df['idhm_mean'], df['cases'])
plt.title('Casos vs IDHM')
plt.xlabel('IDHM médio')
plt.ylabel('Casos de SRAG')
plt.show()

# Relação entre casos e renda média
plt.figure()
plt.scatter(df['average_income'], df['cases'])
plt.title('Casos vs Renda média')
plt.xlabel('Renda média (R$)')
plt.ylabel('Casos de SRAG')
plt.show()


In [None]:
# Matriz de correlação
import numpy as np
import matplotlib.pyplot as plt

# Selecionar variáveis numéricas relevantes
numerical_cols = ['cases','idhm_mean','mean_temperature','vac_influenza','vac_pneumo','mobility_change','forest_cover_pct','burning_events','air_quality_index','average_income','education_years','gini_index']

corr = df[numerical_cols].corr()

plt.figure(figsize=(10,8))
plt.imshow(corr, interpolation='nearest')
plt.title('Heatmap de Correlação')
plt.colorbar()
plt.xticks(range(len(numerical_cols)), numerical_cols, rotation=90)
plt.yticks(range(len(numerical_cols)), numerical_cols)
plt.tight_layout()
plt.show()


## Conclusões

Neste conjunto de dados sintético, observa-se que:

- Estados com menor IDHM tendem a apresentar maior número de casos de SRAG, refletindo possivelmente condições socioeconômicas desfavoráveis e menor acesso à saúde.
- Há uma correlação moderada entre casos e renda média: estados com renda mais baixa tendem a ter mais casos.
- Variáveis ambientais e de infraestrutura (como temperatura, cobertura florestal, queimadas e leitos de UTI) mostram potenciais relações com a ocorrência de casos, sugerindo a importância de incorporar múltiplas dimensões nos modelos causais.

Essas visualizações são ilustrativas e visam demonstrar a capacidade do projeto de integrar e analisar diversas fontes de dados para apoiar a investigação de causas raízes de eventos de saúde pública.
