# Análise Exploratória de Dados - IDEB

Este notebook apresenta uma análise exploratória sobre o IDEB das escolas municipais de São Paulo, com o objetivo de investigar padrões, identificar desigualdades educacionais e possíveis correlações com indicadores socioeconômicos como o IDHM.

In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import kstest, norm
import numpy as np

# Dataset de exemplo (você deve substituir pelo seu arquivo real em /dados/)
data = {
    'Ano': [2005, 2009, 2013, 2017, 2021, 2023]*3,
    'Subprefeitura': ['Centro']*6 + ['Zona Sul']*6 + ['Zona Norte']*6,
    'IDEB': [4.1, 4.4, 4.8, 5.2, 5.5, 5.6,
             3.9, 4.1, 4.3, 4.7, 5.0, 5.1,
             3.8, 3.9, 4.0, 4.2, 4.3, 4.5],
    'IDHM_Educacao': [0.7, 0.72, 0.74, 0.76, 0.78, 0.79,
                      0.65, 0.67, 0.68, 0.7, 0.72, 0.73,
                      0.6, 0.62, 0.63, 0.64, 0.65, 0.66],
    'IDHM_Renda': [0.68, 0.7, 0.71, 0.73, 0.74, 0.75,
                   0.63, 0.64, 0.65, 0.66, 0.68, 0.69,
                   0.58, 0.59, 0.6, 0.61, 0.62, 0.63]
}

df = pd.DataFrame(data)
df.head()


In [None]:
df.describe()

In [None]:

plt.figure(figsize=(8,5))
sns.histplot(df['IDEB'], bins=8, kde=True)
plt.title('Distribuição do IDEB')
plt.xlabel('IDEB')
plt.ylabel('Frequência')
plt.show()


In [None]:

plt.figure(figsize=(8,5))
sns.boxplot(x='Subprefeitura', y='IDEB', data=df)
plt.title('Boxplot do IDEB por Subprefeitura')
plt.xlabel('Subprefeitura')
plt.ylabel('IDEB')
plt.show()


In [None]:

plt.figure(figsize=(8,5))
sns.scatterplot(x='IDHM_Educacao', y='IDEB', hue='Subprefeitura', data=df, s=100)
plt.title('IDEB vs IDHM Educação')
plt.xlabel('IDHM Educação')
plt.ylabel('IDEB')
plt.show()


In [None]:

ideb_norm = (df['IDEB'] - df['IDEB'].mean()) / df['IDEB'].std()
ks_stat, ks_pvalue = kstest(ideb_norm, 'norm')
print(f'Estatística KS: {ks_stat:.4f}, p-valor: {ks_pvalue:.4f}')
if ks_pvalue > 0.05:
    print('Os dados seguem uma distribuição normal (não rejeita H0)')
else:
    print('Os dados NÃO seguem uma distribuição normal (rejeita H0)')


## Conclusões

- A distribuição do IDEB mostra uma tendência de melhora ao longo dos anos.
- Existem desigualdades entre subprefeituras, visíveis nos boxplots.
- Há correlação positiva entre o IDHM Educação e o IDEB.
- O teste de Kolmogorov-Smirnov indicou que os dados seguem uma distribuição aproximadamente normal.

Esta análise exploratória ajuda a visualizar desigualdades educacionais e pode subsidiar políticas públicas mais direcionadas.