# Análise Estrutural dos Dados de IDEB e IDHM

Este notebook realiza uma inspeção inicial das principais bases de dados utilizadas no projeto:
- **IDEB - Anos Iniciais**;
- **IDEB - Anos Finais**;
- **IDHM por Subprefeitura da Cidade de São Paulo**.

As análises iniciais incluem:
- Dimensão das bases (linhas e colunas);
- Tipos de variáveis;
- Contagem de valores ausentes;
- Verificação de registros duplicados.

Essas verificações são fundamentais para garantir a integridade dos dados antes das etapas seguintes de análise estatística, visualização e modelagem.

Desenvolvido em **Python 3.13**, com execução em **Jupyter Notebook**.

In [None]:
import pandas as pd

In [None]:
# Definindo os caminhos dos arquivos
caminho_ideb_iniciais = "ideb_anos_iniciais.xlsx"
caminho_ideb_finais = "ideb_anos_finais.xlsx"
caminho_idhm = "idhm_subpref_anos.xlsx"

In [None]:
# Leitura dos datasets
ideb_iniciais = pd.read_excel(caminho_ideb_iniciais)
ideb_finais = pd.read_excel(caminho_ideb_finais)
idhm = pd.read_excel(caminho_idhm)

In [None]:
# Função para análise básica
def analisar_dataset(nome, df):
    print(f"\nAnálise do dataset: {nome}")
    print(f"- Total de linhas: {df.shape[0]}")
    print(f"- Total de colunas: {df.shape[1]}")
    print(f"- Tipos de dados:\n{df.dtypes}")
    print(f"- Total de valores ausentes: {df.isnull().sum().sum()}")
    print(f"- Registros duplicados: {df.duplicated().sum()}")

In [None]:
# Executando a análise para cada dataset
analisar_dataset("IDEB - Anos Iniciais", ideb_iniciais)
analisar_dataset("IDEB - Anos Finais", ideb_finais)
analisar_dataset("IDHM", idhm)