# Análise Estrutural dos Dados de IDEB e IDHM

Este script tem como objetivo realizar uma inspeção inicial detalhada das principais bases de dados utilizadas no projeto, a saber:
- **IDEB dos anos iniciais do Ensino Fundamental**, que mede a qualidade da educação nos primeiros anos escolares;
- **IDEB dos anos finais do Ensino Fundamental**, que avalia o desempenho nas etapas finais da educação básica;
- **IDHM por subprefeitura da cidade de São Paulo**, que traz informações sobre o desenvolvimento humano em diferentes regiões da cidade.

A análise visa compreender a estrutura geral dos dados antes de quaisquer tratamentos ou modelagens mais aprofundadas.

As análises realizadas incluem:
- **Dimensão das bases**: quantidade de linhas (registros) e colunas (variáveis);
- **Tipagem das variáveis**: identificação dos tipos de dados (numérico, texto, datas etc.);
- **Verificação de valores ausentes**: contagem total de células com dados faltantes;
- **Detecção de registros duplicados**: número de linhas repetidas que podem comprometer a qualidade das análises futuras.

Essas verificações são fundamentais para:
- Assegurar a **integridade e consistência dos dados**;
- Planejar ações corretivas, como a imputação de valores ausentes ou remoção de duplicatas;
- Facilitar as próximas etapas, como análises estatísticas, visualizações gráficas e desenvolvimento de modelos preditivos.

Este script foi desenvolvido em Python 3.13 e está adaptado para execução em **Jupyter Notebook**, tornando-o mais interativo e fácil de interpretar durante o desenvolvimento do projeto.

In [None]:
import pandas as pd  # Importa a biblioteca Pandas para manipulação e análise de dados

In [None]:
# Definição dos caminhos dos arquivos a serem carregados
caminho_ideb_iniciais = "ideb_anos_iniciais.xlsx"
caminho_ideb_finais = "ideb_anos_finais.xlsx"
caminho_idhm = "idhm_subpref_anos.xlsx"

In [None]:
# Leitura dos arquivos Excel e criação dos DataFrames correspondentes
ideb_iniciais = pd.read_excel(caminho_ideb_iniciais)
ideb_finais = pd.read_excel(caminho_ideb_finais)
idhm = pd.read_excel(caminho_idhm)

In [None]:
# Função para realizar uma análise exploratória básica de qualquer DataFrame
def analisar_dataset(nome, df):
    print(f"\n===== Análise do dataset: {nome} =====")
    print(f"- Total de registros (linhas): {df.shape[0]}")
    print(f"- Total de variáveis (colunas): {df.shape[1]}")
    print(f"\nTipos de dados por coluna:\n{df.dtypes}")
    print(f"\nTotal de valores ausentes: {df.isnull().sum().sum()}")
    print(f"Total de registros duplicados: {df.duplicated().sum()}")

In [None]:
# Executa a análise básica para cada uma das três bases carregadas
analisar_dataset("IDEB - Anos Iniciais", ideb_iniciais)
analisar_dataset("IDEB - Anos Finais", ideb_finais)
analisar_dataset("IDHM - Subprefeituras SP", idhm)