# An√°lise Explorat√≥ria de Dados - Missing Data - Censo Escolar 2024

## Liga√ß√£o com BD SQLite + carga de Dataframe desde o dataset

In [3]:
import pandas as pd
import sqlite3

# =================================================================
# FASE 1: CONFIGURA√á√ÉO DOS CAMINHOS
# =================================================================

# Caminho para o arquivo RAW original
RAW_CSV_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/1_raw/microdados_ed_basica_2024.csv"

# Caminho para o banco de dados SQLite
DB_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/0_sqlite/censo_escolar"

# Nomes das tabelas no SQLite
TABLE_TRUSTED = 'microdados_ed_basica_trusted'
TABLE_DICIONARIO = 'dicionario'


# =================================================================
# FASE 2: CARGA DOS DADOS E EXTRA√á√ÉO DAS CHAVES
# =================================================================

# --- Carregar dados do SQLite (Trusted e Dicion√°rio) ---
conn = sqlite3.connect(DB_PATH)
df_trusted = pd.read_sql_query(f"SELECT * FROM {TABLE_TRUSTED}", conn)
df_dicionario = pd.read_sql_query(f"SELECT * FROM {TABLE_DICIONARIO}", conn)
conn.close()

# --- Carregar apenas o cabe√ßalho do arquivo RAW para pegar as colunas ---
# nrows=0 √© um truque para ler apenas o cabe√ßalho, sem carregar dados, o que √© muito r√°pido.
df_raw = pd.read_csv(RAW_CSV_PATH, sep=';', nrows=0, low_memory=False, encoding='latin1')

# --- Extrair as listas de colunas/vari√°veis como conjuntos (sets) para f√°cil compara√ß√£o ---
colunas_raw = set(df_raw.columns)
colunas_trusted = set(df_trusted.columns)
variaveis_dicionario = set(df_dicionario['VARIAVEL'])

print(f"Total de colunas na RAW: {len(colunas_raw)}")
print(f"Total de colunas na TRUSTED: {len(colunas_trusted)}")
print(f"Total de vari√°veis no DICION√ÅRIO: {len(df_dicionario['VARIAVEL'])}")
print(f"Total de vari√°veis √öNICAS no DICION√ÅRIO: {len(variaveis_dicionario)}")
print("-" * 50)


# =================================================================
# FASE 3: DIAGN√ìSTICO E COMPARA√á√ÉO
# =================================================================

# --- 1. An√°lise de Duplicatas no Dicion√°rio ---
if len(df_dicionario['VARIAVEL']) != len(variaveis_dicionario):
    print("\nüö® ATEN√á√ÉO: Foram encontradas vari√°veis duplicadas no Dicion√°rio!")
    duplicatas = df_dicionario[df_dicionario['VARIAVEL'].duplicated(keep=False)].sort_values('VARIAVEL')
    print("Vari√°veis duplicadas:")
    display(duplicatas)
else:
    print("\n‚úÖ SUCESSO: Nenhuma vari√°vel duplicada encontrada no Dicion√°rio.")

print("-" * 50)

# --- 2. Compara√ß√£o: Dicion√°rio vs. Trusted ---
# Quais vari√°veis est√£o no dicion√°rio mas n√£o na tabela trusted?
# Estas s√£o as colunas "perdidas" durante o ETL.
colunas_perdidas = sorted(list(variaveis_dicionario - colunas_trusted))

if colunas_perdidas:
    print(f"\nüö® ATEN√á√ÉO: {len(colunas_perdidas)} colunas est√£o no Dicion√°rio mas FALTAM na camada Trusted:")
    print(colunas_perdidas)
else:
    print("\n‚úÖ SUCESSO: Todas as vari√°veis do Dicion√°rio est√£o presentes na camada Trusted.")

print("-" * 50)

# --- 3. Compara√ß√£o Extra: Trusted vs. Dicion√°rio ---
# Existem colunas na trusted que n√£o t√™m defini√ß√£o no dicion√°rio?
colunas_sem_definicao = sorted(list(colunas_trusted - variaveis_dicionario))

if colunas_sem_definicao:
    print(f"\nüö® ATEN√á√ÉO: {len(colunas_sem_definicao)} colunas est√£o na Trusted mas FALTAM no Dicion√°rio:")
    print(colunas_sem_definicao)
else:
    print("\n‚úÖ SUCESSO: Todas as colunas da camada Trusted possuem uma defini√ß√£o no Dicion√°rio.")

Total de colunas na RAW: 426
Total de colunas na TRUSTED: 426
Total de vari√°veis no DICION√ÅRIO: 476
Total de vari√°veis √öNICAS no DICION√ÅRIO: 476
--------------------------------------------------

‚úÖ SUCESSO: Nenhuma vari√°vel duplicada encontrada no Dicion√°rio.
--------------------------------------------------

üö® ATEN√á√ÉO: 50 colunas est√£o no Dicion√°rio mas FALTAM na camada Trusted:
['IN_AGUA_FILTRADA', 'IN_BANHEIRO_DENTRO_PREDIO', 'IN_BANHEIRO_FORA_PREDIO', 'IN_BAS', 'IN_BERCARIO', 'IN_BRASIL_ALFABETIZADO', 'IN_CONVENIADA_PP', 'IN_DEPENDENCIAS_PNE', 'IN_ENERGIA_GERADOR', 'IN_ENERGIA_OUTROS', 'IN_EQUIP_FAX', 'IN_EQUIP_FOTO', 'IN_EQUIP_RETROPROJETOR', 'IN_EQUIP_VIDEOCASSETE', 'IN_FINAL_SEMANA', 'IN_FORMACAO_ALTERNANCIA', 'IN_FUNDAMENTAL_CICLOS', 'IN_GRUPOS_NAO_SERIADOS', 'IN_LAVANDERIA', 'IN_LIXO_JOGA_OUTRA_AREA', 'IN_LIXO_OUTROS', 'IN_LIXO_RECICLA', 'IN_LOCAL_FUNC_CASA_PROFESSOR', 'IN_LOCAL_FUNC_SALAS_EMPRESA', 'IN_LOCAL_FUNC_TEMPLO_IGREJA', 'IN_MATERIAL_ESP_INDIGENA', '

#### Conclus√£o de bloco:
- Liga√ß√£o com SQLite, ok!
- N√∫mero de colunas de RAW e TRUSTED checadas, ok!
- As colunas de trusted constam no dicion√°rio, ok!
- As 50 vari√°veis mencionadas como n√£o localizadas s√£o aquelas que foram coletadas apenas at√© o Censo Escolar de 2023 

## Explora√ß√£o de Missing Data

In [None]:
import pandas as pd
import numpy as np

# =================================================================
# FASE 0: PR√â-REQUISITO
# =================================================================
# Este script assume que os DataFrames 'df_trusted' e 'df_dicionario'
# j√° foram carregados na mem√≥ria a partir do seu banco de dados SQLite.
# Se precisar carreg√°-los novamente, use o script anterior.

# Verifica√ß√£o para garantir que os DFs existem
if 'df_trusted' not in locals() or 'df_dicionario' not in locals():
    print("ERRO: Os DataFrames 'df_trusted' e 'df_dicionario' n√£o foram encontrados.")
    print("Por favor, execute o script de conex√£o com o SQLite primeiro.")
else:
    print("DataFrames encontrados. Iniciando a an√°lise agregada...")


    # =================================================================
    # FASE 1: UNPIVOT (MELT) DA TABELA TRUSTED
    # =================================================================
    # Transformamos a tabela de formato 'largo' para 'longo'.
    # Cada linha agora representar√° uma √∫nica c√©lula da tabela original.
    print("Reorganizando a tabela de dados (melt)...")
    df_long = df_trusted.melt(var_name='VARIAVEL', value_name='VALOR')


    # =================================================================
    # FASE 2: JOIN COM O DICION√ÅRIO
    # =================================================================
    # Juntamos a tabela longa com as informa√ß√µes de categoria do dicion√°rio.
    print("Juntando dados com as categorias do dicion√°rio...")
    df_dict_subset = df_dicionario[['VARIAVEL', 'GRUPO_CAT', 'SUB_GRUPO_CAT']].drop_duplicates()
    df_merged = pd.merge(df_long, df_dict_subset, on='VARIAVEL', how='left')
    
    # Preenche categorias para vari√°veis que n√£o foram encontradas no dicion√°rio
    df_merged['GRUPO_CAT'] = df_merged['GRUPO_CAT'].fillna('Sem Grupo')
    df_merged['SUB_GRUPO_CAT'] = df_merged['SUB_GRUPO_CAT'].fillna('Sem Subgrupo')


    # =================================================================
    # FASE 3: AGRUPAMENTO E C√ÅLCULO DAS M√âTRICAS
    # =================================================================
    print("Agrupando e calculando as m√©tricas de qualidade...")
    
    # Agrupamos por categoria e agregamos os resultados
    # 'size' conta o total de c√©lulas no grupo (incluindo nulos)
    # As lambdas contam os nulos e os placeholders (-100)
    df_grouped = df_merged.groupby(['GRUPO_CAT', 'SUB_GRUPO_CAT']).agg(
        total_celulas=('VALOR', 'size'),
        contagem_nulos=('VALOR', lambda x: x.isnull().sum()),
        contagem_placeholder=('VALOR', lambda x: (x == -100).sum())
    )

    # C√°lculo das porcentagens
    total_missing = df_grouped['contagem_nulos'] + df_grouped['contagem_placeholder']
    df_grouped['%_de_Missing_Data'] = (total_missing / df_grouped['total_celulas']) * 100
    df_grouped['%_Preenchido'] = 100 - df_grouped['%_de_Missing_Data']
    
    # Adicionando o total de registros (n√∫mero de linhas da tabela original)
    df_grouped['Total_de_Registros'] = len(df_trusted)


    # =================================================================
    # FASE 4: FORMATA√á√ÉO E APRESENTA√á√ÉO FINAL
    # =================================================================
    print("Formatando o relat√≥rio final...")

    # Selecionando e renomeando as colunas para o resultado final
    df_resultado = df_grouped[[
        'Total_de_Registros',
        '%_de_Missing_Data',
        '%_Preenchido'
    ]].copy()

    # Ordenando pelo % de Missing Data, do maior para o menor
    df_resultado = df_resultado.sort_values(by='%_de_Missing_Data', ascending=False)
    
    # Formatando as porcentagens para melhor visualiza√ß√£o
    df_resultado['%_de_Missing_Data'] = df_resultado['%_de_Missing_Data'].map('{:.2f}%'.format)
    df_resultado['%_Preenchido'] = df_resultado['%_Preenchido'].map('{:.2f}%'.format)
    
    # Trazendo os grupos de volta como colunas
    df_resultado = df_resultado.reset_index()

    print("\n--- Relat√≥rio de Qualidade de Dados por Categoria ---")
    display(df_resultado)

DataFrames encontrados. Iniciando a an√°lise agregada...
Reorganizando a tabela de dados (melt)...
Juntando dados com as categorias do dicion√°rio...
Agrupando e calculando as m√©tricas de qualidade...
