In [None]:
import pandas as pd
import numpy as np
import os

CONFIG = {
    "arquivo_entrada": "../data/raw/enade/microdados2023_arq1.txt", 
    "sep": ";",            
    "encoding": "latin-1", 
    
    # Sele√ß√£o de Colunas: Carregamos S√ì o necess√°rio para economizar RAM.
    # Adicione ou remova colunas aqui conforme sua an√°lise evoluir.
    "colunas_interesse": [
        "NU_ANO",           # Ano
        "CO_CURSO",         # C√≥digo do Curso
        "NO_CURSO",         # Nome do Curso (se houver) ou TP_GRUPO
        "CO_MUNICIPIO_CURSO", # Para cruzar com IDH
        "CO_UF_CURSO",      # Estado da faculdade
        "TP_SEXO",          # Demografia
        "NU_IDADE",         # Demografia
        "NT_GER",           # Nota Geral (Nossa vari√°vel ALVO)
        "TP_PRES",          # Presen√ßa (para filtrar faltantes)
        "QE_I08",           # Renda (Geralmente a pergunta 8)
        "QE_I16",           # UF Ensino M√©dio (Para an√°lise de migra√ß√£o)
        "CO_CATEGAD"        # Categoria (P√∫blica/Privada)
    ]
}

def carregar_dados_enade(config):
    """
    Carrega os dados do Enade de forma otimizada.
    """
    print(f"üîÑ Iniciando leitura do arquivo: {config['arquivo_entrada']}...")
    
    try:
       
        if not os.path.exists(config['arquivo_entrada']):
            raise FileNotFoundError(f"Arquivo n√£o encontrado: {config['arquivo_entrada']}")

        df = pd.read_csv(
            config['arquivo_entrada'],
            sep=config['sep'],
            encoding=config['encoding'],
            usecols=lambda c: c in config['colunas_interesse'], 
            decimal=',' 
        )
        
        print(f"‚úÖ Sucesso! Dados carregados.")
        print(f"üìä Dimens√µes: {df.shape[0]} linhas x {df.shape[1]} colunas")
        return df

    except Exception as e:
        print(f"‚ùå Erro fatal na leitura: {e}")
        return None

df = carregar_dados_enade(CONFIG)

if df is not None:
    display(df.head())

In [None]:
# --- CONFIGURA√á√ÉO DE LIMPEZA ---
FILTROS = {
    "codigo_presenca_presente": 555,   # 555 = Presente (Padr√£o INEP)
    "coluna_presenca": "TP_PRES",      # Ajuste se no seu CSV for TP_PR_GER
    "coluna_nota": "NT_GER"
}

def higienizar_dados(df, filtros):
    """
    Aplica regras de neg√≥cio para garantir que s√≥ analisaremos 
    alunos que realmente fizeram a prova.
    """
    print("üßπ Iniciando higieniza√ß√£o dos dados...")
    
    # 1. C√≥pia de seguran√ßa para n√£o afetar o dataframe original na mem√≥ria se der erro
    df_clean = df.copy()
    initial_rows = len(df_clean)
    
    # 2. Filtrar apenas presentes (Evita vi√©s de absente√≠smo)
    # Verifica se a coluna de presen√ßa existe antes de filtrar
    col_pres = filtros['coluna_presenca']
    if col_pres in df_clean.columns:
        df_clean = df_clean[df_clean[col_pres] == filtros['codigo_presenca_presente']]
        print(f"   - Removidos {initial_rows - len(df_clean)} alunos ausentes/desclassificados.")
    else:
        print(f"   ‚ö†Ô∏è Aviso: Coluna '{col_pres}' n√£o encontrada. Pulei filtro de presen√ßa.")

    # 3. Remover notas nulas
    # √Äs vezes o aluno foi, mas a nota n√£o foi computada (anulada, etc)
    rows_before_drop = len(df_clean)
    df_clean = df_clean.dropna(subset=[filtros['coluna_nota']])
    print(f"   - Removidos {rows_before_drop - len(df_clean)} alunos com nota nula (NaN).")
    
    # 4. Garantir tipo num√©rico (Defesa extra)
    df_clean[filtros['coluna_nota']] = pd.to_numeric(df_clean[filtros['coluna_nota']], errors='coerce')
    
    print(f"‚úÖ Dados Limpos! Restaram {len(df_clean)} registros ({len(df_clean)/initial_rows:.1%} do original).")
    
    return df_clean

# --- EXECU√á√ÉO ---
df_final = higienizar_dados(df, FILTROS)

# Sanity Check (Verifica√ß√£o de Sanidade)
# Vamos ver se a estat√≠stica descritiva faz sentido (M√≠nimo 0, M√°ximo 100)
print("\nüìä Estat√≠sticas da Nota Geral:")
display(df_final['NT_GER'].describe().round(2))