## 1) Importações e Definição de Diretórios

In [1]:

from pathlib import Path
import pandas as pd
import numpy as np
from pathlib import Path
from IPython.display import display
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import zip_longest
MICRODATA_FILES = {
    2021: Path("microdados/enem_2021/DADOS/MICRODADOS_ENEM_2021.csv"),
    2022: Path("microdados/enem_2022/DADOS/MICRODADOS_ENEM_2022.csv"),
    2023: Path("microdados/enem_2023/DADOS/MICRODADOS_ENEM_2023.csv"),
}
NA_VALUES = ["", " ", "NA", "N/A", "NULL", "-"]

## 2) Carregar microdados e concatenar

In [2]:
frames = []
for ano, p in MICRODATA_FILES.items():
    if not p.exists():
        print('Arquivo não encontrado:', p)
        continue
    else:
        df = pd.read_csv(p, sep=';', decimal='.', encoding='iso-8859-1', dtype='string', na_values=NA_VALUES, low_memory=False)
    df['ANO_REFERENCIA'] = ano
    frames.append(df)
if not frames:
    raise RuntimeError('Nenhum arquivo carregado. Ajuste MICRODATA_FILES e rode novamente.')
dados = pd.concat(frames, ignore_index=True, sort=False)
print('Dados carregados:', dados.shape)

Dados carregados: (10799892, 77)


## 3) Identificar colunas com Missing values (percentual)

In [None]:

missing_pct = dados.isna().mean() * 100
display(missing_pct[missing_pct>0].sort_values(ascending=False).to_frame('missing_pct').head(50))

## 4) Tratamento para Missing Values
Uma quantidade considerável de missing values está relacionado ao não comparecimento nas provas. Para eliminar essas colunas, será considerado apenas os registros onde o aluno possui presença em todas as provas.

Além disso, todas as colunas que representam dados da escola do participante também possuem uma porcentagem alta de missing values, por conta disso, essas colunas serão desconsideradas.

Também iremos desconsiderar grande parte das perguntas do questionário socioeconômico, manteremos apenas perguntas que julgamos ser dados que podem ser usados para encontrar padrões no dataset.

Por fim, também iremos desconsiderar as colunas NU_INSCRICAO, TP_ANO_CONCLUIU, TP_ENSINO, CO_MUNICIPIO_PROVA, NO_MUNICIPIO_PROVA e também todas as colunas de Código do Tipo de Prova, que indicam qual cor de prova o participante realizou.

In [3]:
required_presence = ['TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC', 'TP_PRESENCA_MT']
dados_limpos = dados.copy()
missing_presence = [c for c in required_presence if c not in dados_limpos.columns]
if missing_presence:
    print('Colunas de presença ausentes:', missing_presence)
else:
    presence_numeric = dados_limpos[required_presence].apply(pd.to_numeric, errors='coerce')
    mask = presence_numeric.eq(1).all(axis=1)
    dados_limpos = dados_limpos[mask].copy()
    print('Após filtrar presenças:', dados_limpos.shape)

Após filtrar presenças: (7261194, 77)


In [4]:
drop_columns = [
        'CO_MUNICIPIO_ESC',
        'TP_DEPENDENCIA_ADM_ESC',
        'NO_MUNICIPIO_ESC',
        'CO_UF_ESC',
        'SG_UF_ESC',
        'TP_SIT_FUNC_ESC',
        'TP_LOCALIZACAO_ESC',
    ]
cols_to_drop = [c for c in drop_columns if c in dados_limpos.columns]
if cols_to_drop:
    dados_limpos = dados_limpos.drop(columns=cols_to_drop)
    print('Colunas removidas:', cols_to_drop)
else:
    print('Colunas escolares já ausentes.')

Colunas removidas: ['CO_MUNICIPIO_ESC', 'TP_DEPENDENCIA_ADM_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC', 'TP_SIT_FUNC_ESC', 'TP_LOCALIZACAO_ESC']


In [5]:
keep_q_cols = {'Q001', 'Q002', 'Q006', 'Q022', 'Q024', 'Q025'}
q_cols_to_drop = [c for c in dados_limpos.columns if c.startswith('Q0') and c not in keep_q_cols]
if q_cols_to_drop:
    dados_limpos = dados_limpos.drop(columns=q_cols_to_drop)
    print('Colunas Q0 removidas:', len(q_cols_to_drop))
else:
    print('Nenhuma coluna Q0 para remover.')

Colunas Q0 removidas: 19


In [6]:
extra_drop = ['NU_INSCRICAO', 'TP_ANO_CONCLUIU', 'TP_ENSINO', 'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA']
extra_cols = [c for c in extra_drop if c in dados_limpos.columns]
if extra_cols:
    dados_limpos = dados_limpos.drop(columns=extra_cols)
    print('Colunas extras removidas:', extra_cols)
else:
    print('Colunas extras já ausentes.')
co_prova_cols = [c for c in dados_limpos.columns if c.startswith('CO_PROVA')]
if co_prova_cols:
    dados_limpos = dados_limpos.drop(columns=co_prova_cols)
    print('Colunas CO_PROVA removidas:', len(co_prova_cols))

Colunas extras removidas: ['NU_INSCRICAO', 'TP_ANO_CONCLUIU', 'TP_ENSINO', 'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA']
Colunas CO_PROVA removidas: 4


Com essas limpezas realizadas, ao refazer a busca de missing_values, apenas resta poucas respostas as perguntas do questionário socioeconômico mantidas que não foram respondidas.

In [None]:
missing_pct = dados_limpos.isna().mean() * 100
display(missing_pct[missing_pct>0].sort_values(ascending=False).to_frame('missing_pct').head(50))

Quantidade real de registros restantes com missing values em cada coluna:

In [None]:
dados_limpos.isna().sum()

Como sobrou apenas um registro com missing value, ele será desconsiderado

In [None]:
dados_limpos[dados_limpos['Q006'].isna()]

In [7]:
dados_limpos.dropna(subset=['Q006'], inplace=True)

In [None]:
dados_limpos.isna().sum()

## 5) Enriquecimento
Foi decidido que iremos excluir as colunas de gabarito e respostas, e criar uma nova coluna para marcar as questões acertadas e erradas. No caso, as colunas de gabarito e respostas estão em formato string no padrão: 'abdebcedf*.a' sendo asterisco a dupla marcação e o . como em branco. A ideia da nova coluna para substituir será de colocar uma string apenas de 0 e 1, indicando erro e acerto. Com isso, também será criado uma nova coluna, que indica a porcentagem de acertos em determinada área do conhecimento.

In [8]:
def respostas_para_boolean(resposta, gabarito):
    if not isinstance(resposta, str) or not isinstance(gabarito, str):
        return np.nan
    resp = resposta.upper()
    gab = gabarito.upper()
    bits = []
    for r, g in zip_longest(resp, gab, fillvalue=None):
        if r is None or g is None:
            continue
        if r in {'*', '.', ' '}:
            bits.append('0')
        elif r == g and g in {'A', 'B', 'C', 'D', 'E'}:
            bits.append('1')
        else:
            bits.append('0')
    return ''.join(bits) if bits else np.nan

def boolean_para_pct(bits):
    if not isinstance(bits, str) or not bits:
        return np.nan
    valid = [b for b in bits if b in {'0', '1'}]
    if not valid:
        return np.nan
    return (valid.count('1') / len(valid)) * 100

area_pairs = []
for gab_col in [c for c in dados_limpos.columns if c.startswith('TX_GABARITO_')]:
    area = gab_col.replace('TX_GABARITO_', '')
    resp_col = f'TX_RESPOSTAS_{area}'
    if resp_col in dados_limpos.columns:
        area_pairs.append((area, gab_col, resp_col))

if area_pairs:
    print('Áreas processadas:', [area for area, _, _ in area_pairs])
    for area, gab_col, resp_col in area_pairs:
        acertos_col = f'TX_ACERTOS_{area}'
        pct_col = f'PCT_ACERTO_{area}'
        dados_limpos[acertos_col] = [
            respostas_para_boolean(resp, gab)
            for resp, gab in zip(dados_limpos[resp_col], dados_limpos[gab_col])
        ]
        dados_limpos[pct_col] = dados_limpos[acertos_col].apply(boolean_para_pct)
    cols_to_drop = [col for _, gab_col, resp_col in area_pairs for col in (gab_col, resp_col)]
    dados_limpos.drop(columns=cols_to_drop, inplace=True)
    print('Colunas removidas:', cols_to_drop)
else:
    print('Nenhuma combinação de gabarito e respostas encontrada.')

Áreas processadas: ['CN', 'CH', 'LC', 'MT']
Colunas removidas: ['TX_GABARITO_CN', 'TX_RESPOSTAS_CN', 'TX_GABARITO_CH', 'TX_RESPOSTAS_CH', 'TX_GABARITO_LC', 'TX_RESPOSTAS_LC', 'TX_GABARITO_MT', 'TX_RESPOSTAS_MT']


Para facilitar a classificação de duas perguntas socioeconômicas, a Q022 e Q024, que são, respectivamente, de posse de celular e computador, iremos trocar os valores da resposta para apenas 0 e 1, 0 se não houver e 1 se houver 1 ou mais aparelhos.

In [9]:
for col in ['Q022', 'Q024', 'Q025']:
    if col in dados_limpos.columns:
        dados_limpos[col] = dados_limpos[col].str.upper().map({'A': 0, 'B': 1, 'C': 1, 'D': 1, 'E': 1})
        print(f'{col} convertida para binário.')

Q022 convertida para binário.
Q024 convertida para binário.
Q025 convertida para binário.


In [None]:
dados_limpos.head()

## 6) Padronização de Dados

In [10]:
dados_limpos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7261193 entries, 1 to 10799890
Data columns (total 42 columns):
 #   Column             Dtype  
---  ------             -----  
 0   NU_ANO             string 
 1   TP_FAIXA_ETARIA    string 
 2   TP_SEXO            string 
 3   TP_ESTADO_CIVIL    string 
 4   TP_COR_RACA        string 
 5   TP_NACIONALIDADE   string 
 6   TP_ST_CONCLUSAO    string 
 7   TP_ESCOLA          string 
 8   IN_TREINEIRO       string 
 9   CO_UF_PROVA        string 
 10  SG_UF_PROVA        string 
 11  TP_PRESENCA_CN     string 
 12  TP_PRESENCA_CH     string 
 13  TP_PRESENCA_LC     string 
 14  TP_PRESENCA_MT     string 
 15  NU_NOTA_CN         string 
 16  NU_NOTA_CH         string 
 17  NU_NOTA_LC         string 
 18  NU_NOTA_MT         string 
 19  TP_LINGUA          string 
 20  TP_STATUS_REDACAO  string 
 21  NU_NOTA_COMP1      string 
 22  NU_NOTA_COMP2      string 
 23  NU_NOTA_COMP3      string 
 24  NU_NOTA_COMP4      string 
 25  NU_NOTA_COMP5      str

In [13]:
acertos_cols = [c for c in dados_limpos.columns if c.startswith('TX_ACERTOS_')]
for col in acertos_cols:
    dados_limpos[col] = dados_limpos[col].astype('string').str.strip()

string_cols = dados_limpos.select_dtypes(include='string').columns.tolist()
if string_cols:
    dados_limpos[string_cols] = dados_limpos[string_cols].apply(lambda s: s.str.strip())

numeric_candidates = [
    c for c in dados_limpos.columns
    if c not in acertos_cols and dados_limpos[c].dtype == 'string'
]
numeric_converted = []
for col in numeric_candidates:
    coerced = pd.to_numeric(dados_limpos[col], errors='coerce')
    non_convertible = (~dados_limpos[col].isna()) & coerced.isna()
    if non_convertible.any() or coerced.dropna().empty:
        continue
    if (coerced.dropna() % 1 == 0).all():
        dados_limpos[col] = coerced.astype('Int64')
    else:
        dados_limpos[col] = coerced.astype('float64').round(2)
    numeric_converted.append(col)

float_cols = dados_limpos.select_dtypes(include='float').columns.tolist()
if float_cols:
    dados_limpos[float_cols] = dados_limpos[float_cols].round(2)

In [14]:
dados_limpos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7261193 entries, 1 to 10799890
Data columns (total 42 columns):
 #   Column             Dtype  
---  ------             -----  
 0   NU_ANO             Int64  
 1   TP_FAIXA_ETARIA    Int64  
 2   TP_SEXO            string 
 3   TP_ESTADO_CIVIL    Int64  
 4   TP_COR_RACA        Int64  
 5   TP_NACIONALIDADE   Int64  
 6   TP_ST_CONCLUSAO    Int64  
 7   TP_ESCOLA          Int64  
 8   IN_TREINEIRO       Int64  
 9   CO_UF_PROVA        Int64  
 10  SG_UF_PROVA        string 
 11  TP_PRESENCA_CN     Int64  
 12  TP_PRESENCA_CH     Int64  
 13  TP_PRESENCA_LC     Int64  
 14  TP_PRESENCA_MT     Int64  
 15  NU_NOTA_CN         float64
 16  NU_NOTA_CH         float64
 17  NU_NOTA_LC         float64
 18  NU_NOTA_MT         float64
 19  TP_LINGUA          Int64  
 20  TP_STATUS_REDACAO  Int64  
 21  NU_NOTA_COMP1      Int64  
 22  NU_NOTA_COMP2      Int64  
 23  NU_NOTA_COMP3      Int64  
 24  NU_NOTA_COMP4      Int64  
 25  NU_NOTA_COMP5      Int

## 7) Outliers

In [None]:
colunas_notas = [
    "NU_NOTA_CN", "NU_NOTA_CH", "NU_NOTA_LC", "NU_NOTA_MT",
    "NU_NOTA_COMP1", "NU_NOTA_COMP2", "NU_NOTA_COMP3",
    "NU_NOTA_COMP4", "NU_NOTA_COMP5", "NU_NOTA_REDACAO"
]

colunas_pct = ["PCT_ACERTO_CN", "PCT_ACERTO_CH", "PCT_ACERTO_LC", "PCT_ACERTO_MT"]

colunas_analise = colunas_notas + colunas_pct

df = dados_limpos.copy()

colunas_existentes = [c for c in colunas_analise if c in df.columns]

def detectar_outliers_iqr(df, coluna):
    Q1 = df[coluna].quantile(0.25)
    Q3 = df[coluna].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]
    return outliers, limite_inferior, limite_superior

resumo_outliers = []

for coluna in colunas_existentes:
    outliers, li, ls = detectar_outliers_iqr(df, coluna)
    resumo_outliers.append({
        "Coluna": coluna,
        "Qtd_Outliers": len(outliers),
        "Limite_Inferior": round(li, 2),
        "Limite_Superior": round(ls, 2)
    })
    
    plt.figure(figsize=(6, 4))
    sns.boxplot(data=df, y=coluna, color="skyblue")
    plt.title(f"Boxplot - {coluna}")
    plt.xlabel("")
    plt.ylabel("Valor")
    plt.grid(axis="y", linestyle="--", alpha=0.7)
    plt.show()

resumo_df = pd.DataFrame(resumo_outliers)
print("Resumo de Outliers por Coluna:")
display(resumo_df.sort_values(by="Qtd_Outliers", ascending=False))
