# 1. Extração dos Enunciados das Provas do Enem LEDOR (2015-2023)

Este notebook apresenta o processo de extração textual das provas do ENEM adaptadas para acessibilidade, conhecidas como provas LEDOR. Essas versões são destinadas a participantes com deficiência visual e trazem descrições detalhadas de imagens e gráficos, além de uma estrutura mais textual e padronizada.

Optamos por utilizar as provas LEDOR ao invés da aplicação regular devido aos seguintes benefícios para a nossa tarefas de PLN e predição:

- Enunciados mais completos e com menos dependência de elementos visuais;
- Formato mais limpo, facilitando a tokenização, análise semântica e a modelagem textual;
- Melhor desempenho na extração automática com bibliotecas como PyMuPDF, em conjunto com regex e revisão manual.


In [3]:
# Importando as bibliotecas necessárias para extração de texto
import re
import pandas as pd
from PyPDF2 import PdfReader

## 1.1. Funções Auxiliares

In [4]:
# Função que recebe o caminho do pdf, a página de início e a de fim e retorna as questões
def extract_questions(full_text: str, caps_lock: bool = False) -> list[str]:
    delimiter = "QUESTÃO " if caps_lock else "Questão "
    sections = full_text.split(delimiter)
    questions = [s[3:] for s in sections if s[:2].isnumeric()]
    return questions

# Extração dos enunciados
def get_questions_text(pdf_path: str, start_page: int, end_page: int, caps_lock: bool = False) -> list[str]:
    reader = PdfReader(pdf_path)
    final_questions = []

    for page_num in range(start_page, end_page):
        full_text = reader.pages[page_num].extract_text() or ""
        final_questions.extend(extract_questions(full_text, caps_lock))

    return final_questions

In [21]:
# Função que retorna as questões sem as alternativas e as alternativas formatadas
def format_alternatives(alt: str) -> str:
    match = re.search(r"(A\s.+?)(B\s.+?)(C\s.+?)(D\s.+?)(E\s.+)", alt)
    if match:
        groups = match.groups()
        return "; ".join([f"{item[0]}: {item[2:-1]}" for item in groups])
    return ""


def get_alternatives(questions: list[str], filter: bool = False) -> tuple[list[str], list[str]]:
    formatted_questions = []
    formatted_alternatives = []

    for question in questions:
        parts = re.split(r"(\nA\s.*\n)", question)

        alternatives_text = "".join(parts[-2:]).replace("\n", "")
        alternatives_text = re.sub(r"\*.*\*", "", alternatives_text)
        alternatives_text = re.sub(r"(CH).*\d", "", alternatives_text)
        alternatives = format_alternatives(alternatives_text)

        question_text = "".join(parts[:-2]).replace("\n", "")

        formatted_questions.append(question_text)
        formatted_alternatives.append(alternatives)

    return formatted_questions, formatted_alternatives

In [18]:
# Função que realiza a leitura dos microdados
def reading_data(path_to_data: str, year: str) -> pd.DataFrame:

    df = pd.read_csv(path_to_data, sep=';', encoding='latin-1')
    
    df = df[(df['SG_AREA'] == 'CH') & (df['TX_COR'].str.lower() == 'azul')]
    df = df[df['CO_PROVA'] == df['CO_PROVA'].min()] # Precisa Alterar
    df = df[['CO_POSICAO', 'TX_GABARITO', 'NU_PARAM_A', 'NU_PARAM_B', 'NU_PARAM_C']].copy()
    
    df['ANO'] = year

    return df

# Função auxiliar para criar o dataset com as novas colunas

def merge_questions_alternatives(dataset: pd.DataFrame, questions: list[str], alts: list[str]) -> pd.DataFrame:
    dataset['QUESTOES'] = questions
    dataset['ALTERNATIVAS'] = alts

    return dataset

## 1.2. Extração do Texto e Cruzamento com Microdados

In [24]:
years = {
    2015: (1, 15, True),
    2016: (1, 15, True),
    2017: (19, 32, True),
    2018: (19, 32, True),
    2019: (19, 32, False),
    2020: (19, 32, False),
    2021: (23, 36, False),
    2022: (20, 32, True),
    2023: (19, 32, True),
}

In [25]:
for year, (start_page, end_page, question_caps) in years.items():
    path_to_microdados = f"../data/raw/microdados/microdados_{year}.csv"
    path_to_prova = f"../data/raw/provas/Enem_{year}.pdf"
    output_path = f"../data/processed/enem_{year}.csv"

    questions = get_questions_text(path_to_prova, start_page, end_page, question_caps)
    questions, alternatives = get_alternatives(questions)

    dataset = reading_data(path_to_microdados, year)

    if year in (2022, 2023):
        questions = [question for question in questions if question]
        alternatives = [alternative for alternative in alternatives if alternative]
        
    dataset = merge_questions_alternatives(dataset, questions, alternatives)

    dataset = dataset.rename(
        columns={
            "CO_POSICAO": "numero_questao",
            "QUESTOES": "enunciado",
            "ALTERNATIVAS": "alternativas",
            "NU_PARAM_B": "nu_param_B",
            "TX_GABARITO": "gabarito",
        }
    )

    dataset.to_csv(output_path, sep=";", index=False)
    print(f"Arquivo {output_path} criado com sucesso.")

Arquivo ../data/processed/enem_2015.csv criado com sucesso.
Arquivo ../data/processed/enem_2016.csv criado com sucesso.
Arquivo ../data/processed/enem_2017.csv criado com sucesso.
Arquivo ../data/processed/enem_2018.csv criado com sucesso.
Arquivo ../data/processed/enem_2019.csv criado com sucesso.
Arquivo ../data/processed/enem_2020.csv criado com sucesso.
Arquivo ../data/processed/enem_2021.csv criado com sucesso.
Arquivo ../data/processed/enem_2022.csv criado com sucesso.
Arquivo ../data/processed/enem_2023.csv criado com sucesso.


## 1.3. Unindo Todos os Dados em Único Arquivo

In [26]:
dataframes = {}
output_path = "../data/final/enem_data.csv"

for year in years:
    df_path = f"../data/processed/enem_{year}.csv"
    df = pd.read_csv(df_path, encoding="utf-8", quotechar='"', sep=';', index_col=0)
    dataframes[year] = df

In [27]:
df_final = pd.concat(dataframes.values(), axis=0)

df_final.to_csv(output_path)

In [28]:
df_final = pd.read_csv(output_path)
df_final.head()

Unnamed: 0,numero_questao,gabarito,NU_PARAM_A,nu_param_B,NU_PARAM_C,ANO,enunciado,alternativas
0,36,B,1.48784,1.74819,0.25985,2015,"As autoridades de Kiribati, arquipélago do Oce...","A: submersão de terras habitadas, decorrente d..."
1,29,E,1.96986,0.66199,0.05233,2015,Energia de Noronha virá da força das águasA en...,A: escolha por essa nova matriz prioriza o(a)A...
2,22,E,1.71998,1.3582,0.1909,2015,"No livro Por uma outra globalização , Milton S...",A: aumento do poder aquisitivo; B: estímulo à ...
3,7,E,4.05683,1.56767,0.21096,2015,Descrição da imagem: Cartum composto por três ...,A: participação política e formação profission...
4,20,C,3.12528,2.15381,0.15346,2015,Confidência do itabiranoDe Itabira trouxe pren...,A: pujança da natureza resistindo à ação human...
