## Helper methods

### Extract multiple-choice answer from response

In [232]:
import re

def extract_answer_letter(response):
    # Match "Resposta final: C)" or "Resposta final: C"
    match = re.search(r"resposta final\s*[:\-]?\s*([A-E])\s*\)?", response, re.IGNORECASE | re.DOTALL)
    if not match:
        # Try fallback patterns
        match = re.search(r"letra\s+([A-E])\b", response, re.IGNORECASE)
    return match.group(1).upper() if match else None

### Calculate overall accuracy of answers

In [233]:
def calculate_accuracy(results):
    """Returns overall accuracy and count of None predictions from a list of result dicts."""
    total_answered = sum(1 for r in results if r["predicted"] is not None)
    correct = sum(r["correct"] for r in results if r["predicted"] is not None)
    total = len(results)
    none_count = total - total_answered
    accuracy = (correct / total_answered) * 100 if total_answered > 0 else 0
    return correct, total_answered, accuracy, none_count

### Group results by subject

In [234]:
import pandas as pd

def results_by_subject(results):
    """Aggregates accuracy grouped by subject"""
    df = pd.DataFrame(results)
    if "subject" not in df.columns:
        print("⚠️ 'subject' not found in results.")
        return None
    
    summary = df.groupby("subject")["correct"].agg(["sum", "count"])
    summary["accuracy (%)"] = (summary["sum"] / summary["count"]) * 100
    return summary

### Save results to csv file

In [235]:
from datetime import datetime
import os

def save_results_csv(df, method_name):
    """
    Save a DataFrame as a CSV file in a 'results/<method_name>' subfolder with a timestamped filename.

    Parameters:
    - df: pandas DataFrame to save
    - method_name: e.g., 'cot', 'cov', 'self-refine'

    Returns:
    - The full filename used
    """
    # Define target folder and create it if needed
    folder = os.path.join("results", method_name)
    os.makedirs(folder, exist_ok=True)

    # Create timestamped filename
    timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
    filename = os.path.join(folder, f"{method_name}_results_{timestamp}.csv")

    # Save the file
    df.to_csv(filename, index=False)
    print(f"✅ Results saved to {filename}")
    return filename

## Chain-of-Thought (CoT) template

In [302]:
def build_cot_prompt(question_obj):
    # Few-shot examples from ENEM 2022 with explanation and formatting
    few_shot_examples = """Você verá abaixo alguns exemplos de como a pergunta deve ser respondida passo a passo. Leia atentamente os exemplos e, em seguida, responda a pergunta que vem depois deles.

### Exemplo 1:

Pergunta:
Nesse texto de opinião, as marcas linguísticas revelam uma situação distensa e de pouca formalidade. Isso ocorre em:

Opções:
A) A impessoalização ao longo do texto, com “eu” em: “se não há mais tempo”.
B) A construção de uma atmosfera de urgência, em palavras como: “pressa”.
C) A repetição de uma determinada estrutura, como em: “Se tudo é para ontem”.
D) O ênfase no emprego de hipérboles, como em: “uma reflexão que pode durar uma vida”.
E) O emprego de metáforas, como em: “a vida engata uma primeira e sai em disparada”.

Explicação:
O texto é escrito em uma linguagem leve, ágil, e de pouca formalidade. Além disso, possui figuras de linguagem, como metáforas e hipérboles, que não são excludentes. De uma análise sequencial das alternativas, dá para afirmar que o E. é o mais correto. Entretanto, observando em detalhes, nota-se que a expressão “emprego de metáforas” mostra ser mais adequada do que o “ênfase no emprego de hipérbole”, visto que, para afirmarmos que o uso de hipérboles foi enfatizado, a figura de linguagem deveria ser explorada mais vezes. Isso torna a alternativa E. mais provável de ser CORRETA. Além disso, impessoalização não deve ser apontada como marca de pouca formalidade. Existe também uma atmosfera de urgência, mas que é criticada no texto que destaca a importância da paciência e não da pressa. Por fim, a estrutura sintática não é repetida sistematicamente ao longo do texto.

Resposta final: E

---

### Exemplo 2:

Pergunta:
No trecho, a filósofa Hannah Arendt mostra a importância da linguagem no processo de:

Opções:
A) entendimento da cultura.
B) aumento da criatividade.
C) percepção da individualidade.
D) construção da técnica.
E) construção da sociabilidade.

Explicação:
Hannah Arendt defende em sua obra que somos seres políticos, no sentido próprio de vivermos em polis, em ambiente coletivo e social. É essa sociabilidade que é possível por meio do discurso, da linguagem. Desse modo, podemos concluir que a linguagem se apresenta como uma importante ferramenta para a construção da sociabilidade, e portanto a alternativa E. é a CORRETA. Além disso, não se trata do entendimento da cultura, mas de relação social entre as pessoas dessa cultura. Hannah também não fala sobre aumento de criatividade, tampouco sobre técnica. Por fim, a linguagem é utilizada em algo mais coletivo e social, justamente o oposto da individualidade.

Resposta final: E

---

### Exemplo 3:

Pergunta:
O projeto que a casa deverá selecionar será o

Opções:
A) I.
B) II.
C) III.
D) IV.
E) V.

Explicação:
Devemos calcular a área das quatro faces laterais e a área da base inferior (fundo da piscina) e somar essas áreas para obter a área de revestimento. Logo, calculando a área de revestimento de cada projeto temos: Projeto I: 2 × 1,8 × 2 + 2 × 2,5 × 1 + (2 × 1,8 × 2,5) = 6 + 5 + 9 = 20; Projeto II: 2 × 1,5 × 2 + 2 × 2 × 1,5 + (2 × 1,5 × 2) = 6 + 6 + 6 = 18. Projeto III: 2 × 2 × 1,5 + 2 × 1,5 × 2,5 + (2 × 2 × 2,5) = 6 + 7,5 + 10 = 23,5. Projeto IV: 2 × 1 × 2 + 2 × 2,5 × 1,5 + (2 × 1 × 2,5) = 4 + 7,5 + 5 = 16,5. Projeto V: 3 × 1,2 × 2 + 2 × 2,5 × 1,5 + (2 × 1,5 × 1,2) = 7,2 + 7,5 + 3,6 = 18,3. O projeto com menor área de revestimento é o Projeto II, portanto a resposta correta é a letra B.

Resposta final: B

---

Agora responda à próxima pergunta seguindo o mesmo formato passo a passo.
"""

    # Current question
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{letter}) {text}" for letter, text in zip(option_letters, options)])

    prompt = f"""{few_shot_examples}

Pergunta:
{question}

Opções:
{formatted_options}

Explique sua resposta e depois diga a letra da alternativa correta no formato "Resposta final: X"
"""

    return prompt


## Chain-of-Verification (CoVe) template

### Plan verifications

In [303]:
def plan_verification_questions(question, baseline_answer):
    plan_prompt = f"""Dada a seguinte pergunta e resposta, gere 2 a 4 perguntas para verificar os fatos principais da resposta.

Pergunta: {question}

Resposta: {baseline_answer}

Liste as perguntas de verificação:"""
    return call_openai_api(plan_prompt)


### Execute verifications

In [304]:
def execute_verifications(verification_questions):
    verifications = []
    for q in verification_questions:
        answer = call_openai_api(q)
        verifications.append((q, answer))
    return verifications

### Generate final verified answer

In [305]:
def generate_final_verified_answer(question, original_answer, verifications, options=None):
    vtext = "\n".join([f"Q: {q}\nA: {a}" for q, a in verifications])

    option_letters = ["A", "B", "C", "D", "E"]
    options_text = ""
    if options:
        options_text = "\n".join([f"{letter}) {text}" for letter, text in zip(option_letters, options)])

    revise_prompt = f"""
Revise a resposta abaixo com base nas verificações.

Pergunta:
{question}

Alternativas:
{options_text}

Resposta original:
{original_answer}

Verificações:
{vtext}

Resposta final verificada:
[Inclua uma explicação revisada, seguida de uma linha como: "Resposta final: X", onde X é a letra da alternativa correta.]
"""
    return call_openai_api(revise_prompt)


## Self-Refine template

### Give feedback for a previous answer

In [306]:
def build_feedback_prompt(question_obj, model_output):
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{l}) {t}" for l, t in zip(option_letters, options)])

    prompt = (
        "Analise a seguinte resposta gerada para uma pergunta do ENEM. "
        "Identifique erros, falhas na argumentação ou escolha incorreta da alternativa. "
        "Aponte aspectos que podem ser melhorados.\n\n"
        f"Pergunta:\n{question}\n\n"
        f"Alternativas:\n{formatted_options}\n\n"
        f"Resposta do modelo:\n{model_output}\n\n"
        "Feedback:"
    )
    return prompt


### Refine response based on feedback

In [307]:
def build_refine_prompt(question_obj, model_output, feedback):
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{l}) {t}" for l, t in zip(option_letters, options)])

    prompt = (
        "A seguir está uma pergunta do ENEM, acompanhada de alternativas, "
        "uma resposta inicial e um feedback crítico. Escreva uma nova resposta levando em conta "
        "o feedback, explicando novamente o raciocínio e indicando a letra da alternativa correta "
        "no formato \"Resposta final: X\".\n\n"
        f"Pergunta:\n{question}\n\n"
        f"Alternativas:\n{formatted_options}\n\n"
        f"Resposta anterior:\n{model_output}\n\n"
        f"Feedback:\n{feedback}\n\n"
        "Nova resposta:"
    )
    return prompt


### Feedback iteration wrapper

In [308]:
def self_refine_enem(question_obj, max_iters=3):
    # Generate the initial chain-of-thought response
    prompt = build_cot_prompt(question_obj)
    response = call_openai_api(prompt)
    
    # Extract the final answer from the initial response
    prev_final = extract_answer_letter(response)
    
    history = [(response, None)]

    for _ in range(max_iters):
        # Generate feedback based on the current response
        fb_prompt = build_feedback_prompt(question_obj, response)
        feedback = call_openai_api(fb_prompt)

        # Build the refine prompt using the current response and feedback
        refine_prompt = build_refine_prompt(question_obj, response, feedback)
        new_response = call_openai_api(refine_prompt)
        
        # Extract the final answer from the new response
        new_final = extract_answer_letter(new_response)
        
        # If the final answer is unchanged, exit the loop
        if new_final is not None and new_final == prev_final:
            break
        
        # Update the response and the final answer for the next iteration
        response = new_response
        prev_final = new_final
        history.append((response, feedback))
    
    return response, history

## Load 2024 ENEM questions

In [309]:
import json

# Load the JSONL file line by line
data = []
with open('enem_2024.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        data.append(json.loads(line))

# Assign subject based on the index (0-indexed)
for i, entry in enumerate(data):
    if i < 45:
        subject = "Linguagens, Códigos e suas Tecnologias"
    elif i < 90:
        subject = "Ciências Humanas e suas Tecnologias"
    elif i < 135:
        subject = "Ciências da Natureza e suas Tecnologias"
    else:
        subject = "Matemática e suas Tecnologias"
    entry["subject"] = subject

# Show the first question
data[0]

{'id': 'questao_01',
 'exam': '2024',
 'IU': False,
 'ledor': False,
 'question': '## Holy War\nOh, so we can hate each other and fear each other\nWe can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in\n[…]\nOh, maybe we should love somebody\nOh, maybe we could care a little more\nSo maybe we should love somebody\nInstead of polishing the bombs of holy war\nNessa letra de canção, de Alicia Keys, que aborda um contexto de ódio e intolerância, o marcador “instead of ” introduz a ideia de',
 'alternatives': ['mudança de comportamento.',
  'panorama de conflitos.',
  'rotina de isolamento.',
  'perspectiva bélica.',
  'cenário religioso.'],
 'label': 'A',
 'figures': [],
 'description': [],
 'subject': 'Linguagens, Códigos e suas Tecnologias'}

## Connect to OpenAI API

In [310]:
from openai import OpenAI

# Read key from file
with open("openai-key.txt", "r") as f:
    api_key = f.read().strip()

client = OpenAI(api_key=api_key)

### API call

In [311]:
def call_openai_api(prompt, model="gpt-3.5-turbo", temperature=0.7):
    response = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "user", "content": prompt}
        ],
        temperature=temperature
    )
    return response.choices[0].message.content

## Test Prompting Techniques

### Test CoT

#### Test CoT with a single question

In [312]:
q = data[0]
prompt = build_cot_prompt(q)
response = call_openai_api(prompt)
predicted = extract_answer_letter(response)

print("Prompt:\n", prompt)
print("\nModel Response:\n", response)
print(f"\nPredicted: {predicted} | Ground Truth: {q['label']}")


Prompt:
 Responda à seguinte pergunta com raciocínio passo a passo, explicando sua escolha antes de dar a resposta final.

Pergunta:
## Holy War
Oh, so we can hate each other and fear each other
We can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in
[…]
Oh, maybe we should love somebody
Oh, maybe we could care a little more
So maybe we should love somebody
Instead of polishing the bombs of holy war
Nessa letra de canção, de Alicia Keys, que aborda um contexto de ódio e intolerância, o marcador “instead of ” introduz a ideia de

Opções:
A) mudança de comportamento.
B) panorama de conflitos.
C) rotina de isolamento.
D) perspectiva bélica.
E) cenário religioso.

Explique sua resposta e depois diga a letra da alternativa correta no formato "Resposta final: X"


Model Response:
 Para responder a essa pergunta, é importante analisar o contexto da letra da música "Holy War" de Alicia Keys. A letra fala sobre a divisão e o 

#### CoT evaluation loop over sample questions

In [313]:
cot_results = []

for i, question in enumerate(data):
    prompt = build_cot_prompt(question)
    correct_answer = question["label"]
    
    try:
        response = call_openai_api(prompt)
        predicted = extract_answer_letter(response)
    except Exception as e:
        response = str(e)
        predicted = None
    
    cot_results.append({
        "id": question["id"],
        "subject": question["subject"],
        "question": question["question"],
        "ground_truth": correct_answer,
        "predicted": predicted,
        "correct": predicted == correct_answer,
        "response": response
    })

    print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")


[1/180] ✅ Predicted: A | Correct: A
[2/180] ✅ Predicted: E | Correct: A
[3/180] ✅ Predicted: C | Correct: C
[4/180] ✅ Predicted: E | Correct: E
[5/180] ✅ Predicted: A | Correct: A
[6/180] ✅ Predicted: C | Correct: C
[7/180] ✅ Predicted: A | Correct: B
[8/180] ✅ Predicted: E | Correct: E
[9/180] ✅ Predicted: D | Correct: D
[10/180] ✅ Predicted: A | Correct: A
[11/180] ✅ Predicted: D | Correct: D
[12/180] ✅ Predicted: E | Correct: E
[13/180] ✅ Predicted: E | Correct: E
[14/180] ✅ Predicted: E | Correct: B
[15/180] ✅ Predicted: D | Correct: D
[16/180] ✅ Predicted: D | Correct: D
[17/180] ✅ Predicted: B | Correct: B
[18/180] ✅ Predicted: D | Correct: D
[19/180] ✅ Predicted: B | Correct: B
[20/180] ✅ Predicted: E | Correct: B
[21/180] ✅ Predicted: D | Correct: C
[22/180] ✅ Predicted: A | Correct: E
[23/180] ✅ Predicted: E | Correct: E
[24/180] ✅ Predicted: B | Correct: C
[25/180] ✅ Predicted: B | Correct: B
[26/180] ✅ Predicted: A | Correct: D
[27/180] ✅ Predicted: C | Correct: C
[28/180] ✅

#### CoT Results

In [314]:
df_cot = pd.DataFrame(cot_results)
save_results_csv(df_cot, method_name="cot")
df_cot

✅ Results saved to results/cot/cot_results_2025-03-27_11-24-17.csv


Unnamed: 0,id,subject,question,ground_truth,predicted,correct,response
0,questao_01,"Linguagens, Códigos e suas Tecnologias","## Holy War\nOh, so we can hate each other and fear each other\nWe can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in\n[…]\nOh, maybe we should love somebody\nOh, maybe we could care a little more\nSo maybe we should love somebody\nInstead of polishing the bombs of holy war\nNessa letra de canção, de Alicia Keys, que aborda um contexto de ódio e intolerância, o marcador “instead of ” introduz a ideia de",A,A,True,"Para responder a essa pergunta, é importante analisar o contexto da letra da música. Alicia Keys está falando sobre a possibilidade de amar e se importar mais com as pessoas em vez de propagar o ódio e a intolerância que levam a guerras. O trecho específico em questão destaca a ideia de escolher amar alguém em vez de alimentar a guerra.\n\nConsiderando isso, a expressão ""instead of"" é utilizada para contrastar duas ações ou ideias, sugerindo uma mudança de comportamento ou escolha entre duas opções. Portanto, a resposta correta é:\n\nResposta final: A) mudança de comportamento."
1,questao_02,"Linguagens, Códigos e suas Tecnologias",[[placeholder]]\nO texto estabelece uma relação entre elementos da natureza e comandos de um programa de computador para,A,E,False,"Para responder a essa pergunta, precisamos analisar a relação estabelecida no texto entre elementos da natureza e comandos de um programa de computador. O texto menciona que ""Quando você planta uma árvore em um programa de computador, você não precisa esperar anos para vê-la crescer. Basta digitar um comando e, em segundos, a árvore estará lá, alta e frondosa."" Essa relação mostra que no programa de computador, o crescimento das árvores é acelerado, diferente do processo natural que leva anos.\n\nCom base nisso, podemos concluir que a intenção do texto não é alertar sobre a destruição da natureza, nem conscientizar sobre o tempo passando rápido, nem apresentar avanços tecnológicos na agricultura, nem orientar sobre o emprego sustentável das novas tecnologias. A relação estabelecida visa, na verdade, informar os interessados sobre o tempo de crescimento das árvores de forma acelerada no programa de computador.\n\nPortanto, a alternativa correta é:\n\nResposta final: E) informar os interessados sobre o tempo de crescimento de novas árvores."
2,questao_03,"Linguagens, Códigos e suas Tecnologias",[[placeholder]]\nA relação entre as citações atribuídas ao físico Albert Einstein e ao cantor e compositor Bob Marley reside na crença de que é necessário,C,C,True,"Para responder a essa pergunta, precisamos analisar as citações atribuídas a Albert Einstein e Bob Marley, e entender o que elas têm em comum. \n\nAlbert Einstein disse: ""A mente que se abre a uma nova ideia jamais voltará ao seu tamanho original"". Essa citação sugere a importância de estar aberto a novas perspectivas e ideias. Por outro lado, Bob Marley disse: ""Você nunca sabe como forte você é até ser forte é sua única escolha"". Essa frase destaca a importância de superar desafios e dificuldades para descobrir sua verdadeira força e capacidade. \n\nAmbas as citações enfatizam a importância de enfrentar adversidades, superar obstáculos e estar aberto a novas oportunidades. Portanto, a relação entre elas reside na crença de que é necessário tirar proveito de situações que podem ser adversas. \n\nResposta final: C) tirar proveito de situações que podem ser adversas."
3,questao_04,"Linguagens, Códigos e suas Tecnologias",[[placeholder]]A carta da editora Stephanie Allen-Nichols à escritoraAlice Walker tem o propósito de,E,E,True,"Primeiramente, é importante analisar o contexto da situação. A carta da editora Stephanie Allen-Nichols à escritora Alice Walker provavelmente tem o propósito de comunicar algo relacionado à obra da autora. \n\nDessa forma, podemos descartar as opções B) acusar o recebimento de seu manuscrito e C) solicitar a revisão ortográfica de seu texto, pois não fazem sentido em um contexto de comunicação entre editora e autora.\n\nTambém podemos descartar a opção A) problematizar o enredo de sua obra, pois não é comum uma editora questionar o enredo de uma obra já aceita para publicação.\n\nRestam as opções D) informar a transferência de seu livro a outra editora e E) comunicar a recusa da publicação de seu romance. \n\nConsiderando que a carta é direcionada à autora, é mais provável que a editora esteja comunicando a recusa da publicação de seu romance, uma vez que a transferência para outra editora seria algo que não requereria necessariamente a participação da autora.\n\nPortanto, a resposta final é:\n\nResposta final: E) comunicar a recusa da publicação de seu romance."
4,questao_05,"Linguagens, Códigos e suas Tecnologias","## Borderlands/La frontera: the Nem Mestiza\nGlória Anzaldúa\nI remember being caught speaking Spanish at recess [...] I remember being sent to the corner of the classroom for “talking back” to the Anglo teacher when all I was trying to do was tell her how to pronounce my name. “If you want to be American, speak ‘American’. If you don’t like it, go back to Mexico where you belong”.\n“I want you to speak English […]”, my mother would say, mortified that I spoke English like a Mexican. At Pan American University, I and all Chicano students were required to take two speech classes. Their purpose: to get rid of our accents.\nO problema abordado nesse texto sobre imigrantes residentes nos Estados Unidos diz respeito aos prejuízos gerados pelo(a)",A,A,True,"O texto aborda o preconceito e a discriminação sofridos pela autora e outros imigrantes de língua espanhola nos Estados Unidos, que são incentivados a abandonar sua língua materna e adotar o inglês como única forma de serem aceitos como ""americanos"". O trecho em que a autora é repreendida por falar espanhol na escola e é instruída a falar inglês para ser considerada ""americana"" mostra claramente o repúdio ao sotaque espanhol no uso do inglês. Portanto, a opção correta é:\n\nResposta final: A) repúdio ao sotaque espanhol no uso do inglês."
...,...,...,...,...,...,...,...
175,questao_176,Matemática e suas Tecnologias,"Atualmente, há telefones celulares com telas de diversos tamanhos e em formatos retangulares. Alguns deles apresentam telas medindo três inteiros e um meio polegadas, com determinadas especificações técnicas. Além disso, em muitos modelos, com a inclusão de novas funções no celular, suas telas ficaram maiores, sendo muito comum encontrarmos atualmente telas medindo quatro inteiros e cinco sextos polegadas, conforme a figura.\n[[placeholder]]\n\n. A diferença de tamanho, em valor absoluto, entre as medidas, em polegada, das telas do celular 2 e do celular 1, representada apenas com uma casa decimal, é",D,D,True,"Para encontrar a diferença de tamanho entre as telas dos dois celulares, precisamos calcular a diferença entre 4 5/6 e 3 1/2 polegadas.\n\nPrimeiro, vamos converter as frações mistas em frações impróprias:\n4 5/6 = (4*6 + 5)/6 = 24/6 + 5/6 = 29/6\n3 1/2 = (3*2 + 1)/2 = 6/2 + 1/2 = 7/2\n\nAgora, subtraímos as duas frações:\n29/6 - 7/2 = 29/6 - 21/6 = 8/6 = 4/3 = 1,3\n\nPortanto, a diferença de tamanho entre as telas dos dois celulares é 1,3 polegadas.\n\nResposta final: D) 1,3."
176,questao_177,Matemática e suas Tecnologias,"Uma imobiliária iniciou uma campanha de divulgação para promover a venda de apartamentos que podem ser pagos em 100 parcelas mensais. O valor da primeira delas é fixado no momento da compra, com o pagamento dessa primeira parcela. A partir da segunda parcela, o valor é determinado pela aplicação de um acréscimo percentual fixo ao valor da parcela anterior. Como atrativo, a imobiliária fará o pagamento de todas as parcelas correspondentes ao mês de aniversário do comprador.\nUm cliente, que faz aniversário no mês de maio, decidiu comprar um desses apartamentos por meio do financiamento oferecido pela imobiliária, e pretende escolher o mês mais adequado para realizar essa compra, de modo que o valor total dos pagamentos seja o menor possível.\nQual é o mês que esse cliente deverá escolher para realizar a compra do apartamento?",A,C,False,"Para encontrar o mês mais adequado para realizar a compra do apartamento, precisamos levar em consideração que a imobiliária pagará todas as parcelas correspondentes ao mês de aniversário do comprador. Como o cliente faz aniversário em maio, ele deverá escolher o mês que resultará no menor valor total a ser pago, levando em conta esse benefício.\n\nSe ele escolher o mês de maio para realizar a compra, a imobiliária pagará todas as parcelas desse mês, ou seja, ele não precisará efetuar nenhum pagamento em maio. Dessa forma, o valor total a ser pago será menor do que se ele escolher qualquer outro mês.\n\nResposta final: C) Maio."
177,questao_178,Matemática e suas Tecnologias,"Um professor de desenho, apresentou uma peça de 45 centímetros de comprimento e solicitou aos alunos reproduzir no papel o objeto, onde as medidas devem ser proporcionais às medidas reais, e o comprimento deste desenho tem que ser de 9 centímetros.\nA escala utilizada para realizar esse desenho é",D,D,True,"Para encontrar a escala utilizada para realizar o desenho, precisamos calcular a proporção entre o comprimento real e o comprimento do desenho.\n\nComprimento real: 45 cm\nComprimento do desenho: 9 cm\n\nPara encontrar a escala, vamos dividir o comprimento real pelo comprimento do desenho:\n\nEscala = Comprimento real / Comprimento do desenho\nEscala = 45 cm / 9 cm\nEscala = 5\n\nIsso significa que a escala utilizada para realizar o desenho é de 1 para 5.\n\nResposta final: D) 1 para 5."
178,questao_179,Matemática e suas Tecnologias,"A prefeitura de uma cidade planeja construir três postos de saúde. Esses postos devem ser construídos em locais equidistantes entre si e de forma que as distâncias desses três postos ao hospital dessa cidade sejam iguais. Foram conseguidos três locais para a construção dos postos de saúde que apresentam as características desejadas, e que distam 10 quilômetros entre si, conforme o esquema, no qual o ponto H representa o local onde está construído o hospital; os pontos P índice 1, P índice 2 e P índice 3, os postos de saúde; e esses quatro pontos estão em um mesmo plano.\n[[placeholder]]\nA distância, em quilômetro, entre o hospital e cada um dos postos de saúde, é um valor entre",C,C,True,"Para resolver essa questão, vamos usar a propriedade de que os postos de saúde devem ser construídos em locais equidistantes entre si e de forma que as distâncias desses três postos ao hospital sejam iguais.\n\nSabemos que os postos de saúde estão a uma distância de 10 quilômetros entre si. Como eles devem estar equidistantes e a distância do hospital até cada posto é a mesma, podemos imaginar um triângulo equilátero formado pelos três postos de saúde. \n\nNesse triângulo equilátero, a distância do hospital até cada vértice do triângulo é igual, representando a distância entre o hospital e cada posto de saúde. \n\nSabemos que a distância entre os postos de saúde é de 10 quilômetros, então a distância do hospital até cada posto é igual a metade dessa distância, ou seja, 5 quilômetros.\n\nPortanto, a distância entre o hospital e cada um dos postos de saúde é um valor entre 5 e 6 quilômetros.\n\nResposta final: C) 5 e 6."


##### Save results

In [315]:
from datetime import datetime

# Current date and time string
timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")

# Filename with timestamp
filename = f"cot_results_{timestamp}.csv"

# Save DataFrame
df_cot.to_csv(filename, index=False)
print(f"Results saved to {filename}")

Results saved to cot_results_2025-03-27_11-24-17.csv


In [316]:
correct, total, acc, none_count = calculate_accuracy(cot_results)
print(f"CoT Accuracy: {correct}/{total} ({acc:.1f}%)")
print(f"❓ Unanswered (None): {none_count}")

CoT Accuracy: 126/175 (72.0%)
❓ Unanswered (None): 5


In [317]:
results_by_subject(df_cot)

Unnamed: 0_level_0,sum,count,accuracy (%)
subject,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ciências Humanas e suas Tecnologias,42,45,93.333333
Ciências da Natureza e suas Tecnologias,25,45,55.555556
"Linguagens, Códigos e suas Tecnologias",34,45,75.555556
Matemática e suas Tecnologias,25,45,55.555556


### Test CoVe

#### Test CoVe with a single question

In [318]:
# Step 1: Pick a question
q = data[0]
question_text = q["question"]
prompt = build_cot_prompt(q)

# Step 2: Baseline CoT answer
baseline_answer = call_openai_api(prompt)

print("🔹 Baseline CoT Answer:\n", baseline_answer)

# Step 3: Plan verification questions
verification_qs_raw = plan_verification_questions(question_text, baseline_answer)

# Split the response into individual questions if the model gives a list
verification_questions = [line.strip("- ").strip() for line in verification_qs_raw.split("\n") if line.strip()]

print("\n🔹 Verification Questions:")
for qv in verification_questions:
    print("-", qv)

# Step 4: Execute verification
verifications = execute_verifications(verification_questions)

print("\n🔹 Verification Answers:")
for qv, av in verifications:
    print(f"Q: {qv}\nA: {av}\n")

# Step 5: Generate final verified answer
final_answer = generate_final_verified_answer(question_text, baseline_answer, verifications)

print("🔹 Final Verified Answer:\n", final_answer)

# Step 6: Extract predicted letter and compare to ground truth
predicted = extract_answer_letter(final_answer)
ground_truth = q["label"]

print(f"\n✅ Predicted Answer: {predicted}")
print(f"🎯 Ground Truth: {ground_truth}")

if predicted == ground_truth:
    print("🎉 CORRECT!")
else:
    print("❌ WRONG.")


🔹 Baseline CoT Answer:
 A expressão "instead of" é utilizada para indicar uma substituição de uma ação por outra. No trecho da música, a ideia apresentada é de substituir a atitude de polir as bombas da guerra santa por amar alguém. Ou seja, a sugestão é abandonar a violência e o ódio em troca de amor e compaixão. Portanto, a ideia introduzida pelo marcador "instead of" é de mudança de comportamento.

Resposta final: A) mudança de comportamento.

🔹 Verification Questions:
- 1. Qual é a expressão utilizada pela cantora Alicia Keys para indicar a substituição de uma ação por outra?
- 2. Qual é a atitude sugerida no trecho da música em que é utilizada a expressão "instead of"?
- 3. Como a ideia de substituir a atitude de polir as bombas da guerra santa por amar alguém é interpretada na letra da música?
- 4. Qual é o objetivo da sugestão apresentada pela cantora Alicia Keys na música abordada?

🔹 Verification Answers:
Q: 1. Qual é a expressão utilizada pela cantora Alicia Keys para indicar

#### CoVe evaluation loop over sample questions

In [None]:
cove_results = []

for i, question in enumerate(data):
    try:
        question_text = question["question"]
        correct_answer = question["label"]

        # Build CoT-style prompt
        prompt = build_cot_prompt(question)

        # Baseline CoT response
        baseline_answer = call_openai_api(prompt)

        # Extract initial answer letter from baseline
        initial_answer_letter = extract_answer_letter(baseline_answer)

        # Plan verifications
        verification_qs_raw = plan_verification_questions(question_text, baseline_answer)
        verification_questions = [line.strip("- ").strip() for line in verification_qs_raw.split("\n") if line.strip()]

        # Execute verifications
        verifications = execute_verifications(verification_questions)

        # Final revised answer
        final_answer = generate_final_verified_answer(
            question_text, baseline_answer, verifications, question["alternatives"]
        )

        # Extract answer letter (A–E)
        predicted = extract_answer_letter(final_answer)

        # Record result
        cove_results.append({
            "id": question["id"],
            "question": question_text,
            "ground_truth": correct_answer,
            "predicted": predicted,
            "correct": predicted == correct_answer,
            "baseline_answer": baseline_answer,
            "initial_answer": initial_answer_letter,
            "final_answer": final_answer,
            "verification_qs": verification_questions,
            "verification_a": verifications,
            "subject": question.get("subject", "unknown")
        })

        print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")

    except Exception as e:
        print(f"[{i+1}/{len(data)}] ❌ Error: {e}")
        cove_results.append({
            "index": i,
            "question": question_text,
            "true_answer": correct_answer,
            "predicted": None,
            "correct": False,
            "error": str(e)
        })


[1/180] ✅ Predicted: A | Correct: A
[2/180] ✅ Predicted: A | Correct: A
[3/180] ✅ Predicted: C | Correct: C
[4/180] ✅ Predicted: E | Correct: E
[5/180] ✅ Predicted: C | Correct: A
[6/180] ✅ Predicted: E | Correct: C
[7/180] ✅ Predicted: B | Correct: B
[8/180] ✅ Predicted: E | Correct: E
[9/180] ✅ Predicted: C | Correct: D
[10/180] ✅ Predicted: A | Correct: A
[11/180] ✅ Predicted: D | Correct: D
[12/180] ✅ Predicted: A | Correct: E
[13/180] ✅ Predicted: E | Correct: E
[14/180] ✅ Predicted: B | Correct: B
[15/180] ✅ Predicted: D | Correct: D
[16/180] ✅ Predicted: D | Correct: D
[17/180] ✅ Predicted: B | Correct: B
[18/180] ✅ Predicted: D | Correct: D
[19/180] ✅ Predicted: B | Correct: B
[20/180] ✅ Predicted: B | Correct: B
[21/180] ✅ Predicted: D | Correct: C
[22/180] ✅ Predicted: A | Correct: E
[23/180] ✅ Predicted: E | Correct: E
[24/180] ✅ Predicted: B | Correct: C
[25/180] ✅ Predicted: C | Correct: B
[26/180] ✅ Predicted: C | Correct: D
[27/180] ✅ Predicted: C | Correct: C
[28/180] ✅

#### CoVe results

In [None]:
df_cove = pd.DataFrame(cove_results)
save_results_csv(df_cove, method_name="cove")
df_cove

### Test Self-Refine

#### Test Self-Refine with a single question 

In [None]:
q = data[0]
final_response, trace = self_refine_enem(q)
predicted = extract_answer_letter(final_response)

print("Prompt inicial (iteração 0):\n", build_cot_prompt(q))
print("\nResposta final após refinamento:\n", final_response)
print(f"\nAlternativa prevista: {predicted} | Gabarito: {q['label']}")

print("\nHistórico de iterações:")
for i, (resp, fb) in enumerate(trace):
    print(f"\n--- Iteração {i} ---")
    print("Resposta:", resp)
    if fb:
        print("Feedback:", fb)


#### Self-Refine evaluation loop over sample questions

In [None]:
for i, question in enumerate(data):
    try:
        question_text = question["question"]
        correct_answer = question["label"]

        # 1. Run SELF-REFINE
        final_answer, trace = self_refine_enem(question, max_iters=3)
        predicted = extract_answer_letter(final_answer)

        # 2. Extract intermediate answers from trace
        answer_sequence = []
        baseline_answer = None
        
        for step, (response, feedback) in enumerate(trace):  # FIXED HERE
            try:
                letter = extract_answer_letter(response)
            except Exception:
                letter = None
            answer_sequence.append(letter)
            if step == 0:
                baseline_answer = response

        # 3. Record result
        self_refine_results.append({
            "id": question["id"],
            "question": question_text,
            "ground_truth": correct_answer,
            "predicted": predicted,
            "correct": predicted == correct_answer,
            "baseline_answer": baseline_answer,
            "final_answer": final_answer,
            "answer_sequence": answer_sequence, 
            "trace": trace,
            "subject": question.get("subject", "unknown")
        })

        print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")

    except Exception as e:
        print(f"[{i+1}/{len(data)}] ❌ Error: {e}")
        self_refine_results.append({
            "index": i,
            "question": question.get("question", ""),
            "true_answer": question.get("label", ""),
            "predicted": None,
            "correct": False,
            "error": str(e),
            "subject": question.get("subject", "unknown")
        })


#### Self-Refine Results

In [None]:
df_self_refine = pd.DataFrame(self_refine_results)
save_results_csv(df_self_refine, method_name="self-refine")
df_self_refine

## Analyse Results 

### Overall accuracy 

In [None]:
def compute_summary(df, method_name):
    total = len(df)
    correct = df['correct'].sum()
    accuracy = correct / total
    return {
        'Method': method_name,
        'Total Questions': total,
        'Correct': correct,
        'Accuracy (%)': round(accuracy * 100, 2)
    }    

In [None]:
overall = pd.DataFrame([
    compute_summary(df_cot, "CoT"),
    compute_summary(df_cove, "CoVe"),
    compute_summary(df_self_refine, "SELF-REFINE")
])

print(overall)

### Subject-wise accuracy

In [None]:
def subject_accuracy(df, method_name):
    grouped = df.groupby("subject")["correct"].agg(["count", "sum"])
    grouped["Accuracy (%)"] = round(grouped["sum"] / grouped["count"] * 100, 2)
    grouped["Method"] = method_name
    return grouped.reset_index()[["subject", "Method", "Accuracy (%)"]]

In [None]:
subject_cot = subject_accuracy(df_cot, "CoT")
subject_cove = subject_accuracy(df_cove, "CoVe")
subject_self = subject_accuracy(df_self_refine, "SELF-REFINE")

subject_summary = pd.concat([subject_cot, subject_cove, subject_self], ignore_index=True)

print(subject_summary)

#### Visualize results

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Rename subjects for clarity in the plot
subject_summary["subject"] = subject_summary["subject"].replace({
    "Linguagens, Códigos e suas Tecnologias": "Linguagens",
    "Ciências da Natureza e suas Tecnologias": "Ciencias da Natureza",
    "Ciências Humanas e suas Tecnologias": "Ciencias Humanas",
    "Matemática e suas Tecnologias": "Matematica"
})

# Plot
plt.figure(figsize=(10, 6))
sns.barplot(
    data=subject_summary,
    x="subject",
    y="Accuracy (%)",
    hue="Method",
    palette="Set2"
)

plt.title("Subject-wise Accuracy by Method")
plt.ylabel("Accuracy (%)")
plt.xlabel("Subject")
plt.ylim(0, 100)
plt.xticks(rotation=15)
plt.legend(title="Method")
plt.tight_layout()
plt.show()


### Regressions: Model changed a correct answer to a wrong one


#### CoVe

In [None]:
if "initial_answer" not in df_cove.columns:
    df_cove["initial_answer"] = df_cove["baseline_answer"].apply(extract_answer_letter)

regressions = df_cove[
    (df_cove["initial_answer"] == df_cove["ground_truth"]) &
    (df_cove["predicted"] != df_cove["ground_truth"])
]

In [None]:
for _, row in regressions.iterrows():
    print(f"ID: {row['id']}, Initial: {row['initial_answer']} ✅, Final: {row['predicted']} ❌")
    print(f"Q: {row['question']}")
    print(f"Baseline Answer:\n{row['baseline_answer']}")
    print("-" * 25)
    print(f"Final Answer:\n{row['final_answer']}")
    print("-" * 50)


In [None]:
total = len(df_cove)
n_regressions = len(regressions)
print(f"Regressions: {n_regressions} out of {total} ({n_regressions/total:.2%})")

#### Self-Refine

In [None]:
df_self_refine["initial_answer"] = df_self_refine["answer_sequence"].apply(lambda seq: seq[0] if seq and len(seq) > 0 else None)


### Improvements: Model fixed its answer

#### CoVe

In [None]:
improvements = df_cove[
    (df_cove["initial_answer"] != df_cove["ground_truth"]) &
    (df_cove["predicted"] == df_cove["ground_truth"])
]

In [None]:
for _, row in improvements.iterrows():
    print(f"ID: {row['id']}, Initial: {row['initial_answer']} ❌, Final: {row['predicted']} ✅")
    print(f"Q: {row['question']}")
    print(f"Baseline:\n{row['baseline_answer']}")
    print(f"Final:\n{row['final_answer']}")
    print("-" * 50)