## Helper methods

### Extract multiple-choice answer from response

In [232]:
import re

def extract_answer_letter(response):
    # Match "Resposta final: C)" or "Resposta final: C"
    match = re.search(r"resposta final\s*[:\-]?\s*([A-E])\s*\)?", response, re.IGNORECASE | re.DOTALL)
    if not match:
        # Try fallback patterns
        match = re.search(r"letra\s+([A-E])\b", response, re.IGNORECASE)
    return match.group(1).upper() if match else None

### Calculate overall accuracy of answers

In [233]:
def calculate_accuracy(results):
    """Returns overall accuracy and count of None predictions from a list of result dicts."""
    total_answered = sum(1 for r in results if r["predicted"] is not None)
    correct = sum(r["correct"] for r in results if r["predicted"] is not None)
    total = len(results)
    none_count = total - total_answered
    accuracy = (correct / total_answered) * 100 if total_answered > 0 else 0
    return correct, total_answered, accuracy, none_count

### Group results by subject

In [234]:
import pandas as pd

def results_by_subject(results):
    """Aggregates accuracy grouped by subject"""
    df = pd.DataFrame(results)
    if "subject" not in df.columns:
        print("‚ö†Ô∏è 'subject' not found in results.")
        return None
    
    summary = df.groupby("subject")["correct"].agg(["sum", "count"])
    summary["accuracy (%)"] = (summary["sum"] / summary["count"]) * 100
    return summary

### Save results to csv file

In [235]:
from datetime import datetime
import os

def save_results_csv(df, method_name):
    """
    Save a DataFrame as a CSV file in a 'results/<method_name>' subfolder with a timestamped filename.

    Parameters:
    - df: pandas DataFrame to save
    - method_name: e.g., 'cot', 'cov', 'self-refine'

    Returns:
    - The full filename used
    """
    # Define target folder and create it if needed
    folder = os.path.join("results", method_name)
    os.makedirs(folder, exist_ok=True)

    # Create timestamped filename
    timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
    filename = os.path.join(folder, f"{method_name}_results_{timestamp}.csv")

    # Save the file
    df.to_csv(filename, index=False)
    print(f"‚úÖ Results saved to {filename}")
    return filename

## Chain-of-Thought (CoT) template

In [302]:
def build_cot_prompt(question_obj):
    # Few-shot examples from ENEM 2022 with explanation and formatting
    few_shot_examples = """Voc√™ ver√° abaixo alguns exemplos de como a pergunta deve ser respondida passo a passo. Leia atentamente os exemplos e, em seguida, responda a pergunta que vem depois deles.

### Exemplo 1:

Pergunta:
Nesse texto de opini√£o, as marcas lingu√≠sticas revelam uma situa√ß√£o distensa e de pouca formalidade. Isso ocorre em:

Op√ß√µes:
A) A impessoaliza√ß√£o ao longo do texto, com ‚Äúeu‚Äù em: ‚Äúse n√£o h√° mais tempo‚Äù.
B) A constru√ß√£o de uma atmosfera de urg√™ncia, em palavras como: ‚Äúpressa‚Äù.
C) A repeti√ß√£o de uma determinada estrutura, como em: ‚ÄúSe tudo √© para ontem‚Äù.
D) O √™nfase no emprego de hip√©rboles, como em: ‚Äúuma reflex√£o que pode durar uma vida‚Äù.
E) O emprego de met√°foras, como em: ‚Äúa vida engata uma primeira e sai em disparada‚Äù.

Explica√ß√£o:
O texto √© escrito em uma linguagem leve, √°gil, e de pouca formalidade. Al√©m disso, possui figuras de linguagem, como met√°foras e hip√©rboles, que n√£o s√£o excludentes. De uma an√°lise sequencial das alternativas, d√° para afirmar que o E. √© o mais correto. Entretanto, observando em detalhes, nota-se que a express√£o ‚Äúemprego de met√°foras‚Äù mostra ser mais adequada do que o ‚Äú√™nfase no emprego de hip√©rbole‚Äù, visto que, para afirmarmos que o uso de hip√©rboles foi enfatizado, a figura de linguagem deveria ser explorada mais vezes. Isso torna a alternativa E. mais prov√°vel de ser CORRETA. Al√©m disso, impessoaliza√ß√£o n√£o deve ser apontada como marca de pouca formalidade. Existe tamb√©m uma atmosfera de urg√™ncia, mas que √© criticada no texto que destaca a import√¢ncia da paci√™ncia e n√£o da pressa. Por fim, a estrutura sint√°tica n√£o √© repetida sistematicamente ao longo do texto.

Resposta final: E

---

### Exemplo 2:

Pergunta:
No trecho, a fil√≥sofa Hannah Arendt mostra a import√¢ncia da linguagem no processo de:

Op√ß√µes:
A) entendimento da cultura.
B) aumento da criatividade.
C) percep√ß√£o da individualidade.
D) constru√ß√£o da t√©cnica.
E) constru√ß√£o da sociabilidade.

Explica√ß√£o:
Hannah Arendt defende em sua obra que somos seres pol√≠ticos, no sentido pr√≥prio de vivermos em polis, em ambiente coletivo e social. √â essa sociabilidade que √© poss√≠vel por meio do discurso, da linguagem. Desse modo, podemos concluir que a linguagem se apresenta como uma importante ferramenta para a constru√ß√£o da sociabilidade, e portanto a alternativa E. √© a CORRETA. Al√©m disso, n√£o se trata do entendimento da cultura, mas de rela√ß√£o social entre as pessoas dessa cultura. Hannah tamb√©m n√£o fala sobre aumento de criatividade, tampouco sobre t√©cnica. Por fim, a linguagem √© utilizada em algo mais coletivo e social, justamente o oposto da individualidade.

Resposta final: E

---

### Exemplo 3:

Pergunta:
O projeto que a casa dever√° selecionar ser√° o

Op√ß√µes:
A) I.
B) II.
C) III.
D) IV.
E) V.

Explica√ß√£o:
Devemos calcular a √°rea das quatro faces laterais e a √°rea da base inferior (fundo da piscina) e somar essas √°reas para obter a √°rea de revestimento. Logo, calculando a √°rea de revestimento de cada projeto temos: Projeto I: 2 √ó 1,8 √ó 2 + 2 √ó 2,5 √ó 1 + (2 √ó 1,8 √ó 2,5) = 6 + 5 + 9 = 20; Projeto II: 2 √ó 1,5 √ó 2 + 2 √ó 2 √ó 1,5 + (2 √ó 1,5 √ó 2) = 6 + 6 + 6 = 18. Projeto III: 2 √ó 2 √ó 1,5 + 2 √ó 1,5 √ó 2,5 + (2 √ó 2 √ó 2,5) = 6 + 7,5 + 10 = 23,5. Projeto IV: 2 √ó 1 √ó 2 + 2 √ó 2,5 √ó 1,5 + (2 √ó 1 √ó 2,5) = 4 + 7,5 + 5 = 16,5. Projeto V: 3 √ó 1,2 √ó 2 + 2 √ó 2,5 √ó 1,5 + (2 √ó 1,5 √ó 1,2) = 7,2 + 7,5 + 3,6 = 18,3. O projeto com menor √°rea de revestimento √© o Projeto II, portanto a resposta correta √© a letra B.

Resposta final: B

---

Agora responda √† pr√≥xima pergunta seguindo o mesmo formato passo a passo.
"""

    # Current question
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{letter}) {text}" for letter, text in zip(option_letters, options)])

    prompt = f"""{few_shot_examples}

Pergunta:
{question}

Op√ß√µes:
{formatted_options}

Explique sua resposta e depois diga a letra da alternativa correta no formato "Resposta final: X"
"""

    return prompt


## Chain-of-Verification (CoVe) template

### Plan verifications

In [303]:
def plan_verification_questions(question, baseline_answer):
    plan_prompt = f"""Dada a seguinte pergunta e resposta, gere 2 a 4 perguntas para verificar os fatos principais da resposta.

Pergunta: {question}

Resposta: {baseline_answer}

Liste as perguntas de verifica√ß√£o:"""
    return call_openai_api(plan_prompt)


### Execute verifications

In [304]:
def execute_verifications(verification_questions):
    verifications = []
    for q in verification_questions:
        answer = call_openai_api(q)
        verifications.append((q, answer))
    return verifications

### Generate final verified answer

In [305]:
def generate_final_verified_answer(question, original_answer, verifications, options=None):
    vtext = "\n".join([f"Q: {q}\nA: {a}" for q, a in verifications])

    option_letters = ["A", "B", "C", "D", "E"]
    options_text = ""
    if options:
        options_text = "\n".join([f"{letter}) {text}" for letter, text in zip(option_letters, options)])

    revise_prompt = f"""
Revise a resposta abaixo com base nas verifica√ß√µes.

Pergunta:
{question}

Alternativas:
{options_text}

Resposta original:
{original_answer}

Verifica√ß√µes:
{vtext}

Resposta final verificada:
[Inclua uma explica√ß√£o revisada, seguida de uma linha como: "Resposta final: X", onde X √© a letra da alternativa correta.]
"""
    return call_openai_api(revise_prompt)


## Self-Refine template

### Give feedback for a previous answer

In [306]:
def build_feedback_prompt(question_obj, model_output):
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{l}) {t}" for l, t in zip(option_letters, options)])

    prompt = (
        "Analise a seguinte resposta gerada para uma pergunta do ENEM. "
        "Identifique erros, falhas na argumenta√ß√£o ou escolha incorreta da alternativa. "
        "Aponte aspectos que podem ser melhorados.\n\n"
        f"Pergunta:\n{question}\n\n"
        f"Alternativas:\n{formatted_options}\n\n"
        f"Resposta do modelo:\n{model_output}\n\n"
        "Feedback:"
    )
    return prompt


### Refine response based on feedback

In [307]:
def build_refine_prompt(question_obj, model_output, feedback):
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{l}) {t}" for l, t in zip(option_letters, options)])

    prompt = (
        "A seguir est√° uma pergunta do ENEM, acompanhada de alternativas, "
        "uma resposta inicial e um feedback cr√≠tico. Escreva uma nova resposta levando em conta "
        "o feedback, explicando novamente o racioc√≠nio e indicando a letra da alternativa correta "
        "no formato \"Resposta final: X\".\n\n"
        f"Pergunta:\n{question}\n\n"
        f"Alternativas:\n{formatted_options}\n\n"
        f"Resposta anterior:\n{model_output}\n\n"
        f"Feedback:\n{feedback}\n\n"
        "Nova resposta:"
    )
    return prompt


### Feedback iteration wrapper

In [308]:
def self_refine_enem(question_obj, max_iters=3):
    # Generate the initial chain-of-thought response
    prompt = build_cot_prompt(question_obj)
    response = call_openai_api(prompt)
    
    # Extract the final answer from the initial response
    prev_final = extract_answer_letter(response)
    
    history = [(response, None)]

    for _ in range(max_iters):
        # Generate feedback based on the current response
        fb_prompt = build_feedback_prompt(question_obj, response)
        feedback = call_openai_api(fb_prompt)

        # Build the refine prompt using the current response and feedback
        refine_prompt = build_refine_prompt(question_obj, response, feedback)
        new_response = call_openai_api(refine_prompt)
        
        # Extract the final answer from the new response
        new_final = extract_answer_letter(new_response)
        
        # If the final answer is unchanged, exit the loop
        if new_final is not None and new_final == prev_final:
            break
        
        # Update the response and the final answer for the next iteration
        response = new_response
        prev_final = new_final
        history.append((response, feedback))
    
    return response, history

## Load 2024 ENEM questions

In [309]:
import json

# Load the JSONL file line by line
data = []
with open('enem_2024.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        data.append(json.loads(line))

# Assign subject based on the index (0-indexed)
for i, entry in enumerate(data):
    if i < 45:
        subject = "Linguagens, C√≥digos e suas Tecnologias"
    elif i < 90:
        subject = "Ci√™ncias Humanas e suas Tecnologias"
    elif i < 135:
        subject = "Ci√™ncias da Natureza e suas Tecnologias"
    else:
        subject = "Matem√°tica e suas Tecnologias"
    entry["subject"] = subject

# Show the first question
data[0]

{'id': 'questao_01',
 'exam': '2024',
 'IU': False,
 'ledor': False,
 'question': '## Holy War\nOh, so we can hate each other and fear each other\nWe can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in\n[‚Ä¶]\nOh, maybe we should love somebody\nOh, maybe we could care a little more\nSo maybe we should love somebody\nInstead of polishing the bombs of holy war\nNessa letra de can√ß√£o, de Alicia Keys, que aborda um contexto de √≥dio e intoler√¢ncia, o marcador ‚Äúinstead of ‚Äù introduz a ideia de',
 'alternatives': ['mudan√ßa de comportamento.',
  'panorama de conflitos.',
  'rotina de isolamento.',
  'perspectiva b√©lica.',
  'cen√°rio religioso.'],
 'label': 'A',
 'figures': [],
 'description': [],
 'subject': 'Linguagens, C√≥digos e suas Tecnologias'}

## Connect to OpenAI API

In [310]:
from openai import OpenAI

# Read key from file
with open("openai-key.txt", "r") as f:
    api_key = f.read().strip()

client = OpenAI(api_key=api_key)

### API call

In [311]:
def call_openai_api(prompt, model="gpt-3.5-turbo", temperature=0.7):
    response = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "user", "content": prompt}
        ],
        temperature=temperature
    )
    return response.choices[0].message.content

## Test Prompting Techniques

### Test CoT

#### Test CoT with a single question

In [312]:
q = data[0]
prompt = build_cot_prompt(q)
response = call_openai_api(prompt)
predicted = extract_answer_letter(response)

print("Prompt:\n", prompt)
print("\nModel Response:\n", response)
print(f"\nPredicted: {predicted} | Ground Truth: {q['label']}")


Prompt:
 Responda √† seguinte pergunta com racioc√≠nio passo a passo, explicando sua escolha antes de dar a resposta final.

Pergunta:
## Holy War
Oh, so we can hate each other and fear each other
We can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in
[‚Ä¶]
Oh, maybe we should love somebody
Oh, maybe we could care a little more
So maybe we should love somebody
Instead of polishing the bombs of holy war
Nessa letra de can√ß√£o, de Alicia Keys, que aborda um contexto de √≥dio e intoler√¢ncia, o marcador ‚Äúinstead of ‚Äù introduz a ideia de

Op√ß√µes:
A) mudan√ßa de comportamento.
B) panorama de conflitos.
C) rotina de isolamento.
D) perspectiva b√©lica.
E) cen√°rio religioso.

Explique sua resposta e depois diga a letra da alternativa correta no formato "Resposta final: X"


Model Response:
 Para responder a essa pergunta, √© importante analisar o contexto da letra da m√∫sica "Holy War" de Alicia Keys. A letra fala s

#### CoT evaluation loop over sample questions

In [313]:
cot_results = []

for i, question in enumerate(data):
    prompt = build_cot_prompt(question)
    correct_answer = question["label"]
    
    try:
        response = call_openai_api(prompt)
        predicted = extract_answer_letter(response)
    except Exception as e:
        response = str(e)
        predicted = None
    
    cot_results.append({
        "id": question["id"],
        "subject": question["subject"],
        "question": question["question"],
        "ground_truth": correct_answer,
        "predicted": predicted,
        "correct": predicted == correct_answer,
        "response": response
    })

    print(f"[{i+1}/{len(data)}] ‚úÖ Predicted: {predicted} | Correct: {correct_answer}")


[1/180] ‚úÖ Predicted: A | Correct: A
[2/180] ‚úÖ Predicted: E | Correct: A
[3/180] ‚úÖ Predicted: C | Correct: C
[4/180] ‚úÖ Predicted: E | Correct: E
[5/180] ‚úÖ Predicted: A | Correct: A
[6/180] ‚úÖ Predicted: C | Correct: C
[7/180] ‚úÖ Predicted: A | Correct: B
[8/180] ‚úÖ Predicted: E | Correct: E
[9/180] ‚úÖ Predicted: D | Correct: D
[10/180] ‚úÖ Predicted: A | Correct: A
[11/180] ‚úÖ Predicted: D | Correct: D
[12/180] ‚úÖ Predicted: E | Correct: E
[13/180] ‚úÖ Predicted: E | Correct: E
[14/180] ‚úÖ Predicted: E | Correct: B
[15/180] ‚úÖ Predicted: D | Correct: D
[16/180] ‚úÖ Predicted: D | Correct: D
[17/180] ‚úÖ Predicted: B | Correct: B
[18/180] ‚úÖ Predicted: D | Correct: D
[19/180] ‚úÖ Predicted: B | Correct: B
[20/180] ‚úÖ Predicted: E | Correct: B
[21/180] ‚úÖ Predicted: D | Correct: C
[22/180] ‚úÖ Predicted: A | Correct: E
[23/180] ‚úÖ Predicted: E | Correct: E
[24/180] ‚úÖ Predicted: B | Correct: C
[25/180] ‚úÖ Predicted: B | Correct: B
[26/180] ‚úÖ Predicted: A | Correc

#### CoT Results

In [314]:
df_cot = pd.DataFrame(cot_results)
save_results_csv(df_cot, method_name="cot")
df_cot

‚úÖ Results saved to results/cot/cot_results_2025-03-27_11-24-17.csv


Unnamed: 0,id,subject,question,ground_truth,predicted,correct,response
0,questao_01,"Linguagens, C√≥digos e suas Tecnologias","## Holy War\nOh, so we can hate each other and fear each other\nWe can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in\n[‚Ä¶]\nOh, maybe we should love somebody\nOh, maybe we could care a little more\nSo maybe we should love somebody\nInstead of polishing the bombs of holy war\nNessa letra de can√ß√£o, de Alicia Keys, que aborda um contexto de √≥dio e intoler√¢ncia, o marcador ‚Äúinstead of ‚Äù introduz a ideia de",A,A,True,"Para responder a essa pergunta, √© importante analisar o contexto da letra da m√∫sica. Alicia Keys est√° falando sobre a possibilidade de amar e se importar mais com as pessoas em vez de propagar o √≥dio e a intoler√¢ncia que levam a guerras. O trecho espec√≠fico em quest√£o destaca a ideia de escolher amar algu√©m em vez de alimentar a guerra.\n\nConsiderando isso, a express√£o ""instead of"" √© utilizada para contrastar duas a√ß√µes ou ideias, sugerindo uma mudan√ßa de comportamento ou escolha entre duas op√ß√µes. Portanto, a resposta correta √©:\n\nResposta final: A) mudan√ßa de comportamento."
1,questao_02,"Linguagens, C√≥digos e suas Tecnologias",[[placeholder]]\nO texto estabelece uma rela√ß√£o entre elementos da natureza e comandos de um programa de computador para,A,E,False,"Para responder a essa pergunta, precisamos analisar a rela√ß√£o estabelecida no texto entre elementos da natureza e comandos de um programa de computador. O texto menciona que ""Quando voc√™ planta uma √°rvore em um programa de computador, voc√™ n√£o precisa esperar anos para v√™-la crescer. Basta digitar um comando e, em segundos, a √°rvore estar√° l√°, alta e frondosa."" Essa rela√ß√£o mostra que no programa de computador, o crescimento das √°rvores √© acelerado, diferente do processo natural que leva anos.\n\nCom base nisso, podemos concluir que a inten√ß√£o do texto n√£o √© alertar sobre a destrui√ß√£o da natureza, nem conscientizar sobre o tempo passando r√°pido, nem apresentar avan√ßos tecnol√≥gicos na agricultura, nem orientar sobre o emprego sustent√°vel das novas tecnologias. A rela√ß√£o estabelecida visa, na verdade, informar os interessados sobre o tempo de crescimento das √°rvores de forma acelerada no programa de computador.\n\nPortanto, a alternativa correta √©:\n\nResposta final: E) informar os interessados sobre o tempo de crescimento de novas √°rvores."
2,questao_03,"Linguagens, C√≥digos e suas Tecnologias",[[placeholder]]\nA rela√ß√£o entre as cita√ß√µes atribu√≠das ao f√≠sico Albert Einstein e ao cantor e compositor Bob Marley reside na cren√ßa de que √© necess√°rio,C,C,True,"Para responder a essa pergunta, precisamos analisar as cita√ß√µes atribu√≠das a Albert Einstein e Bob Marley, e entender o que elas t√™m em comum. \n\nAlbert Einstein disse: ""A mente que se abre a uma nova ideia jamais voltar√° ao seu tamanho original"". Essa cita√ß√£o sugere a import√¢ncia de estar aberto a novas perspectivas e ideias. Por outro lado, Bob Marley disse: ""Voc√™ nunca sabe como forte voc√™ √© at√© ser forte √© sua √∫nica escolha"". Essa frase destaca a import√¢ncia de superar desafios e dificuldades para descobrir sua verdadeira for√ßa e capacidade. \n\nAmbas as cita√ß√µes enfatizam a import√¢ncia de enfrentar adversidades, superar obst√°culos e estar aberto a novas oportunidades. Portanto, a rela√ß√£o entre elas reside na cren√ßa de que √© necess√°rio tirar proveito de situa√ß√µes que podem ser adversas. \n\nResposta final: C) tirar proveito de situa√ß√µes que podem ser adversas."
3,questao_04,"Linguagens, C√≥digos e suas Tecnologias",[[placeholder]]A carta da editora Stephanie Allen-Nichols √† escritoraAlice Walker tem o prop√≥sito de,E,E,True,"Primeiramente, √© importante analisar o contexto da situa√ß√£o. A carta da editora Stephanie Allen-Nichols √† escritora Alice Walker provavelmente tem o prop√≥sito de comunicar algo relacionado √† obra da autora. \n\nDessa forma, podemos descartar as op√ß√µes B) acusar o recebimento de seu manuscrito e C) solicitar a revis√£o ortogr√°fica de seu texto, pois n√£o fazem sentido em um contexto de comunica√ß√£o entre editora e autora.\n\nTamb√©m podemos descartar a op√ß√£o A) problematizar o enredo de sua obra, pois n√£o √© comum uma editora questionar o enredo de uma obra j√° aceita para publica√ß√£o.\n\nRestam as op√ß√µes D) informar a transfer√™ncia de seu livro a outra editora e E) comunicar a recusa da publica√ß√£o de seu romance. \n\nConsiderando que a carta √© direcionada √† autora, √© mais prov√°vel que a editora esteja comunicando a recusa da publica√ß√£o de seu romance, uma vez que a transfer√™ncia para outra editora seria algo que n√£o requereria necessariamente a participa√ß√£o da autora.\n\nPortanto, a resposta final √©:\n\nResposta final: E) comunicar a recusa da publica√ß√£o de seu romance."
4,questao_05,"Linguagens, C√≥digos e suas Tecnologias","## Borderlands/La frontera: the Nem Mestiza\nGl√≥ria Anzald√∫a\nI remember being caught speaking Spanish at recess [...] I remember being sent to the corner of the classroom for ‚Äútalking back‚Äù to the Anglo teacher when all I was trying to do was tell her how to pronounce my name. ‚ÄúIf you want to be American, speak ‚ÄòAmerican‚Äô. If you don‚Äôt like it, go back to Mexico where you belong‚Äù.\n‚ÄúI want you to speak English [‚Ä¶]‚Äù, my mother would say, mortified that I spoke English like a Mexican. At Pan American University, I and all Chicano students were required to take two speech classes. Their purpose: to get rid of our accents.\nO problema abordado nesse texto sobre imigrantes residentes nos Estados Unidos diz respeito aos preju√≠zos gerados pelo(a)",A,A,True,"O texto aborda o preconceito e a discrimina√ß√£o sofridos pela autora e outros imigrantes de l√≠ngua espanhola nos Estados Unidos, que s√£o incentivados a abandonar sua l√≠ngua materna e adotar o ingl√™s como √∫nica forma de serem aceitos como ""americanos"". O trecho em que a autora √© repreendida por falar espanhol na escola e √© instru√≠da a falar ingl√™s para ser considerada ""americana"" mostra claramente o rep√∫dio ao sotaque espanhol no uso do ingl√™s. Portanto, a op√ß√£o correta √©:\n\nResposta final: A) rep√∫dio ao sotaque espanhol no uso do ingl√™s."
...,...,...,...,...,...,...,...
175,questao_176,Matem√°tica e suas Tecnologias,"Atualmente, h√° telefones celulares com telas de diversos tamanhos e em formatos retangulares. Alguns deles apresentam telas medindo tr√™s inteiros e um meio polegadas, com determinadas especifica√ß√µes t√©cnicas. Al√©m disso, em muitos modelos, com a inclus√£o de novas fun√ß√µes no celular, suas telas ficaram maiores, sendo muito comum encontrarmos atualmente telas medindo quatro inteiros e cinco sextos polegadas, conforme a figura.\n[[placeholder]]\n\n. A diferen√ßa de tamanho, em valor absoluto, entre as medidas, em polegada, das telas do celular 2 e do celular 1, representada apenas com uma casa decimal, √©",D,D,True,"Para encontrar a diferen√ßa de tamanho entre as telas dos dois celulares, precisamos calcular a diferen√ßa entre 4 5/6 e 3 1/2 polegadas.\n\nPrimeiro, vamos converter as fra√ß√µes mistas em fra√ß√µes impr√≥prias:\n4 5/6 = (4*6 + 5)/6 = 24/6 + 5/6 = 29/6\n3 1/2 = (3*2 + 1)/2 = 6/2 + 1/2 = 7/2\n\nAgora, subtra√≠mos as duas fra√ß√µes:\n29/6 - 7/2 = 29/6 - 21/6 = 8/6 = 4/3 = 1,3\n\nPortanto, a diferen√ßa de tamanho entre as telas dos dois celulares √© 1,3 polegadas.\n\nResposta final: D) 1,3."
176,questao_177,Matem√°tica e suas Tecnologias,"Uma imobili√°ria iniciou uma campanha de divulga√ß√£o para promover a venda de apartamentos que podem ser pagos em 100 parcelas mensais. O valor da primeira delas √© fixado no momento da compra, com o pagamento dessa primeira parcela. A partir da segunda parcela, o valor √© determinado pela aplica√ß√£o de um acr√©scimo percentual fixo ao valor da parcela anterior. Como atrativo, a imobili√°ria far√° o pagamento de todas as parcelas correspondentes ao m√™s de anivers√°rio do comprador.\nUm cliente, que faz anivers√°rio no m√™s de maio, decidiu comprar um desses apartamentos por meio do financiamento oferecido pela imobili√°ria, e pretende escolher o m√™s mais adequado para realizar essa compra, de modo que o valor total dos pagamentos seja o menor poss√≠vel.\nQual √© o m√™s que esse cliente dever√° escolher para realizar a compra do apartamento?",A,C,False,"Para encontrar o m√™s mais adequado para realizar a compra do apartamento, precisamos levar em considera√ß√£o que a imobili√°ria pagar√° todas as parcelas correspondentes ao m√™s de anivers√°rio do comprador. Como o cliente faz anivers√°rio em maio, ele dever√° escolher o m√™s que resultar√° no menor valor total a ser pago, levando em conta esse benef√≠cio.\n\nSe ele escolher o m√™s de maio para realizar a compra, a imobili√°ria pagar√° todas as parcelas desse m√™s, ou seja, ele n√£o precisar√° efetuar nenhum pagamento em maio. Dessa forma, o valor total a ser pago ser√° menor do que se ele escolher qualquer outro m√™s.\n\nResposta final: C) Maio."
177,questao_178,Matem√°tica e suas Tecnologias,"Um professor de desenho, apresentou uma pe√ßa de 45 cent√≠metros de comprimento e solicitou aos alunos reproduzir no papel o objeto, onde as medidas devem ser proporcionais √†s medidas reais, e o comprimento deste desenho tem que ser de 9 cent√≠metros.\nA escala utilizada para realizar esse desenho √©",D,D,True,"Para encontrar a escala utilizada para realizar o desenho, precisamos calcular a propor√ß√£o entre o comprimento real e o comprimento do desenho.\n\nComprimento real: 45 cm\nComprimento do desenho: 9 cm\n\nPara encontrar a escala, vamos dividir o comprimento real pelo comprimento do desenho:\n\nEscala = Comprimento real / Comprimento do desenho\nEscala = 45 cm / 9 cm\nEscala = 5\n\nIsso significa que a escala utilizada para realizar o desenho √© de 1 para 5.\n\nResposta final: D) 1 para 5."
178,questao_179,Matem√°tica e suas Tecnologias,"A prefeitura de uma cidade planeja construir tr√™s postos de sa√∫de. Esses postos devem ser constru√≠dos em locais equidistantes entre si e de forma que as dist√¢ncias desses tr√™s postos ao hospital dessa cidade sejam iguais. Foram conseguidos tr√™s locais para a constru√ß√£o dos postos de sa√∫de que apresentam as caracter√≠sticas desejadas, e que distam 10 quil√¥metros entre si, conforme o esquema, no qual o ponto H representa o local onde est√° constru√≠do o hospital; os pontos P √≠ndice 1, P √≠ndice 2 e P √≠ndice 3, os postos de sa√∫de; e esses quatro pontos est√£o em um mesmo plano.\n[[placeholder]]\nA dist√¢ncia, em quil√¥metro, entre o hospital e cada um dos postos de sa√∫de, √© um valor entre",C,C,True,"Para resolver essa quest√£o, vamos usar a propriedade de que os postos de sa√∫de devem ser constru√≠dos em locais equidistantes entre si e de forma que as dist√¢ncias desses tr√™s postos ao hospital sejam iguais.\n\nSabemos que os postos de sa√∫de est√£o a uma dist√¢ncia de 10 quil√¥metros entre si. Como eles devem estar equidistantes e a dist√¢ncia do hospital at√© cada posto √© a mesma, podemos imaginar um tri√¢ngulo equil√°tero formado pelos tr√™s postos de sa√∫de. \n\nNesse tri√¢ngulo equil√°tero, a dist√¢ncia do hospital at√© cada v√©rtice do tri√¢ngulo √© igual, representando a dist√¢ncia entre o hospital e cada posto de sa√∫de. \n\nSabemos que a dist√¢ncia entre os postos de sa√∫de √© de 10 quil√¥metros, ent√£o a dist√¢ncia do hospital at√© cada posto √© igual a metade dessa dist√¢ncia, ou seja, 5 quil√¥metros.\n\nPortanto, a dist√¢ncia entre o hospital e cada um dos postos de sa√∫de √© um valor entre 5 e 6 quil√¥metros.\n\nResposta final: C) 5 e 6."


##### Save results

In [315]:
from datetime import datetime

# Current date and time string
timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")

# Filename with timestamp
filename = f"cot_results_{timestamp}.csv"

# Save DataFrame
df_cot.to_csv(filename, index=False)
print(f"Results saved to {filename}")

Results saved to cot_results_2025-03-27_11-24-17.csv


In [316]:
correct, total, acc, none_count = calculate_accuracy(cot_results)
print(f"CoT Accuracy: {correct}/{total} ({acc:.1f}%)")
print(f"‚ùì Unanswered (None): {none_count}")

CoT Accuracy: 126/175 (72.0%)
‚ùì Unanswered (None): 5


In [317]:
results_by_subject(df_cot)

Unnamed: 0_level_0,sum,count,accuracy (%)
subject,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ci√™ncias Humanas e suas Tecnologias,42,45,93.333333
Ci√™ncias da Natureza e suas Tecnologias,25,45,55.555556
"Linguagens, C√≥digos e suas Tecnologias",34,45,75.555556
Matem√°tica e suas Tecnologias,25,45,55.555556


### Test CoVe

#### Test CoVe with a single question

In [318]:
# Step 1: Pick a question
q = data[0]
question_text = q["question"]
prompt = build_cot_prompt(q)

# Step 2: Baseline CoT answer
baseline_answer = call_openai_api(prompt)

print("üîπ Baseline CoT Answer:\n", baseline_answer)

# Step 3: Plan verification questions
verification_qs_raw = plan_verification_questions(question_text, baseline_answer)

# Split the response into individual questions if the model gives a list
verification_questions = [line.strip("- ").strip() for line in verification_qs_raw.split("\n") if line.strip()]

print("\nüîπ Verification Questions:")
for qv in verification_questions:
    print("-", qv)

# Step 4: Execute verification
verifications = execute_verifications(verification_questions)

print("\nüîπ Verification Answers:")
for qv, av in verifications:
    print(f"Q: {qv}\nA: {av}\n")

# Step 5: Generate final verified answer
final_answer = generate_final_verified_answer(question_text, baseline_answer, verifications)

print("üîπ Final Verified Answer:\n", final_answer)

# Step 6: Extract predicted letter and compare to ground truth
predicted = extract_answer_letter(final_answer)
ground_truth = q["label"]

print(f"\n‚úÖ Predicted Answer: {predicted}")
print(f"üéØ Ground Truth: {ground_truth}")

if predicted == ground_truth:
    print("üéâ CORRECT!")
else:
    print("‚ùå WRONG.")


üîπ Baseline CoT Answer:
 A express√£o "instead of" √© utilizada para indicar uma substitui√ß√£o de uma a√ß√£o por outra. No trecho da m√∫sica, a ideia apresentada √© de substituir a atitude de polir as bombas da guerra santa por amar algu√©m. Ou seja, a sugest√£o √© abandonar a viol√™ncia e o √≥dio em troca de amor e compaix√£o. Portanto, a ideia introduzida pelo marcador "instead of" √© de mudan√ßa de comportamento.

Resposta final: A) mudan√ßa de comportamento.

üîπ Verification Questions:
- 1. Qual √© a express√£o utilizada pela cantora Alicia Keys para indicar a substitui√ß√£o de uma a√ß√£o por outra?
- 2. Qual √© a atitude sugerida no trecho da m√∫sica em que √© utilizada a express√£o "instead of"?
- 3. Como a ideia de substituir a atitude de polir as bombas da guerra santa por amar algu√©m √© interpretada na letra da m√∫sica?
- 4. Qual √© o objetivo da sugest√£o apresentada pela cantora Alicia Keys na m√∫sica abordada?

üîπ Verification Answers:
Q: 1. Qual √© a express√£o uti

#### CoVe evaluation loop over sample questions

In [None]:
cove_results = []

for i, question in enumerate(data):
    try:
        question_text = question["question"]
        correct_answer = question["label"]

        # Build CoT-style prompt
        prompt = build_cot_prompt(question)

        # Baseline CoT response
        baseline_answer = call_openai_api(prompt)

        # Extract initial answer letter from baseline
        initial_answer_letter = extract_answer_letter(baseline_answer)

        # Plan verifications
        verification_qs_raw = plan_verification_questions(question_text, baseline_answer)
        verification_questions = [line.strip("- ").strip() for line in verification_qs_raw.split("\n") if line.strip()]

        # Execute verifications
        verifications = execute_verifications(verification_questions)

        # Final revised answer
        final_answer = generate_final_verified_answer(
            question_text, baseline_answer, verifications, question["alternatives"]
        )

        # Extract answer letter (A‚ÄìE)
        predicted = extract_answer_letter(final_answer)

        # Record result
        cove_results.append({
            "id": question["id"],
            "question": question_text,
            "ground_truth": correct_answer,
            "predicted": predicted,
            "correct": predicted == correct_answer,
            "baseline_answer": baseline_answer,
            "initial_answer": initial_answer_letter,
            "final_answer": final_answer,
            "verification_qs": verification_questions,
            "verification_a": verifications,
            "subject": question.get("subject", "unknown")
        })

        print(f"[{i+1}/{len(data)}] ‚úÖ Predicted: {predicted} | Correct: {correct_answer}")

    except Exception as e:
        print(f"[{i+1}/{len(data)}] ‚ùå Error: {e}")
        cove_results.append({
            "index": i,
            "question": question_text,
            "true_answer": correct_answer,
            "predicted": None,
            "correct": False,
            "error": str(e)
        })


[1/180] ‚úÖ Predicted: A | Correct: A
[2/180] ‚úÖ Predicted: A | Correct: A
[3/180] ‚úÖ Predicted: C | Correct: C
[4/180] ‚úÖ Predicted: E | Correct: E
[5/180] ‚úÖ Predicted: C | Correct: A
[6/180] ‚úÖ Predicted: E | Correct: C
[7/180] ‚úÖ Predicted: B | Correct: B
[8/180] ‚úÖ Predicted: E | Correct: E
[9/180] ‚úÖ Predicted: C | Correct: D
[10/180] ‚úÖ Predicted: A | Correct: A
[11/180] ‚úÖ Predicted: D | Correct: D
[12/180] ‚úÖ Predicted: A | Correct: E
[13/180] ‚úÖ Predicted: E | Correct: E
[14/180] ‚úÖ Predicted: B | Correct: B
[15/180] ‚úÖ Predicted: D | Correct: D
[16/180] ‚úÖ Predicted: D | Correct: D
[17/180] ‚úÖ Predicted: B | Correct: B
[18/180] ‚úÖ Predicted: D | Correct: D
[19/180] ‚úÖ Predicted: B | Correct: B
[20/180] ‚úÖ Predicted: B | Correct: B
[21/180] ‚úÖ Predicted: D | Correct: C
[22/180] ‚úÖ Predicted: A | Correct: E
[23/180] ‚úÖ Predicted: E | Correct: E
[24/180] ‚úÖ Predicted: B | Correct: C
[25/180] ‚úÖ Predicted: C | Correct: B
[26/180] ‚úÖ Predicted: C | Correc

#### CoVe results

In [None]:
df_cove = pd.DataFrame(cove_results)
save_results_csv(df_cove, method_name="cove")
df_cove

### Test Self-Refine

#### Test Self-Refine with a single question 

In [None]:
q = data[0]
final_response, trace = self_refine_enem(q)
predicted = extract_answer_letter(final_response)

print("Prompt inicial (itera√ß√£o 0):\n", build_cot_prompt(q))
print("\nResposta final ap√≥s refinamento:\n", final_response)
print(f"\nAlternativa prevista: {predicted} | Gabarito: {q['label']}")

print("\nHist√≥rico de itera√ß√µes:")
for i, (resp, fb) in enumerate(trace):
    print(f"\n--- Itera√ß√£o {i} ---")
    print("Resposta:", resp)
    if fb:
        print("Feedback:", fb)


#### Self-Refine evaluation loop over sample questions

In [None]:
for i, question in enumerate(data):
    try:
        question_text = question["question"]
        correct_answer = question["label"]

        # 1. Run SELF-REFINE
        final_answer, trace = self_refine_enem(question, max_iters=3)
        predicted = extract_answer_letter(final_answer)

        # 2. Extract intermediate answers from trace
        answer_sequence = []
        baseline_answer = None
        
        for step, (response, feedback) in enumerate(trace):  # FIXED HERE
            try:
                letter = extract_answer_letter(response)
            except Exception:
                letter = None
            answer_sequence.append(letter)
            if step == 0:
                baseline_answer = response

        # 3. Record result
        self_refine_results.append({
            "id": question["id"],
            "question": question_text,
            "ground_truth": correct_answer,
            "predicted": predicted,
            "correct": predicted == correct_answer,
            "baseline_answer": baseline_answer,
            "final_answer": final_answer,
            "answer_sequence": answer_sequence, 
            "trace": trace,
            "subject": question.get("subject", "unknown")
        })

        print(f"[{i+1}/{len(data)}] ‚úÖ Predicted: {predicted} | Correct: {correct_answer}")

    except Exception as e:
        print(f"[{i+1}/{len(data)}] ‚ùå Error: {e}")
        self_refine_results.append({
            "index": i,
            "question": question.get("question", ""),
            "true_answer": question.get("label", ""),
            "predicted": None,
            "correct": False,
            "error": str(e),
            "subject": question.get("subject", "unknown")
        })


#### Self-Refine Results

In [None]:
df_self_refine = pd.DataFrame(self_refine_results)
save_results_csv(df_self_refine, method_name="self-refine")
df_self_refine

## Analyse Results 

### Overall accuracy 

In [None]:
def compute_summary(df, method_name):
    total = len(df)
    correct = df['correct'].sum()
    accuracy = correct / total
    return {
        'Method': method_name,
        'Total Questions': total,
        'Correct': correct,
        'Accuracy (%)': round(accuracy * 100, 2)
    }    

In [None]:
overall = pd.DataFrame([
    compute_summary(df_cot, "CoT"),
    compute_summary(df_cove, "CoVe"),
    compute_summary(df_self_refine, "SELF-REFINE")
])

print(overall)

### Subject-wise accuracy

In [None]:
def subject_accuracy(df, method_name):
    grouped = df.groupby("subject")["correct"].agg(["count", "sum"])
    grouped["Accuracy (%)"] = round(grouped["sum"] / grouped["count"] * 100, 2)
    grouped["Method"] = method_name
    return grouped.reset_index()[["subject", "Method", "Accuracy (%)"]]

In [None]:
subject_cot = subject_accuracy(df_cot, "CoT")
subject_cove = subject_accuracy(df_cove, "CoVe")
subject_self = subject_accuracy(df_self_refine, "SELF-REFINE")

subject_summary = pd.concat([subject_cot, subject_cove, subject_self], ignore_index=True)

print(subject_summary)

#### Visualize results

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Rename subjects for clarity in the plot
subject_summary["subject"] = subject_summary["subject"].replace({
    "Linguagens, C√≥digos e suas Tecnologias": "Linguagens",
    "Ci√™ncias da Natureza e suas Tecnologias": "Ciencias da Natureza",
    "Ci√™ncias Humanas e suas Tecnologias": "Ciencias Humanas",
    "Matem√°tica e suas Tecnologias": "Matematica"
})

# Plot
plt.figure(figsize=(10, 6))
sns.barplot(
    data=subject_summary,
    x="subject",
    y="Accuracy (%)",
    hue="Method",
    palette="Set2"
)

plt.title("Subject-wise Accuracy by Method")
plt.ylabel("Accuracy (%)")
plt.xlabel("Subject")
plt.ylim(0, 100)
plt.xticks(rotation=15)
plt.legend(title="Method")
plt.tight_layout()
plt.show()


### Regressions: Model changed a correct answer to a wrong one


#### CoVe

In [None]:
if "initial_answer" not in df_cove.columns:
    df_cove["initial_answer"] = df_cove["baseline_answer"].apply(extract_answer_letter)

regressions = df_cove[
    (df_cove["initial_answer"] == df_cove["ground_truth"]) &
    (df_cove["predicted"] != df_cove["ground_truth"])
]

In [None]:
for _, row in regressions.iterrows():
    print(f"ID: {row['id']}, Initial: {row['initial_answer']} ‚úÖ, Final: {row['predicted']} ‚ùå")
    print(f"Q: {row['question']}")
    print(f"Baseline Answer:\n{row['baseline_answer']}")
    print("-" * 25)
    print(f"Final Answer:\n{row['final_answer']}")
    print("-" * 50)


In [None]:
total = len(df_cove)
n_regressions = len(regressions)
print(f"Regressions: {n_regressions} out of {total} ({n_regressions/total:.2%})")

#### Self-Refine

In [None]:
df_self_refine["initial_answer"] = df_self_refine["answer_sequence"].apply(lambda seq: seq[0] if seq and len(seq) > 0 else None)


### Improvements: Model fixed its answer

#### CoVe

In [None]:
improvements = df_cove[
    (df_cove["initial_answer"] != df_cove["ground_truth"]) &
    (df_cove["predicted"] == df_cove["ground_truth"])
]

In [None]:
for _, row in improvements.iterrows():
    print(f"ID: {row['id']}, Initial: {row['initial_answer']} ‚ùå, Final: {row['predicted']} ‚úÖ")
    print(f"Q: {row['question']}")
    print(f"Baseline:\n{row['baseline_answer']}")
    print(f"Final:\n{row['final_answer']}")
    print("-" * 50)