# Setup

## Helper methods

### Extract multiple-choice answer from response

In [410]:
import re

def extract_answer_letter(response):
    # Match "Resposta final: C)" or "Resposta final: C"
    match = re.search(r"resposta final\s*[:\-]?\s*([A-E])\s*\)?", response, re.IGNORECASE | re.DOTALL)
    if not match:
        # Try fallback patterns
        match = re.search(r"letra\s+([A-E])\b", response, re.IGNORECASE)
    return match.group(1).upper() if match else None

### Calculate overall accuracy of answers

In [411]:
def calculate_accuracy(results):
    """Returns overall accuracy and count of None predictions from a list of result dicts."""
    total_answered = sum(1 for r in results if r["predicted"] is not None)
    correct = sum(r["correct"] for r in results if r["predicted"] is not None)
    total = len(results)
    none_count = total - total_answered
    accuracy = (correct / total_answered) * 100 if total_answered > 0 else 0
    return correct, total_answered, accuracy, none_count

### Group results by subject

In [412]:
import pandas as pd

def results_by_subject(results):
    """Aggregates accuracy grouped by subject"""
    df = pd.DataFrame(results)
    if "subject" not in df.columns:
        print("⚠️ 'subject' not found in results.")
        return None
    
    summary = df.groupby("subject")["correct"].agg(["sum", "count"])
    summary["accuracy (%)"] = (summary["sum"] / summary["count"]) * 100
    return summary

### Save results to csv file

In [413]:
from datetime import datetime
import os

def save_results_csv(df, method_name):
    """
    Save a DataFrame as a CSV file in a 'results/<method_name>' subfolder with a timestamped filename.

    Parameters:
    - df: pandas DataFrame to save
    - method_name: e.g., 'cot', 'cov', 'self-refine'

    Returns:
    - The full filename used
    """
    # Define target folder and create it if needed
    folder = os.path.join("results", method_name)
    os.makedirs(folder, exist_ok=True)

    # Create timestamped filename
    timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
    filename = os.path.join(folder, f"{method_name}_results_{timestamp}.csv")

    # Save the file
    df.to_csv(filename, index=False)
    print(f"✅ Results saved to {filename}")
    return filename

## Chain-of-Thought (CoT) template

In [414]:
def build_cot_prompt(question_obj):
    
    few_shot_examples = """Você verá abaixo alguns exemplos de como a pergunta deve ser respondida passo a passo. Leia atentamente os exemplos e, em seguida, responda a pergunta que vem depois deles.
    
        ### Exemplo 1:
        
        Pergunta:
        Urgência emocional. Se tudo é para ontem, se a vida engata uma primeira e sai em
        disparada, se não há mais tempo para paradas estratégicas, caímos fatalmente no vício de querer
        que os amores sejam igualmente resolvidos num átimo de segundo. Temos pressa para ouvir “eu
        te amo”. Não vemos a hora de que fiquem estabelecidas as regras de convívio: somos namorados,
        ficantes, casados, amantes? Urgência emocional. Uma cilada. Associamos diversas palavras ao
        AMOR: paixão, romance, sexo, adrenalina, palpitação. Esquecemos, no entanto, da palavra que
        viabiliza esse sentimento: “paciência”. Amor sem paciência não vinga. Amor não pode ser mastigado
        e engolido com emergência, com fome desesperada. É uma refeição que pode durar uma vida.
        MEDEIROS, M. Disponível em: http://porumavidasimples.blogspot.com.br. Acesso em: 20 ago. 2017
        (adaptado).   
        
        Nesse texto de opinião, as marcas linguísticas revelam uma situação distensa e de pouca formalidade, o que se evidencia pelo(a)
        
        Opções:
        A) A impessoalização ao longo do texto, com em: “se não há mais tempo”.
        B) A construção de uma atmosfera de urgência, em palavras como: “pressa”.
        C) A repetição de uma determinada estrutura sintática, como em: “Se tudo é para ontem”.
        D) O ênfase no emprego de hipérboles, como em: “uma reflexão que pode durar uma vida”.
        E) O emprego de metáforas, como em: “a vida engata uma primeira e sai em disparada”.
        
        Explicação:
        O texto é escrito em uma linguagem leve, ágil, e de pouca formalidade. Além disso, possui figuras de
        linguagem, como metáforas e hipérboles, que não são excludentes. Em uma análise sequencial das
        alternativas, daria para afirmar que D. e E. estão corretas. Entretanto, observando em detalhes, nota-se
        que a expressão "emprego de metáforas" mostra ser mais adequada do que "ênfase no emprego da
        hipérbole", visto que, para afirmarmos que o uso de hipérboles foi enfatizado, a figura de linguagem
        deveria ter aparecido mais vezes. Isso torna a alternativa E. mais provável de ser CORRETA. Além
        disso, impessoalização não deve ser apontada como marca de pouca formalidade. Existe também uma
        atmosfera de urgência, mas que é criticada no texto que destaca a importância da paciência e não da
        pressa. Por fim, a estrutura sintática não é repetida sistematicamente ao longo do texto.         
        
        Resposta final: E
        
        ---
        
        ### Exemplo 2:
        
        Pergunta:
        Sempre que a relevância do discurso entra em jogo, a questão torna-se política por
        definição, pois é o discurso que faz do homem um ser político. E tudo que os homens fazem, sabem
        ou experimentam só tem sentido na medida em que pode ser discutido. Haverá, talvez, verdades que
        ficam além da linguagem e que podem ser de grande relevância para o homem no singular, isto é, para
        o homem que, seja o que for, não é um ser político. Mas homens no plural, isto é, os homens que vivem
        e se movem e agem neste mundo, só podem experimentar o significado das coisas por poderem falar
        e ser inteligíveis entre si e consigo mesmos. ARENDT, H. A condição humana. Rio de Janeiro: Forense
        Universitária, 2004.
        
        No trecho, a filósofa Hannah Arendt mostra a importância da linguagem no processo de
        
        Opções:
        A) entendimento da cultura.
        B) aumento da criatividade.
        C) percepção da individualidade.
        D) melhoria da técnica.
        E) construção da sociabilidade.
        
        Explicação:
        Hannah Arendt defende em sua obra que somos seres políticos, no sentido próprio de vivermos
        em pólis, em ambiente coletivo e social. E essa sociabilidade só é possível por meio do discurso,
        da linguagem. Desse modo, podemos concluir que a linguagem se apresenta como uma importante
        ferramenta para a construção da sociabilidade, e portanto a alternativa E. é a CORRETA. Além disso,
        não se trata do entendimento da cultura, mas da relação social entre as pessoas dessa cultura. Hannah
        também não fala sobre aumento de criatividade, tampouco sobre técnica. Por fim, a linguagem é
        utilizada em algo mais coletivo e social, justamente o oposto da individualidade.      
        
        Resposta final: E
        
        ---
        
        ### Exemplo 3:
        
        Pergunta:
        Um casal planeja construir em sua chácara uma piscina com o formato de um paralelepípedo reto retângulo com capacidade para 90 000 L de água. O casal contratou uma empresa
        de construções que apresentou cinco projetos com diferentes combinações nas dimensões internas
        de profundidade, largura e comprimento. A piscina a ser construída terá revestimento interno em suas
        paredes e fundo com uma mesma cerâmica, e o casal irá escolher o projeto que exija a menor área de
        revestimento. As dimensões internas de profundidade, largura e comprimento, respectivamente, para
        cada um dos projetos, são: projeto I: 1,8 m, 2,0 m e 25,0 m; projeto II: 2,0 m, 5,0 m e 9,0 m; projeto III:
        1,0 m, 6,0 m e 15,0 m; projeto IV: 1,5 m, 15,0 m e 4,0 m; projeto V: 2,5 m, 3,0 m e 12,0 m.
        
        O projeto que o casal deverá escolher será o
        
        Opções:
        A) I.  
        B) II.  
        C) III.  
        D) IV.  
        E) V.
        
        Explicação:
        Devemos calcular a área das quatro faces laterais e a área da base inferior (fundo da piscina) e somar
        essas áreas para obter a área de revestimento. Logo, calculando a área de revestimento de cada
        projeto, temos: Projeto I: A = 2 x 25 + 2 x 1,8 x (2 + 25) = 147,2; Projeto II: A = 9 x 5 + 2 x 2 x (9 + 5) =
        101; Projeto III: A = 15 x 6 + 2 x 1 x (15 + 6) = 132; Projeto IV: A = 4 x 15 + 2 x 1,5 x (15 + 4) = 117;
        Projeto V: A = 3 x 12 + 2 x 2,5 x (3 + 12) = 111. Logo, o projeto com menor área de revestimento, é o
        projeto II, portanto a resposta corrreta é B.        
        
        Resposta final: B
        
        ---
        
        Agora responda à próxima pergunta seguindo o mesmo formato de raciocício passo a passo.
        """

    # Current question
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{letter}) {text}" for letter, text in zip(option_letters, options)])

    prompt = f"""{few_shot_examples}

        Pergunta:
        {question}
        
        Opções:
        {formatted_options}
        
        Explique sua resposta e depois diga a letra da alternativa correta no formato "Resposta final: X"
        """

    return prompt


## Chain-of-Verification (CoVe) template

### Plan verifications

In [415]:
def plan_verification_questions(question, baseline_answer):
    plan_prompt = f"""Dada a seguinte pergunta e resposta, gere 2 a 4 perguntas para verificar os fatos principais da resposta.

Pergunta: {question}

Resposta: {baseline_answer}

Liste as perguntas de verificação:"""
    return call_openai_api(plan_prompt)


### Execute verifications

In [416]:
def execute_verifications(verification_questions):
    verifications = []
    for q in verification_questions:
        answer = call_openai_api(q)
        verifications.append((q, answer))
    return verifications

### Generate final verified answer

In [417]:
def generate_final_verified_answer(question, original_answer, verifications, options=None):
    vtext = "\n".join([f"Q: {q}\nA: {a}" for q, a in verifications])

    option_letters = ["A", "B", "C", "D", "E"]
    options_text = ""
    if options:
        options_text = "\n".join([f"{letter}) {text}" for letter, text in zip(option_letters, options)])

    revise_prompt = f"""
Revise a resposta abaixo com base nas verificações.

Pergunta:
{question}

Alternativas:
{options_text}

Resposta original:
{original_answer}

Verificações:
{vtext}

Resposta final verificada:
[Inclua uma explicação revisada, seguida de uma linha como: "Resposta final: X", onde X é a letra da alternativa correta.]
"""
    return call_openai_api(revise_prompt)


## Self-Refine template

### Give feedback for a previous answer

In [418]:
def build_feedback_prompt(question_obj, model_output):
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{l}) {t}" for l, t in zip(option_letters, options)])

    prompt = (
        "Analise a seguinte resposta gerada para uma pergunta do ENEM. "
        "Identifique erros, falhas na argumentação ou escolha incorreta da alternativa. "
        "Aponte aspectos que podem ser melhorados.\n\n"
        f"Pergunta:\n{question}\n\n"
        f"Alternativas:\n{formatted_options}\n\n"
        f"Resposta do modelo:\n{model_output}\n\n"
        "Feedback:"
    )
    return prompt


### Refine response based on feedback

In [419]:
def build_refine_prompt(question_obj, model_output, feedback):
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{l}) {t}" for l, t in zip(option_letters, options)])

    prompt = (
        "A seguir está uma pergunta do ENEM, acompanhada de alternativas, "
        "uma resposta inicial e um feedback crítico. Escreva uma nova resposta levando em conta "
        "o feedback, explicando novamente o raciocínio e indicando a letra da alternativa correta "
        "no formato \"Resposta final: X\".\n\n"
        f"Pergunta:\n{question}\n\n"
        f"Alternativas:\n{formatted_options}\n\n"
        f"Resposta anterior:\n{model_output}\n\n"
        f"Feedback:\n{feedback}\n\n"
        "Nova resposta:"
    )
    return prompt


### Feedback iteration wrapper

In [433]:
def self_refine_enem(question_obj, max_iters=10):
    # Generate the initial chain-of-thought response
    prompt = build_cot_prompt(question_obj)
    response = call_openai_api(prompt)
    
    # Extract the final answer from the initial response
    prev_final = extract_answer_letter(response)
    
    history = [(response, None)]

    for _ in range(max_iters):
        # Generate feedback based on the current response
        fb_prompt = build_feedback_prompt(question_obj, response)
        feedback = call_openai_api(fb_prompt)

        # Build the refine prompt using the current response and feedback
        refine_prompt = build_refine_prompt(question_obj, response, feedback)
        new_response = call_openai_api(refine_prompt)
        
        # Extract the final answer from the new response
        new_final = extract_answer_letter(new_response)
        
        # If the final answer is unchanged, exit the loop
        if new_final is not None and new_final == prev_final:
            break
        
        # Update the response and the final answer for the next iteration
        response = new_response
        prev_final = new_final
        history.append((response, feedback))
    
    return response, history

## Load 2024 ENEM questions

In [421]:
import json

# Load the JSONL file line by line
data = []
with open('enem_2024.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        data.append(json.loads(line))

# Assign subject based on the index (0-indexed)
for i, entry in enumerate(data):
    if i < 45:
        subject = "Linguagens, Códigos e suas Tecnologias"
    elif i < 90:
        subject = "Ciências Humanas e suas Tecnologias"
    elif i < 135:
        subject = "Ciências da Natureza e suas Tecnologias"
    else:
        subject = "Matemática e suas Tecnologias"
    entry["subject"] = subject

# Show the first question
data[0]

{'id': 'questao_01',
 'exam': '2024',
 'IU': False,
 'ledor': False,
 'question': '## Holy War\nOh, so we can hate each other and fear each other\nWe can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in\n[…]\nOh, maybe we should love somebody\nOh, maybe we could care a little more\nSo maybe we should love somebody\nInstead of polishing the bombs of holy war\nNessa letra de canção, de Alicia Keys, que aborda um contexto de ódio e intolerância, o marcador “instead of ” introduz a ideia de',
 'alternatives': ['mudança de comportamento.',
  'panorama de conflitos.',
  'rotina de isolamento.',
  'perspectiva bélica.',
  'cenário religioso.'],
 'label': 'A',
 'figures': [],
 'description': [],
 'subject': 'Linguagens, Códigos e suas Tecnologias'}

## Connect to OpenAI API

In [422]:
from openai import OpenAI

# Read key from file
with open("openai-key.txt", "r") as f:
    api_key = f.read().strip()

client = OpenAI(api_key=api_key)

### API call

In [423]:
def call_openai_api(prompt, model="gpt-3.5-turbo", temperature=0.7):
    response = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "user", "content": prompt}
        ],
        temperature=temperature
    )
    return response.choices[0].message.content

# Test Prompting Techniques

## Test CoT

#### Test CoT with a single question

In [424]:
q = data[0]
prompt = build_cot_prompt(q)
response = call_openai_api(prompt)
predicted = extract_answer_letter(response)

print("Prompt:\n", prompt)
print("\nModel Response:\n", response)
print(f"\nPredicted: {predicted} | Ground Truth: {q['label']}")


Prompt:
 Você verá abaixo alguns exemplos de como a pergunta deve ser respondida passo a passo. Leia atentamente os exemplos e, em seguida, responda a pergunta que vem depois deles.

        ### Exemplo 1:

        Pergunta:
        Urgência emocional. Se tudo é para ontem, se a vida engata uma primeira e sai em
        disparada, se não há mais tempo para paradas estratégicas, caímos fatalmente no vício de querer
        que os amores sejam igualmente resolvidos num átimo de segundo. Temos pressa para ouvir “eu
        te amo”. Não vemos a hora de que fiquem estabelecidas as regras de convívio: somos namorados,
        ficantes, casados, amantes? Urgência emocional. Uma cilada. Associamos diversas palavras ao
        AMOR: paixão, romance, sexo, adrenalina, palpitação. Esquecemos, no entanto, da palavra que
        viabiliza esse sentimento: “paciência”. Amor sem paciência não vinga. Amor não pode ser mastigado
        e engolido com emergência, com fome desesperada. É uma refeição qu

#### CoT evaluation loop over sample questions

In [438]:
def run_cot(data):
    cot_results = []

    for i, question in enumerate(data):
        prompt = build_cot_prompt(question)
        correct_answer = question["label"]

        try:
            response = call_openai_api(prompt)
            predicted = extract_answer_letter(response)
        except Exception as e:
            response = str(e)
            predicted = None

        cot_results.append({
            "id": question["id"],
            "subject": question["subject"],
            "question": question["question"],
            "ground_truth": correct_answer,
            "predicted": predicted,
            "correct": predicted == correct_answer,
            "response": response
        })

        print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")

    return cot_results

# Call function
# cot_results = run_cot(data)

#### CoT Results

In [426]:
df_cot = pd.DataFrame(cot_results)
save_results_csv(df_cot, method_name="cot_few-shot")
df_cot

✅ Results saved to results/cot_few-shot/cot_few-shot_results_2025-03-28_16-26-01.csv


Unnamed: 0,id,subject,question,ground_truth,predicted,correct,response
0,questao_01,"Linguagens, Códigos e suas Tecnologias","## Holy War\nOh, so we can hate each other and fear each other\nWe can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in\n[…]\nOh, maybe we should love somebody\nOh, maybe we could care a little more\nSo maybe we should love somebody\nInstead of polishing the bombs of holy war\nNessa letra de canção, de Alicia Keys, que aborda um contexto de ódio e intolerância, o marcador “instead of ” introduz a ideia de",A,A,True,"A expressão ""instead of"" introduz a ideia de substituição ou troca de uma ação por outra. No contexto da letra da música, em que se fala sobre ódio, intolerância e guerra, a expressão sugere a substituição da ação de ""polishing the bombs of holy war"" por outra ação, que seria ""love somebody"". Portanto, a ideia introduzida por ""instead of"" é de mudança de comportamento, substituindo a violência e o ódio por amor e compaixão.\n\nResposta final: A"
1,questao_02,"Linguagens, Códigos e suas Tecnologias",[[placeholder]]\nO texto estabelece uma relação entre elementos da natureza e comandos de um programa de computador para,A,D,False,"Ao estabelecer uma relação entre elementos da natureza e comandos de um programa de computador, o texto busca orientar os usuários sobre o emprego sustentável das novas tecnologias. A ideia de utilizar termos relacionados à informática para falar sobre a natureza sugere a importância de uma abordagem tecnológica para lidar com questões ambientais de forma consciente e responsável.\n\nResposta final: D"
2,questao_03,"Linguagens, Códigos e suas Tecnologias",[[placeholder]]\nA relação entre as citações atribuídas ao físico Albert Einstein e ao cantor e compositor Bob Marley reside na crença de que é necessário,C,A,False,"A citação atribuída a Albert Einstein fala sobre a importância de não julgar uma pessoa baseando-se apenas na aparência, enquanto a citação atribuída a Bob Marley aborda a necessidade de ajudar e dar oportunidades às pessoas que mais precisam. Ambas as citações ressaltam a importância de não fazer pré-julgamentos e de ajudar o próximo, mesmo que não pareça necessitado.\n\nPortanto, a relação entre as duas citações reside na crença de que é necessário dar oportunidade a pessoas que parecem necessitadas.\n\nResposta final: A"
3,questao_04,"Linguagens, Códigos e suas Tecnologias",[[placeholder]]A carta da editora Stephanie Allen-Nichols à escritoraAlice Walker tem o propósito de,E,A,False,"Para responder a essa pergunta, devemos analisar o propósito da carta da editora Stephanie Allen-Nichols à escritora Alice Walker. Na carta, a editora menciona que a obra de Walker é provocativa, questionando tabus e desafiando o status quo, o que sugere que o propósito da carta não é recusar a publicação do romance de Walker, mas sim expressar admiração e interesse pela sua obra.\n\nPortanto, a alternativa correta é:\n\nResposta final: A) problematizar o enredo de sua obra."
4,questao_05,"Linguagens, Códigos e suas Tecnologias","## Borderlands/La frontera: the Nem Mestiza\nGlória Anzaldúa\nI remember being caught speaking Spanish at recess [...] I remember being sent to the corner of the classroom for “talking back” to the Anglo teacher when all I was trying to do was tell her how to pronounce my name. “If you want to be American, speak ‘American’. If you don’t like it, go back to Mexico where you belong”.\n“I want you to speak English […]”, my mother would say, mortified that I spoke English like a Mexican. At Pan American University, I and all Chicano students were required to take two speech classes. Their purpose: to get rid of our accents.\nO problema abordado nesse texto sobre imigrantes residentes nos Estados Unidos diz respeito aos prejuízos gerados pelo(a)",A,A,True,"O texto aborda o preconceito e a discriminação linguística enfrentados por imigrantes hispânicos nos Estados Unidos. Eles são incentivados a abandonar seu idioma e sotaque espanhol em favor do inglês, como forma de se assimilarem à cultura dominante. Isso gera prejuízos emocionais e culturais, pois implica em uma negação da própria identidade e origem. Portanto, a opção correta é:\n\nResposta final: A) repúdio ao sotaque espanhol no uso do inglês."
...,...,...,...,...,...,...,...
175,questao_176,Matemática e suas Tecnologias,"Atualmente, há telefones celulares com telas de diversos tamanhos e em formatos retangulares. Alguns deles apresentam telas medindo três inteiros e um meio polegadas, com determinadas especificações técnicas. Além disso, em muitos modelos, com a inclusão de novas funções no celular, suas telas ficaram maiores, sendo muito comum encontrarmos atualmente telas medindo quatro inteiros e cinco sextos polegadas, conforme a figura.\n[[placeholder]]\n\n. A diferença de tamanho, em valor absoluto, entre as medidas, em polegada, das telas do celular 2 e do celular 1, representada apenas com uma casa decimal, é",D,D,True,"Para encontrar a diferença de tamanho em polegadas entre as telas dos celulares 2 e 1, precisamos subtrair as medidas das telas. \n\nPara o celular 1, a tela mede 3.5 polegadas.\nPara o celular 2, a tela mede 4.83 polegadas.\n\nEntão, a diferença de tamanho entre as telas é:\n4.83 - 3.5 = 1.33 polegadas.\n\nPortanto, a resposta correta é a alternativa:\n\nResposta final: D) 1.3."
176,questao_177,Matemática e suas Tecnologias,"Uma imobiliária iniciou uma campanha de divulgação para promover a venda de apartamentos que podem ser pagos em 100 parcelas mensais. O valor da primeira delas é fixado no momento da compra, com o pagamento dessa primeira parcela. A partir da segunda parcela, o valor é determinado pela aplicação de um acréscimo percentual fixo ao valor da parcela anterior. Como atrativo, a imobiliária fará o pagamento de todas as parcelas correspondentes ao mês de aniversário do comprador.\nUm cliente, que faz aniversário no mês de maio, decidiu comprar um desses apartamentos por meio do financiamento oferecido pela imobiliária, e pretende escolher o mês mais adequado para realizar essa compra, de modo que o valor total dos pagamentos seja o menor possível.\nQual é o mês que esse cliente deverá escolher para realizar a compra do apartamento?",A,C,False,"Para encontrar o mês mais adequado para o cliente realizar a compra do apartamento, precisamos considerar que a imobiliária irá pagar todas as parcelas correspondentes ao mês de aniversário do comprador. Como o cliente faz aniversário em maio, o valor total dos pagamentos será menor se ele escolher o mês de maio para realizar a compra, pois todas as parcelas desse mês serão pagas pela imobiliária. Isso resultará em uma economia maior para o cliente.\n\nPortanto, o cliente deverá escolher o mês de **Maio** para realizar a compra do apartamento.\n\nResposta final: C"
177,questao_178,Matemática e suas Tecnologias,"Um professor de desenho, apresentou uma peça de 45 centímetros de comprimento e solicitou aos alunos reproduzir no papel o objeto, onde as medidas devem ser proporcionais às medidas reais, e o comprimento deste desenho tem que ser de 9 centímetros.\nA escala utilizada para realizar esse desenho é",D,D,True,"Para encontrar a escala utilizada para realizar o desenho, precisamos calcular a relação entre o comprimento real e o comprimento no desenho. \n\nComprimento real: 45 cm\nComprimento no desenho: 9 cm\n\nPara encontrar a escala, dividimos o comprimento real pelo comprimento no desenho:\n\n45 cm / 9 cm = 5\n\nPortanto, a escala utilizada para realizar o desenho é 1 para 5.\n\nResposta final: D"
178,questao_179,Matemática e suas Tecnologias,"A prefeitura de uma cidade planeja construir três postos de saúde. Esses postos devem ser construídos em locais equidistantes entre si e de forma que as distâncias desses três postos ao hospital dessa cidade sejam iguais. Foram conseguidos três locais para a construção dos postos de saúde que apresentam as características desejadas, e que distam 10 quilômetros entre si, conforme o esquema, no qual o ponto H representa o local onde está construído o hospital; os pontos P índice 1, P índice 2 e P índice 3, os postos de saúde; e esses quatro pontos estão em um mesmo plano.\n[[placeholder]]\nA distância, em quilômetro, entre o hospital e cada um dos postos de saúde, é um valor entre",C,C,True,"Para que os postos de saúde sejam equidistantes entre si e do hospital, eles devem formar um triângulo equilátero. Dessa forma, a distância entre o hospital e cada posto de saúde será igual. Como os postos de saúde estão a 10 quilômetros de distância entre si, podemos dividir essa distância igualmente entre os postos de saúde e o hospital. \n\nAssim, a distância entre o hospital e cada posto de saúde será de 5 quilômetros. Portanto, a alternativa correta é C.\n\nResposta final: C"


## Test CoVe

#### Test CoVe with a single question

In [427]:
# Step 1: Pick a question
q = data[0]
question_text = q["question"]
prompt = build_cot_prompt(q)

# Step 2: Baseline CoT answer
baseline_answer = call_openai_api(prompt)

print("🔹 Baseline CoT Answer:\n", baseline_answer)

# Step 3: Plan verification questions
verification_qs_raw = plan_verification_questions(question_text, baseline_answer)

# Split the response into individual questions if the model gives a list
verification_questions = [line.strip("- ").strip() for line in verification_qs_raw.split("\n") if line.strip()]

print("\n🔹 Verification Questions:")
for qv in verification_questions:
    print("-", qv)

# Step 4: Execute verification
verifications = execute_verifications(verification_questions)

print("\n🔹 Verification Answers:")
for qv, av in verifications:
    print(f"Q: {qv}\nA: {av}\n")

# Step 5: Generate final verified answer
final_answer = generate_final_verified_answer(question_text, baseline_answer, verifications)

print("🔹 Final Verified Answer:\n", final_answer)

# Step 6: Extract predicted letter and compare to ground truth
predicted = extract_answer_letter(final_answer)
ground_truth = q["label"]

print(f"\n✅ Predicted Answer: {predicted}")
print(f"🎯 Ground Truth: {ground_truth}")

if predicted == ground_truth:
    print("🎉 CORRECT!")
else:
    print("❌ WRONG.")


🔹 Baseline CoT Answer:
 A expressão "instead of" é utilizada para indicar uma substituição, uma troca, uma mudança de algo por outra coisa. No contexto da música, a frase "instead of polishing the bombs of holy war" sugere que ao invés de focar em preparar, aprimorar ou alimentar a guerra santa, deveríamos amar alguém, demonstrar cuidado e empatia. Portanto, a ideia introduzida por "instead of" é a de mudança de comportamento.

Resposta final: A

🔹 Verification Questions:
- 1. Qual é o significado da expressão "instead of"?
- 2. Como a expressão "instead of" é utilizada no contexto da música de Alicia Keys?
- 3. Qual é a sugestão feita pela frase "instead of polishing the bombs of holy war" na letra da música?
- 4. Que mudança de comportamento é sugerida pela expressão "instead of" na música de Alicia Keys?

🔹 Verification Answers:
Q: 1. Qual é o significado da expressão "instead of"?
A: A expressão "instead of" em inglês significa "em vez de" ou "ao invés de". É utilizada para indicar

#### CoVe evaluation loop over sample questions

In [440]:
def run_cove(data):
    cove_results = []

    for i, question in enumerate(data):
        try:
            question_text = question["question"]
            correct_answer = question["label"]

            # Build CoT-style prompt
            prompt = build_cot_prompt(question)

            # Baseline CoT response
            baseline_answer = call_openai_api(prompt)

            # Extract initial answer letter from baseline
            initial_answer_letter = extract_answer_letter(baseline_answer)

            # Plan verifications
            verification_qs_raw = plan_verification_questions(question_text, baseline_answer)
            verification_questions = [
                line.strip("- ").strip()
                for line in verification_qs_raw.split("\n")
                if line.strip()
            ]

            # Execute verifications
            verifications = execute_verifications(verification_questions)

            # Final revised answer
            final_answer = generate_final_verified_answer(
                question_text, baseline_answer, verifications, question["alternatives"]
            )

            # Extract answer letter (A–E)
            predicted = extract_answer_letter(final_answer)

            # Record result
            cove_results.append({
                "id": question["id"],
                "question": question_text,
                "ground_truth": correct_answer,
                "predicted": predicted,
                "correct": predicted == correct_answer,
                "baseline_answer": baseline_answer,
                "initial_answer": initial_answer_letter,
                "final_answer": final_answer,
                "verification_qs": verification_questions,
                "verification_a": verifications,
                "subject": question.get("subject", "unknown")
            })

            print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")

        except Exception as e:
            print(f"[{i+1}/{len(data)}] ❌ Error: {e}")
            cove_results.append({
                "index": i,
                "question": question_text,
                "true_answer": correct_answer,
                "predicted": None,
                "correct": False,
                "error": str(e)
            })

    return cove_results

# Run
# cove_results = run_cove(data)


#### CoVe results

In [429]:
df_cove = pd.DataFrame(cove_results)
save_results_csv(df_cove, method_name="cove_few-shot")
df_cove

✅ Results saved to results/cove_few-shot/cove_few-shot_results_2025-03-28_17-19-55.csv


Unnamed: 0,id,question,ground_truth,predicted,correct,baseline_answer,initial_answer,final_answer,verification_qs,verification_a,subject
0,questao_01,"## Holy War\nOh, so we can hate each other and fear each other\nWe can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in\n[…]\nOh, maybe we should love somebody\nOh, maybe we could care a little more\nSo maybe we should love somebody\nInstead of polishing the bombs of holy war\nNessa letra de canção, de Alicia Keys, que aborda um contexto de ódio e intolerância, o marcador “instead of ” introduz a ideia de",A,A,True,"A expressão ""instead of"" é utilizada para indicar substituição de uma ação por outra. No trecho da letra de música, a ideia introduzida por essa expressão é a de substituir a ação de ""polishing the bombs of holy war"" por ""love somebody"", ou seja, substituir a guerra e o ódio por amor e compaixão. Portanto, a ideia introduzida por ""instead of"" é de mudança de comportamento.\n\nResposta final: A",A,"A expressão ""instead of"" é utilizada para indicar substituição de uma ação por outra. No trecho da letra de música, a ideia introduzida por essa expressão é a de substituir a ação de ""polishing the bombs of holy war"" por ""love somebody"", ou seja, substituir a guerra e o ódio por amor e compaixão. Portanto, a ideia introduzida por ""instead of"" é de mudança de comportamento.\n\nResposta final: A","[1. Qual é o contexto abordado na letra da música de Alicia Keys?, 2. Como a expressão ""instead of"" é utilizada no trecho da música?, 3. Qual é a ação que a expressão ""instead of"" sugere substituir?, 4. Qual é a ideia de mudança de comportamento introduzida por essa expressão na música?]","[(1. Qual é o contexto abordado na letra da música de Alicia Keys?, A letra da música de Alicia Keys aborda o tema de superação, autoaceitação e autoconfiança. A canção fala sobre a importância de se manter fiel a si mesmo, mesmo diante das adversidades e pressões externas. A mensagem central da música é sobre se libertar das expectativas e padrões impostos pela sociedade, e encontrar a força interior para ser autêntico e verdadeiro consigo mesmo.), (2. Como a expressão ""instead of"" é utilizada no trecho da música?, No trecho da música, a expressão ""instead of"" é utilizada para indicar uma escolha ou ação alternativa que poderia ter sido feita no lugar daquela que foi realizada. Ela sugere uma substituição ou troca de uma opção por outra.), (3. Qual é a ação que a expressão ""instead of"" sugere substituir?, A ação que a expressão ""instead of"" sugere substituir é a ação que normalmente seria realizada em determinada situação, por outra ação diferente. É usada para indicar uma escolha alternativa, uma troca ou substituição. Por exemplo, ""Eu prefiro chocolate instead of baunilha"" significa que a pessoa prefere chocolate em vez de baunilha.), (4. Qual é a ideia de mudança de comportamento introduzida por essa expressão na música?, A ideia de mudança de comportamento introduzida por essa expressão na música é a de que é possível crescer, evoluir e se tornar uma pessoa melhor através da reflexão e da busca por autoconhecimento. A música sugere que é importante reconhecer nossos erros, aprender com eles e buscar constantemente melhorar nossas atitudes e comportamentos. Essa mensagem incentiva a transformação pessoal e a busca por uma vida mais consciente e positiva.)]","Linguagens, Códigos e suas Tecnologias"
1,questao_02,[[placeholder]]\nO texto estabelece uma relação entre elementos da natureza e comandos de um programa de computador para,A,D,False,"Para responder a essa pergunta, devemos analisar o trecho em que é estabelecida a relação entre elementos da natureza e comandos de um programa de computador. O texto menciona que ""como num programa de computador, tudo é rápido, tudo é para ontem"", comparando a rapidez dos processos naturais com a agilidade dos comandos de um programa de computador. Portanto, a relação estabelecida não tem como objetivo alertar sobre a destruição da natureza (opção A), conscientizar sobre a passagem do tempo (opção B), apresentar avanços tecnológicos na agricultura (opção C), orientar sobre o emprego sustentável de novas tecnologias (opção D) ou informar sobre o tempo de crescimento de árvores (opção E).\n\nResposta final: B",B,"A comparação estabelecida no texto entre elementos da natureza e comandos de um programa de computador tem como objetivo destacar a complexidade e interdependência das relações dentro de um sistema, seja ele natural ou artificial. A analogia ressalta a importância da organização e ordem para alcançar resultados eficientes e eficazes, além de mostrar a beleza e harmonia presentes tanto na natureza quanto na tecnologia. Portanto, a relação não tem como objetivo alertar sobre a destruição da natureza, conscientizar sobre a passagem do tempo, apresentar avanços tecnológicos na agricultura, orientar sobre o emprego sustentável de novas tecnologias ou informar sobre o tempo de crescimento de árvores.\n\nResposta final: D","[1. Qual é a relação estabelecida no texto entre elementos da natureza e comandos de um programa de computador?, 2. O que o texto compara em termos de rapidez entre elementos da natureza e comandos de um programa de computador?, 3. Qual é o objetivo da comparação feita no texto entre elementos da natureza e comandos de um programa de computador?, 4. O que o texto não tem como objetivo ao estabelecer essa relação?]","[(1. Qual é a relação estabelecida no texto entre elementos da natureza e comandos de um programa de computador?, No texto, a relação estabelecida entre elementos da natureza e comandos de um programa de computador é a analogia entre a complexidade e interconexão dos sistemas naturais com a programação de um software. Assim como na natureza, onde diferentes elementos e processos interagem de maneira complexa e interdependente, um programa de computador também é composto por uma série de comandos e algoritmos que se interligam para realizar tarefas específicas. Essa comparação destaca a sofisticação e a organização necessárias tanto na natureza quanto na programação para garantir o funcionamento adequado e eficiente dos sistemas.), (2. O que o texto compara em termos de rapidez entre elementos da natureza e comandos de um programa de computador?, O texto compara a rapidez com que elementos da natureza realizam suas ações, como um raio, um trovão e uma águia, com a rapidez com que um programa de computador executa comandos. Ele destaca que, assim como a natureza é capaz de agir instantaneamente e com extrema rapidez, um programa de computador também é capaz de executar comandos de forma quase instantânea, graças à velocidade do processamento de dados pelos computadores.), (3. Qual é o objetivo da comparação feita no texto entre elementos da natureza e comandos de um programa de computador?, O objetivo da comparação feita no texto entre elementos da natureza e comandos de um programa de computador é ilustrar a complexidade e interdependência das relações dentro de um sistema, seja ele natural ou artificial. Ao comparar a forma como os elementos da natureza interagem e se influenciam mutuamente com a forma como os comandos de um programa de computador são executados em sequência para alcançar um objetivo, o autor busca destacar a importância da organização e da ordem na obtenção de resultados eficientes e eficazes. Além disso, a comparação também ressalta a beleza e a harmonia presentes tanto na natureza quanto na tecnologia, mostrando como ambos os sistemas podem ser complexos e fascinantes em sua estrutura e funcionamento.), (4. O que o texto não tem como objetivo ao estabelecer essa relação?, O texto não tem como objetivo estabelecer uma relação de causalidade entre as informações apresentadas, nem fazer afirmações definitivas sobre a veracidade dos fatos. O objetivo não é provar que uma coisa causa a outra, mas sim mostrar uma conexão ou associação entre os elementos mencionados. Além disso, o texto não visa influenciar o leitor a tirar conclusões específicas, mas sim fornecer informações para que ele possa formar sua própria opinião.)]","Linguagens, Códigos e suas Tecnologias"
2,questao_03,[[placeholder]]\nA relação entre as citações atribuídas ao físico Albert Einstein e ao cantor e compositor Bob Marley reside na crença de que é necessário,C,C,True,"Para responder a essa pergunta, precisamos analisar as duas citações atribuídas aos personagens e identificar a relação entre elas. \n\nA citação atribuída a Albert Einstein fala sobre ""a loucura de fazer a mesma coisa repetidamente e esperar resultados diferentes"", sugerindo que é preciso mudar a abordagem para obter resultados diferentes.\n\nJá a citação atribuída a Bob Marley diz que ""você nunca sabe como forte você é até que ser forte é sua única escolha"", indicando que é preciso enfrentar desafios e adversidades para descobrir sua verdadeira força.\n\nAssim, a relação entre as duas citações está relacionada à ideia de enfrentar desafios, mudar a abordagem e buscar superar obstáculos para alcançar resultados diferentes e descobrir sua própria força. \n\nPortanto, a alternativa correta é:\n\nResposta final: C) tirar proveito de situações que podem ser adversas.",C,"Após analisar as citações atribuídas a Albert Einstein e Bob Marley, podemos concluir que a relação entre elas está relacionada à ideia de enfrentar desafios, mudar a abordagem e buscar superar obstáculos para alcançar resultados diferentes e descobrir sua própria força. Portanto, a resposta correta é:\n\nResposta final: C) tirar proveito de situações que podem ser adversas.","[1. Qual é a citação atribuída a Albert Einstein que fala sobre a loucura de fazer a mesma coisa repetidamente e esperar resultados diferentes?, 2. Qual é a citação atribuída a Bob Marley que fala sobre descobrir sua verdadeira força ao enfrentar desafios?, 3. Como a citação de Einstein sobre mudar a abordagem se relaciona com a citação de Marley sobre descobrir sua verdadeira força?, 4. De acordo com a relação entre as duas citações, qual é a principal ideia a ser destacada sobre enfrentar desafios e buscar resultados diferentes?]","[(1. Qual é a citação atribuída a Albert Einstein que fala sobre a loucura de fazer a mesma coisa repetidamente e esperar resultados diferentes?, ""A definição de insanidade é fazer a mesma coisa repetidamente e esperar resultados diferentes."" - Albert Einstein), (2. Qual é a citação atribuída a Bob Marley que fala sobre descobrir sua verdadeira força ao enfrentar desafios?, ""A maior covardia de um homem é despertar o amor de uma mulher sem a intenção de amá-la."" - Bob Marley), (3. Como a citação de Einstein sobre mudar a abordagem se relaciona com a citação de Marley sobre descobrir sua verdadeira força?, Ambas as citações falam sobre a importância de mudar a perspectiva e abordagem em relação à vida. Enquanto Einstein enfatiza a necessidade de mudar a maneira como pensamos e agimos para alcançar resultados diferentes, Marley destaca a importância de descobrir nossa verdadeira força interior para enfrentar desafios e superar obstáculos. Em essência, ambas as citações ressaltam a importância da autodescoberta e da autoaperfeiçoamento para alcançar o sucesso e a felicidade na vida.), (4. De acordo com a relação entre as duas citações, qual é a principal ideia a ser destacada sobre enfrentar desafios e buscar resultados diferentes?, A principal ideia a ser destacada é que enfrentar desafios e buscar resultados diferentes requer coragem, determinação e perseverança. É necessário sair da zona de conforto, arriscar-se e persistir mesmo diante das dificuldades e obstáculos que possam surgir. A mudança e o crescimento só acontecem quando se está disposto a enfrentar os desafios e a sair da mesmice em busca de resultados diferentes e melhores.)]","Linguagens, Códigos e suas Tecnologias"
3,questao_04,[[placeholder]]A carta da editora Stephanie Allen-Nichols à escritoraAlice Walker tem o propósito de,E,E,True,"Explicação:\nA carta da editora tem o propósito de comunicar a recusa da publicação do romance de Alice Walker. Isso fica evidente no trecho em que a editora menciona que o livro não atende aos padrões de qualidade da editora e que, por isso, não será possível continuar com a publicação. As outras opções não condizem com o conteúdo da carta, que não faz menção ao enredo da obra, ao recebimento de manuscrito, à revisão ortográfica ou à transferência do livro a outra editora.\n\nResposta final: E",E,"\nCom base nas verificações, a carta da editora Stephanie Allen-Nichols à escritora Alice Walker tem o propósito de comunicar a recusa da publicação do romance de Alice Walker devido ao conteúdo controverso e potencialmente polêmico do livro, que poderia gerar críticas negativas. A editora acredita que o livro não terá uma boa recepção do público e não será lucrativo. Portanto, a opção correta é:\n\nResposta final: E","[1. Qual é o propósito da carta da editora Stephanie Allen-Nichols à escritora Alice Walker?, 2. Por que a editora decidiu recusar a publicação do romance de Alice Walker?, 3. O que a editora menciona como motivo para não continuar com a publicação do livro de Alice Walker?, 4. A carta da editora faz menção ao enredo da obra de Alice Walker?]","[(1. Qual é o propósito da carta da editora Stephanie Allen-Nichols à escritora Alice Walker?, O propósito da carta da editora Stephanie Allen-Nichols à escritora Alice Walker é expressar gratidão e reconhecimento pelo trabalho de Walker como escritora e pelo impacto positivo que suas obras tiveram na comunidade literária e na sociedade como um todo. A carta também pode conter elogios e incentivos para que Walker continue a escrever e a compartilhar suas histórias com o mundo.), (2. Por que a editora decidiu recusar a publicação do romance de Alice Walker?, A editora decidiu recusar a publicação do romance de Alice Walker por acreditar que o conteúdo e as ideias abordadas no livro eram controversos e poderiam gerar polêmica ou desagrado entre os leitores. Além disso, a editora também pode ter considerado que o livro não teria um apelo comercial forte o suficiente para justificar o investimento na sua publicação.), (3. O que a editora menciona como motivo para não continuar com a publicação do livro de Alice Walker?, A editora menciona que não continuará com a publicação do livro de Alice Walker porque considera que o conteúdo do livro é controverso e pode gerar polêmica e críticas negativas. Além disso, a editora acredita que o livro não terá uma boa recepção do público e não será lucrativo.), (4. A carta da editora faz menção ao enredo da obra de Alice Walker?, Sim, a carta da editora faz menção ao enredo da obra de Alice Walker, ressaltando a importância da história e dos temas abordados no livro. Ela destaca a profundidade e relevância do enredo, incentivando os leitores a se envolverem com a narrativa e a refletirem sobre as questões apresentadas pela autora.)]","Linguagens, Códigos e suas Tecnologias"
4,questao_05,"## Borderlands/La frontera: the Nem Mestiza\nGlória Anzaldúa\nI remember being caught speaking Spanish at recess [...] I remember being sent to the corner of the classroom for “talking back” to the Anglo teacher when all I was trying to do was tell her how to pronounce my name. “If you want to be American, speak ‘American’. If you don’t like it, go back to Mexico where you belong”.\n“I want you to speak English […]”, my mother would say, mortified that I spoke English like a Mexican. At Pan American University, I and all Chicano students were required to take two speech classes. Their purpose: to get rid of our accents.\nO problema abordado nesse texto sobre imigrantes residentes nos Estados Unidos diz respeito aos prejuízos gerados pelo(a)",A,A,True,"Nesse texto, Glória Anzaldúa aborda o preconceito linguístico enfrentado por imigrantes residentes nos Estados Unidos, que são pressionados a abandonar sua língua materna e a adotar o inglês de forma padronizada. Isso é evidenciado pela narrativa de Anzaldúa sobre a tentativa de se livrar do sotaque e das aulas de dicção obrigatórias para estudantes chicanos. Portanto, o problema abordado diz respeito aos prejuízos gerados pelo repúdio ao sotaque espanhol no uso do inglês.\n\nResposta final: A",A,"Nesse texto, Glória Anzaldúa aborda o preconceito linguístico enfrentado por imigrantes residentes nos Estados Unidos, que são pressionados a abandonar sua língua materna e a adotar o inglês de forma padronizada. Isso é evidenciado pela narrativa de Anzaldúa sobre a tentativa de se livrar do sotaque e das aulas de dicção obrigatórias para estudantes chicanos. Portanto, o problema abordado diz respeito aos prejuízos gerados pelo repúdio ao sotaque espanhol no uso do inglês.\n\nResposta final: A","[1. Qual é o problema principal abordado por Glória Anzaldúa no texto sobre imigrantes nos Estados Unidos?, 2. Como os imigrantes residentes nos Estados Unidos são pressionados a se adaptar linguisticamente, de acordo com a narrativa de Anzaldúa?, 3. Por que os estudantes chicanos eram obrigados a fazer aulas de dicção na Pan American University?, 4. Qual é a relação entre o preconceito linguístico enfrentado pelos imigrantes nos Estados Unidos e a tentativa de se livrar do sotaque espanhol no uso do inglês, como mencionado no texto?]","[(1. Qual é o problema principal abordado por Glória Anzaldúa no texto sobre imigrantes nos Estados Unidos?, O principal problema abordado por Glória Anzaldúa no texto sobre imigrantes nos Estados Unidos é a discriminação e marginalização sofrida por esses indivíduos devido à sua origem, cultura e língua diferentes. Ela discute como os imigrantes são frequentemente tratados como cidadãos de segunda classe e enfrentam obstáculos para se integrar e serem aceitos pela sociedade americana. Anzaldúa também destaca a importância de valorizar a diversidade e as contribuições dos imigrantes para a sociedade, ao invés de marginalizá-los.), (2. Como os imigrantes residentes nos Estados Unidos são pressionados a se adaptar linguisticamente, de acordo com a narrativa de Anzaldúa?, De acordo com a narrativa de Anzaldúa, os imigrantes residentes nos Estados Unidos são pressionados a se adaptar linguisticamente através da imposição da língua dominante, o inglês. Eles são frequentemente desencorajados a falar sua língua materna e são incentivados a adotar o inglês como sua principal forma de comunicação. Essa pressão linguística pode causar sentimentos de alienação e perda de identidade cultural para os imigrantes, pois sua língua materna é uma parte fundamental de quem são e de sua conexão com suas raízes e sua cultura. A narrativa de Anzaldúa destaca a importância de preservar e valorizar a diversidade linguística e cultural dos imigrantes, em vez de forçá-los a se conformar com as normas linguísticas dominantes.), (3. Por que os estudantes chicanos eram obrigados a fazer aulas de dicção na Pan American University?, Os estudantes chicanos eram obrigados a fazer aulas de dicção na Pan American University porque a universidade acreditava que a pronúncia correta e a comunicação eficaz eram habilidades importantes para o sucesso acadêmico e profissional dos estudantes. Além disso, a universidade buscava diminuir o preconceito linguístico e cultural contra os estudantes chicanos, que muitas vezes eram discriminados por sua forma de falar. As aulas de dicção visavam, portanto, capacitar os estudantes chicanos a se expressarem de forma mais clara e confiante, contribuindo para sua integração e sucesso na sociedade.), (4. Qual é a relação entre o preconceito linguístico enfrentado pelos imigrantes nos Estados Unidos e a tentativa de se livrar do sotaque espanhol no uso do inglês, como mencionado no texto?, A relação entre o preconceito linguístico enfrentado pelos imigrantes nos Estados Unidos e a tentativa de se livrar do sotaque espanhol no uso do inglês está intimamente ligada à discriminação e estereótipos enfrentados por esses indivíduos. Muitos imigrantes hispânicos são alvo de preconceito devido à sua origem étnica e ao seu sotaque ao falar inglês, o que pode resultar em discriminação no ambiente de trabalho, na educação e na sociedade em geral.\n\nPor isso, muitos imigrantes hispânicos tentam se livrar do sotaque espanhol ao falar inglês como uma forma de se integrar melhor e evitar o preconceito linguístico. Essa tentativa de suprimir o sotaque pode ser vista como uma adaptação forçada para se encaixar nos padrões linguísticos da sociedade dominante, em busca de aceitação e oportunidades iguais.\n\nNo entanto, é importante ressaltar que a diversidade linguística e cultural deve ser valorizada e respeitada, e que não há um padrão único de fala que determine a competência ou inteligência de um indivíduo. O preconceito linguístico é uma forma de discriminação que precisa ser combatida, e a valorização da diversidade linguística é essencial para construir uma sociedade mais inclusiva e justa.)]","Linguagens, Códigos e suas Tecnologias"
...,...,...,...,...,...,...,...,...,...,...,...
175,questao_176,"Atualmente, há telefones celulares com telas de diversos tamanhos e em formatos retangulares. Alguns deles apresentam telas medindo três inteiros e um meio polegadas, com determinadas especificações técnicas. Além disso, em muitos modelos, com a inclusão de novas funções no celular, suas telas ficaram maiores, sendo muito comum encontrarmos atualmente telas medindo quatro inteiros e cinco sextos polegadas, conforme a figura.\n[[placeholder]]\n\n. A diferença de tamanho, em valor absoluto, entre as medidas, em polegada, das telas do celular 2 e do celular 1, representada apenas com uma casa decimal, é",D,B,False,"Vamos calcular a diferença de tamanho das telas dos celulares 1 e 2:\n\nPara o celular 1: 3 1/2 polegadas\nPara o celular 2: 4 5/6 polegadas\n\nConvertendo as frações mistas em frações comuns:\nCelular 1: 3 1/2 = 7/2 polegadas\nCelular 2: 4 5/6 = 29/6 polegadas\n\nA diferença absoluta entre as medidas das telas é:\n|7/2 - 29/6| = |21/6 - 29/6| = |-8/6| = 4/3 = 1.3\n\nPortanto, a diferença de tamanho, em valor absoluto, entre as medidas das telas do celular 2 e do celular 1 é 1.3 polegadas.\n\nResposta final: D) 1,3.",D,"Após as verificações realizadas, foi determinado que a diferença de tamanho, em valor absoluto, entre as medidas das telas do celular 2 e do celular 1 é de 0,5 polegadas. Portanto, a resposta correta é:\n\nResposta final: B) 0,5.","[1. Qual é a medida da tela do celular 1 em polegadas, considerando o formato misto?, 2. Qual é a medida da tela do celular 2 em polegadas, considerando o formato misto?, 3. Como foi feita a conversão das frações mistas para frações comuns?, 4. Qual é a diferença de tamanho, em valor absoluto, entre as medidas das telas do celular 2 e do celular 1, em polegadas?]","[(1. Qual é a medida da tela do celular 1 em polegadas, considerando o formato misto?, Para determinar a medida da tela do celular 1 em polegadas, considerando o formato misto, é necessário saber as dimensões da tela em centímetros e a proporção do formato. Com essas informações, é possível calcular a medida da tela em polegadas.\n\nPor exemplo, se a tela do celular 1 tem as seguintes dimensões em centímetros: altura = 12 cm e largura = 6 cm, e o formato misto é de 16:9, podemos calcular a diagonal da tela utilizando o teorema de Pitágoras:\n\nDiagonal = √(altura^2 + largura^2)\nDiagonal = √(12^2 + 6^2)\nDiagonal = √(144 + 36)\nDiagonal = √180\nDiagonal ≈ 13,42 cm\n\nPara converter essa medida para polegadas, podemos dividir o valor por 2,54 (já que 1 cm é aproximadamente igual a 0,39 polegadas):\n\n13,42 cm ÷ 2,54 ≈ 5,28 polegadas\n\nPortanto, a medida da tela do celular 1 em polegadas, considerando o formato misto, é de aproximadamente 5,28 polegadas.), (2. Qual é a medida da tela do celular 2 em polegadas, considerando o formato misto?, A medida da tela do celular 2 em polegadas, considerando o formato misto, é de 6,4 polegadas.), (3. Como foi feita a conversão das frações mistas para frações comuns?, Para converter uma fração mista em uma fração comum, primeiro multiplicamos o número inteiro pelo denominador da fração e, em seguida, somamos o numerador. O resultado dessa operação será o novo numerador da fração comum, mantendo o mesmo denominador. \n\nPor exemplo, se tivermos a fração mista 2 1/3, primeiro multiplicamos o número inteiro 2 pelo denominador 3, resultando em 6. Em seguida, somamos o numerador 1, resultando em 7. Assim, a fração mista 2 1/3 é convertida para a fração comum 7/3.), (4. Qual é a diferença de tamanho, em valor absoluto, entre as medidas das telas do celular 2 e do celular 1, em polegadas?, Para encontrar a diferença de tamanho, em valor absoluto, entre as medidas das telas do celular 2 e do celular 1, basta subtrair o tamanho da tela do celular 1 do tamanho da tela do celular 2 e então aplicar o valor absoluto.\n\nTamanho da tela do celular 2: 6,3 polegadas\nTamanho da tela do celular 1: 5,8 polegadas\n\nDiferença de tamanho: |6,3 - 5,8| = |0,5| = 0,5 polegadas\n\nPortanto, a diferença de tamanho, em valor absoluto, entre as medidas das telas do celular 2 e do celular 1 é de 0,5 polegadas.)]",Matemática e suas Tecnologias
176,questao_177,"Uma imobiliária iniciou uma campanha de divulgação para promover a venda de apartamentos que podem ser pagos em 100 parcelas mensais. O valor da primeira delas é fixado no momento da compra, com o pagamento dessa primeira parcela. A partir da segunda parcela, o valor é determinado pela aplicação de um acréscimo percentual fixo ao valor da parcela anterior. Como atrativo, a imobiliária fará o pagamento de todas as parcelas correspondentes ao mês de aniversário do comprador.\nUm cliente, que faz aniversário no mês de maio, decidiu comprar um desses apartamentos por meio do financiamento oferecido pela imobiliária, e pretende escolher o mês mais adequado para realizar essa compra, de modo que o valor total dos pagamentos seja o menor possível.\nQual é o mês que esse cliente deverá escolher para realizar a compra do apartamento?",A,C,False,"Para encontrar o mês mais adequado para o cliente realizar a compra do apartamento, precisamos analisar o benefício de ter as parcelas pagas pela imobiliária no mês de aniversário. Como o cliente faz aniversário em maio, se ele comprar em maio, terá todas as parcelas pagas nesse mesmo mês, o que significa que não precisará pagar nenhuma parcela. Portanto, o valor total dos pagamentos será o menor possível se ele comprar o apartamento em maio.\n\nResposta final: C",C,"Para encontrar o mês mais adequado para o cliente realizar a compra do apartamento e obter o menor valor total dos pagamentos, é importante considerar o benefício oferecido pela imobiliária de pagar as parcelas correspondentes ao mês de aniversário do comprador. Como o cliente faz aniversário em maio, se ele comprar o apartamento nesse mês, todas as parcelas serão pagas pela imobiliária, resultando em nenhum pagamento adicional por parte do cliente. Portanto, o cliente deve escolher o mês de maio para realizar a compra do apartamento.\n\nResposta final: C","[1. Qual é o benefício oferecido pela imobiliária ao cliente no mês de aniversário?, 2. Qual é o mês de aniversário do cliente?, 3. Qual é a condição para que o cliente não precise pagar nenhuma parcela?, 4. Qual é o critério utilizado para determinar o valor das parcelas a partir da segunda parcela?]","[(1. Qual é o benefício oferecido pela imobiliária ao cliente no mês de aniversário?, A imobiliária oferece um desconto especial no aluguel ou na compra de um imóvel para o cliente no mês de aniversário.), (2. Qual é o mês de aniversário do cliente?, Desculpe, sem informações adicionais não é possível determinar o mês de aniversário do cliente.), (3. Qual é a condição para que o cliente não precise pagar nenhuma parcela?, A condição para que o cliente não precise pagar nenhuma parcela é se ele realizar o pagamento total do produto ou serviço à vista.), (4. Qual é o critério utilizado para determinar o valor das parcelas a partir da segunda parcela?, O critério utilizado para determinar o valor das parcelas a partir da segunda parcela pode variar dependendo do tipo de parcelamento. Alguns critérios comuns incluem:\n\n1. Juros: Em muitos casos, as parcelas subsequentes podem incluir juros sobre o saldo devedor restante. Isso significa que o valor total a ser pago ao final do parcelamento será maior do que o valor original da compra devido à inclusão dos juros.\n\n2. Amortização: Em alguns casos, as parcelas subsequentes podem incluir uma parte do valor principal da dívida, conhecida como amortização. Isso significa que o valor total da dívida diminuirá a cada parcela paga, o que pode resultar em parcelas de valores variáveis ao longo do tempo.\n\n3. Taxas e encargos: Algumas formas de parcelamento podem incluir taxas e encargos adicionais a partir da segunda parcela, o que pode aumentar o valor total a ser pago.\n\nEm resumo, o critério utilizado para determinar o valor das parcelas a partir da segunda parcela pode envolver juros, amortização, taxas e encargos, dependendo das condições do parcelamento em questão. É importante ler atentamente o contrato de parcelamento para entender como o valor das parcelas é calculado.)]",Matemática e suas Tecnologias
177,questao_178,"Um professor de desenho, apresentou uma peça de 45 centímetros de comprimento e solicitou aos alunos reproduzir no papel o objeto, onde as medidas devem ser proporcionais às medidas reais, e o comprimento deste desenho tem que ser de 9 centímetros.\nA escala utilizada para realizar esse desenho é",D,D,True,"Para encontrar a escala utilizada para realizar o desenho, podemos calcular a razão entre o comprimento real do objeto e o comprimento do desenho. \n\nComprimento real do objeto: 45 cm\nComprimento do desenho: 9 cm\n\nRazão = Comprimento real / Comprimento do desenho\nRazão = 45 cm / 9 cm\nRazão = 5\n\nPortanto, a escala utilizada para realizar o desenho é 1 para 5. \n\nResposta final: D",D,"Para encontrar a escala utilizada para realizar o desenho, foi calculada a razão entre o comprimento real do objeto e o comprimento do desenho. Com um comprimento real do objeto de 45 cm e um comprimento do desenho de 9 cm, a razão foi de 5. Portanto, a escala utilizada para realizar o desenho é 1 para 5.\n\nResposta final: D","[1. Qual era o comprimento real do objeto apresentado pelo professor de desenho?, 2. Qual era o comprimento do desenho solicitado aos alunos?, 3. Como foi calculada a razão entre o comprimento real do objeto e o comprimento do desenho?, 4. Qual foi a escala utilizada para realizar o desenho, levando em consideração a razão calculada?]","[(1. Qual era o comprimento real do objeto apresentado pelo professor de desenho?, Desculpe, não consigo responder a essa pergunta sem mais informações sobre o objeto em questão. Poderia fornecer mais detalhes para que eu possa ajudar?), (2. Qual era o comprimento do desenho solicitado aos alunos?, O comprimento do desenho solicitado aos alunos era de 20 centímetros.), (3. Como foi calculada a razão entre o comprimento real do objeto e o comprimento do desenho?, A razão entre o comprimento real do objeto e o comprimento do desenho foi calculada dividindo o comprimento real do objeto pelo comprimento do desenho. Por exemplo, se o comprimento real do objeto é de 10 metros e o comprimento do desenho é de 2 metros, a razão seria 10/2 = 5. Isso significa que cada unidade de comprimento no desenho representa 5 unidades de comprimento no objeto real.), (4. Qual foi a escala utilizada para realizar o desenho, levando em consideração a razão calculada?, A escala utilizada para realizar o desenho foi de 1:100, levando em consideração a razão calculada entre o tamanho real do objeto e o tamanho do desenho. Isso significa que cada unidade de medida no desenho representa 100 unidades de medida no objeto real.)]",Matemática e suas Tecnologias
178,questao_179,"A prefeitura de uma cidade planeja construir três postos de saúde. Esses postos devem ser construídos em locais equidistantes entre si e de forma que as distâncias desses três postos ao hospital dessa cidade sejam iguais. Foram conseguidos três locais para a construção dos postos de saúde que apresentam as características desejadas, e que distam 10 quilômetros entre si, conforme o esquema, no qual o ponto H representa o local onde está construído o hospital; os pontos P índice 1, P índice 2 e P índice 3, os postos de saúde; e esses quatro pontos estão em um mesmo plano.\n[[placeholder]]\nA distância, em quilômetro, entre o hospital e cada um dos postos de saúde, é um valor entre",C,C,True,"Para encontrar a distância entre o hospital e cada um dos postos de saúde, podemos utilizar o conceito de ponto médio. Como os postos de saúde devem ser equidistantes entre si, a distância entre eles é de 10 km. Assim, se dividirmos essa distância por 2, teremos a distância do hospital até cada um dos postos.\n\nPortanto, a distância entre o hospital e cada um dos postos de saúde será de 5 km.\n\nResposta final: C",C,"Para encontrar a distância entre o hospital e cada um dos postos de saúde, podemos utilizar o conceito de ponto médio. Como os postos de saúde devem ser equidistantes entre si, a distância entre eles é de 10 km. Portanto, dividindo essa distância por 2, teremos a distância do hospital até cada um dos postos.\n\nAssim, a distância entre o hospital e cada um dos postos de saúde será de 5 km.\n\nResposta final: C","[1. Como podemos encontrar a distância entre o hospital e cada um dos postos de saúde?, 2. Qual é a distância entre os postos de saúde, conforme as características desejadas?, 3. Qual é a distância entre o hospital e os postos de saúde, considerando que os postos são equidistantes entre si?, 4. Qual a distância, em quilômetros, entre o hospital e cada um dos postos de saúde no caso apresentado?]","[(1. Como podemos encontrar a distância entre o hospital e cada um dos postos de saúde?, Uma maneira de encontrar a distância entre o hospital e cada um dos postos de saúde é utilizando um sistema de geolocalização, como o Google Maps. Você pode inserir as coordenadas geográficas de cada local (hospital e postos de saúde) no Google Maps e ele irá fornecer a distância exata entre os pontos em quilômetros ou metros. Outra opção seria utilizar um software de georreferenciamento, como o ArcGIS, que permite calcular distâncias entre pontos geográficos de forma mais precisa e personalizada.), (2. Qual é a distância entre os postos de saúde, conforme as características desejadas?, A distância entre os postos de saúde pode variar dependendo das características desejadas. Em geral, é recomendado que os postos de saúde estejam localizados a uma distância que seja acessível para a população atendida, garantindo que todos tenham fácil acesso aos serviços de saúde. \n\nEm áreas urbanas, a distância ideal entre os postos de saúde pode ser de aproximadamente 1 a 2 km, para garantir que a população tenha fácil acesso aos serviços de saúde. Já em áreas rurais ou remotas, onde a população pode estar mais dispersa, a distância entre os postos de saúde pode ser maior, podendo chegar a 5 ou 10 km, dependendo da disponibilidade de transporte e das necessidades da população atendida. \n\nÉ importante considerar também a infraestrutura de transporte disponível, a densidade populacional, a distribuição geográfica da população e a disponibilidade de recursos para garantir que a distância entre os postos de saúde seja adequada para atender às necessidades da comunidade.), (3. Qual é a distância entre o hospital e os postos de saúde, considerando que os postos são equidistantes entre si?, Para determinar a distância entre o hospital e os postos de saúde, precisamos saber a distância entre cada posto de saúde e o hospital, bem como a localização exata de cada um deles. Se os postos de saúde são equidistantes entre si, podemos assumir que a distância entre o hospital e cada posto de saúde é a mesma. \n\nSe soubermos a distância entre o hospital e um posto de saúde, podemos simplesmente multiplicar essa distância pelo número de postos de saúde para encontrar a distância total entre o hospital e os postos de saúde. \n\nPor exemplo, se a distância entre o hospital e um posto de saúde é de 1 km, e há 5 postos de saúde, a distância total entre o hospital e os postos de saúde será de 1 km x 5 = 5 km. \n\nPortanto, a distância total entre o hospital e os postos de saúde será a distância entre o hospital e um posto de saúde multiplicada pelo número de postos de saúde.), (4. Qual a distância, em quilômetros, entre o hospital e cada um dos postos de saúde no caso apresentado?, - Posto de saúde A: 3 km\n- Posto de saúde B: 5 km\n- Posto de saúde C: 2 km\n- Posto de saúde D: 6 km)]",Matemática e suas Tecnologias


## Test Self-Refine

#### Test Self-Refine with a single question 

In [430]:
q = data[0]
final_response, trace = self_refine_enem(q)
predicted = extract_answer_letter(final_response)

print("Prompt inicial (iteração 0):\n", build_cot_prompt(q))
print("\nResposta final após refinamento:\n", final_response)
print(f"\nAlternativa prevista: {predicted} | Gabarito: {q['label']}")

print("\nHistórico de iterações:")
for i, (resp, fb) in enumerate(trace):
    print(f"\n--- Iteração {i} ---")
    print("Resposta:", resp)
    if fb:
        print("Feedback:", fb)


Prompt inicial (iteração 0):
 Você verá abaixo alguns exemplos de como a pergunta deve ser respondida passo a passo. Leia atentamente os exemplos e, em seguida, responda a pergunta que vem depois deles.

        ### Exemplo 1:

        Pergunta:
        Urgência emocional. Se tudo é para ontem, se a vida engata uma primeira e sai em
        disparada, se não há mais tempo para paradas estratégicas, caímos fatalmente no vício de querer
        que os amores sejam igualmente resolvidos num átimo de segundo. Temos pressa para ouvir “eu
        te amo”. Não vemos a hora de que fiquem estabelecidas as regras de convívio: somos namorados,
        ficantes, casados, amantes? Urgência emocional. Uma cilada. Associamos diversas palavras ao
        AMOR: paixão, romance, sexo, adrenalina, palpitação. Esquecemos, no entanto, da palavra que
        viabiliza esse sentimento: “paciência”. Amor sem paciência não vinga. Amor não pode ser mastigado
        e engolido com emergência, com fome desespera

#### Self-Refine evaluation loop over sample questions

In [442]:
def run_self_refine(data):
    self_refine_results = []

    for i, question in enumerate(data):
        try:
            question_text = question["question"]
            correct_answer = question["label"]

            # Run SELF-REFINE
            final_answer, trace = self_refine_enem(question, max_iters=3)
            predicted = extract_answer_letter(final_answer)

            # Extract intermediate answers from trace
            answer_sequence = []
            baseline_answer = None

            for step, (response, feedback) in enumerate(trace):
                try:
                    letter = extract_answer_letter(response)
                except Exception:
                    letter = None
                answer_sequence.append(letter)
                if step == 0:
                    baseline_answer = response

            # Record result
            self_refine_results.append({
                "id": question["id"],
                "question": question_text,
                "ground_truth": correct_answer,
                "predicted": predicted,
                "correct": predicted == correct_answer,
                "initial_answer": extract_answer_letter(baseline_answer),
                "final_answer": final_answer,
                "answer_sequence": answer_sequence,
                "baseline_answer": baseline_answer,
                "trace": trace,
                "subject": question.get("subject", "unknown")
            })

            print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")

        except Exception as e:
            print(f"[{i+1}/{len(data)}] ❌ Error: {e}")
            self_refine_results.append({
                "id": i,
                "question": question.get("question", ""),
                "ground_truth": question.get("label", ""),
                "predicted": None,
                "correct": False,
                "error": str(e),
                "subject": question.get("subject", "unknown")
            })

    return self_refine_results

# Run
# self_refine_results = run_self_refine(data)


#### Self-Refine Results

In [None]:
df_self_refine = pd.DataFrame(self_refine_results)
save_results_csv(df_self_refine, method_name="self-refine_few-shot")
df_self_refine

## Test all methods - Loop

In [None]:
num_iterations = 3 

for iteration in range(num_iterations):
    print(f"\n=== Iteration {iteration + 1} of {num_iterations} ===")
    
    # --- CoT ---
    cot_results = run_cot(data)
    df_cot = pd.DataFrame(cot_results)
    save_results_csv(df_cot, method_name=f"cot_few-shot")
    print("CoT results saved to CSV.")
    
    # --- CoVe ---
    cove_results = run_cove(data)
    df_cove = pd.DataFrame(cove_results)
    save_results_csv(df_cove, method_name=f"cove_few-shot")
    print("CoVe results saved to CSV.")
    
    # --- Self-Refine ---
    self_refine_results = run_self_refine(data)
    df_self_refine = pd.DataFrame(self_refine_results)
    save_results_csv(df_self_refine, method_name=f"self-refine_few-shot")
    print("Self-Refine results saved to CSV.")


=== Iteration 1 of 3 ===
[1/180] ✅ Predicted: A | Correct: A
[2/180] ✅ Predicted: D | Correct: A
[3/180] ✅ Predicted: A | Correct: C
[4/180] ✅ Predicted: D | Correct: E
[5/180] ✅ Predicted: A | Correct: A
[6/180] ✅ Predicted: C | Correct: C
[7/180] ✅ Predicted: B | Correct: B
[8/180] ✅ Predicted: E | Correct: E
[9/180] ✅ Predicted: A | Correct: D
[10/180] ✅ Predicted: A | Correct: A
[11/180] ✅ Predicted: D | Correct: D
[12/180] ✅ Predicted: E | Correct: E
