# Setup

## Helper methods

### Extract multiple-choice answer from response

In [1]:
import re

def extract_answer_letter(response):
    # Match "Resposta final: C)" or "Resposta final: C"
    match = re.search(r"resposta final\s*[:\-]?\s*([A-E])\s*\)?", response, re.IGNORECASE | re.DOTALL)
    if not match:
        # Try fallback patterns
        match = re.search(r"letra\s+([A-E])\b", response, re.IGNORECASE)
    return match.group(1).upper() if match else None

### Calculate overall accuracy of answers

In [2]:
def calculate_accuracy(results):
    """Returns overall accuracy and count of None predictions from a list of result dicts."""
    total_answered = sum(1 for r in results if r["predicted"] is not None)
    correct = sum(r["correct"] for r in results if r["predicted"] is not None)
    total = len(results)
    none_count = total - total_answered
    accuracy = (correct / total_answered) * 100 if total_answered > 0 else 0
    return correct, total_answered, accuracy, none_count

### Group results by subject

In [3]:
import pandas as pd

def results_by_subject(results):
    """Aggregates accuracy grouped by subject"""
    df = pd.DataFrame(results)
    if "subject" not in df.columns:
        print("⚠️ 'subject' not found in results.")
        return None
    
    summary = df.groupby("subject")["correct"].agg(["sum", "count"])
    summary["accuracy (%)"] = (summary["sum"] / summary["count"]) * 100
    return summary

### Save results to csv file

In [4]:
from datetime import datetime
import os

def save_results_csv(df, method_name):
    """
    Save a DataFrame as a CSV file in a 'results/<method_name>' subfolder with a timestamped filename.

    Parameters:
    - df: pandas DataFrame to save
    - method_name: e.g., 'cot', 'cov', 'self-refine'

    Returns:
    - The full filename used
    """
    # Define target folder and create it if needed
    folder = os.path.join("results", method_name)
    os.makedirs(folder, exist_ok=True)

    # Create timestamped filename
    timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
    filename = os.path.join(folder, f"{method_name}_results_{timestamp}.csv")

    # Save the file
    df.to_csv(filename, index=False)
    print(f"✅ Results saved to {filename}")
    return filename

## Chain-of-Thought (CoT) template

In [5]:
def build_cot_prompt(question_obj):
    
    few_shot_examples = """Você verá abaixo alguns exemplos de como a pergunta deve ser respondida passo a passo. Leia atentamente os exemplos e, em seguida, responda a pergunta que vem depois deles.
    
        ### Exemplo 1:
        
        Pergunta:
        Urgência emocional. Se tudo é para ontem, se a vida engata uma primeira e sai em
        disparada, se não há mais tempo para paradas estratégicas, caímos fatalmente no vício de querer
        que os amores sejam igualmente resolvidos num átimo de segundo. Temos pressa para ouvir “eu
        te amo”. Não vemos a hora de que fiquem estabelecidas as regras de convívio: somos namorados,
        ficantes, casados, amantes? Urgência emocional. Uma cilada. Associamos diversas palavras ao
        AMOR: paixão, romance, sexo, adrenalina, palpitação. Esquecemos, no entanto, da palavra que
        viabiliza esse sentimento: “paciência”. Amor sem paciência não vinga. Amor não pode ser mastigado
        e engolido com emergência, com fome desesperada. É uma refeição que pode durar uma vida.
        MEDEIROS, M. Disponível em: http://porumavidasimples.blogspot.com.br. Acesso em: 20 ago. 2017
        (adaptado).   
        
        Nesse texto de opinião, as marcas linguísticas revelam uma situação distensa e de pouca formalidade, o que se evidencia pelo(a)
        
        Opções:
        A) A impessoalização ao longo do texto, com em: “se não há mais tempo”.
        B) A construção de uma atmosfera de urgência, em palavras como: “pressa”.
        C) A repetição de uma determinada estrutura sintática, como em: “Se tudo é para ontem”.
        D) O ênfase no emprego de hipérboles, como em: “uma reflexão que pode durar uma vida”.
        E) O emprego de metáforas, como em: “a vida engata uma primeira e sai em disparada”.
        
        Explicação:
        O texto é escrito em uma linguagem leve, ágil, e de pouca formalidade. Além disso, possui figuras de
        linguagem, como metáforas e hipérboles, que não são excludentes. Em uma análise sequencial das
        alternativas, daria para afirmar que D. e E. estão corretas. Entretanto, observando em detalhes, nota-se
        que a expressão "emprego de metáforas" mostra ser mais adequada do que "ênfase no emprego da
        hipérbole", visto que, para afirmarmos que o uso de hipérboles foi enfatizado, a figura de linguagem
        deveria ter aparecido mais vezes. Isso torna a alternativa E. mais provável de ser CORRETA. Além
        disso, impessoalização não deve ser apontada como marca de pouca formalidade. Existe também uma
        atmosfera de urgência, mas que é criticada no texto que destaca a importância da paciência e não da
        pressa. Por fim, a estrutura sintática não é repetida sistematicamente ao longo do texto.         
        
        Resposta final: E
        
        ---
        
        ### Exemplo 2:
        
        Pergunta:
        Sempre que a relevância do discurso entra em jogo, a questão torna-se política por
        definição, pois é o discurso que faz do homem um ser político. E tudo que os homens fazem, sabem
        ou experimentam só tem sentido na medida em que pode ser discutido. Haverá, talvez, verdades que
        ficam além da linguagem e que podem ser de grande relevância para o homem no singular, isto é, para
        o homem que, seja o que for, não é um ser político. Mas homens no plural, isto é, os homens que vivem
        e se movem e agem neste mundo, só podem experimentar o significado das coisas por poderem falar
        e ser inteligíveis entre si e consigo mesmos. ARENDT, H. A condição humana. Rio de Janeiro: Forense
        Universitária, 2004.
        
        No trecho, a filósofa Hannah Arendt mostra a importância da linguagem no processo de
        
        Opções:
        A) entendimento da cultura.
        B) aumento da criatividade.
        C) percepção da individualidade.
        D) melhoria da técnica.
        E) construção da sociabilidade.
        
        Explicação:
        Hannah Arendt defende em sua obra que somos seres políticos, no sentido próprio de vivermos
        em pólis, em ambiente coletivo e social. E essa sociabilidade só é possível por meio do discurso,
        da linguagem. Desse modo, podemos concluir que a linguagem se apresenta como uma importante
        ferramenta para a construção da sociabilidade, e portanto a alternativa E. é a CORRETA. Além disso,
        não se trata do entendimento da cultura, mas da relação social entre as pessoas dessa cultura. Hannah
        também não fala sobre aumento de criatividade, tampouco sobre técnica. Por fim, a linguagem é
        utilizada em algo mais coletivo e social, justamente o oposto da individualidade.      
        
        Resposta final: E­­
        
        ---
        
        ### Exemplo 3:
        
        Pergunta:
        Um casal planeja construir em sua chácara uma piscina com o formato de um paralelepípedo reto retângulo com capacidade para 90 000 L de água. O casal contratou uma empresa
        de construções que apresentou cinco projetos com diferentes combinações nas dimensões internas
        de profundidade, largura e comprimento. A piscina a ser construída terá revestimento interno em suas
        paredes e fundo com uma mesma cerâmica, e o casal irá escolher o projeto que exija a menor área de
        revestimento. As dimensões internas de profundidade, largura e comprimento, respectivamente, para
        cada um dos projetos, são: projeto I: 1,8 m, 2,0 m e 25,0 m; projeto II: 2,0 m, 5,0 m e 9,0 m; projeto III:
        1,0 m, 6,0 m e 15,0 m; projeto IV: 1,5 m, 15,0 m e 4,0 m; projeto V: 2,5 m, 3,0 m e 12,0 m.
        
        O projeto que o casal deverá escolher será o
        
        Opções:
        A) I.  
        B) II.  
        C) III.  
        D) IV.  
        E) V.
        
        Explicação:
        Devemos calcular a área das quatro faces laterais e a área da base inferior (fundo da piscina) e somar
        essas áreas para obter a área de revestimento. Logo, calculando a área de revestimento de cada
        projeto, temos: Projeto I: A = 2 x 25 + 2 x 1,8 x (2 + 25) = 147,2; Projeto II: A = 9 x 5 + 2 x 2 x (9 + 5) =
        101; Projeto III: A = 15 x 6 + 2 x 1 x (15 + 6) = 132; Projeto IV: A = 4 x 15 + 2 x 1,5 x (15 + 4) = 117;
        Projeto V: A = 3 x 12 + 2 x 2,5 x (3 + 12) = 111. Logo, o projeto com menor área de revestimento, é o
        projeto II, portanto a resposta corrreta é B.        
        
        Resposta final: B
        
        ---
        
        Agora responda à próxima pergunta seguindo o mesmo formato de raciocício passo a passo.
        """

    # Current question
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{letter}) {text}" for letter, text in zip(option_letters, options)])

    prompt = f"""{few_shot_examples}

        Pergunta:
        {question}
        
        Opções:
        {formatted_options}
        
        Explique sua resposta e depois diga a letra da alternativa correta no formato "Resposta final: X"
        """

    return prompt


## Chain-of-Verification (CoVe) template

### Plan verifications

In [6]:
def plan_verification_questions(question, baseline_answer):
    plan_prompt = f"""Dada a seguinte pergunta e resposta, gere 2 a 4 perguntas para verificar os fatos principais da resposta.

Pergunta: {question}

Resposta: {baseline_answer}

Liste as perguntas de verificação:"""
    return call_openai_api(plan_prompt)


### Execute verifications

In [7]:
def execute_verifications(verification_questions):
    verifications = []
    for q in verification_questions:
        answer = call_openai_api(q)
        verifications.append((q, answer))
    return verifications

### Generate final verified answer

In [8]:
def generate_final_verified_answer(question, original_answer, verifications, options=None):
    vtext = "\n".join([f"Q: {q}\nA: {a}" for q, a in verifications])

    option_letters = ["A", "B", "C", "D", "E"]
    options_text = ""
    if options:
        options_text = "\n".join([f"{letter}) {text}" for letter, text in zip(option_letters, options)])

    revise_prompt = f"""
Revise a resposta abaixo com base nas verificações.

Pergunta:
{question}

Alternativas:
{options_text}

Resposta original:
{original_answer}

Verificações:
{vtext}

Resposta final verificada:
[Inclua uma explicação revisada, seguida de uma linha como: "Resposta final: X", onde X é a letra da alternativa correta.]
"""
    return call_openai_api(revise_prompt)


## Self-Refine template

### Give feedback for a previous answer

In [9]:
def build_feedback_prompt(question_obj, model_output):
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{l}) {t}" for l, t in zip(option_letters, options)])

    prompt = (
        "Analise a seguinte resposta gerada para uma pergunta do ENEM. "
        "Identifique erros, falhas na argumentação ou escolha incorreta da alternativa. "
        "Aponte aspectos que podem ser melhorados.\n\n"
        f"Pergunta:\n{question}\n\n"
        f"Alternativas:\n{formatted_options}\n\n"
        f"Resposta do modelo:\n{model_output}\n\n"
        "Feedback:"
    )
    return prompt


### Refine response based on feedback

In [10]:
def build_refine_prompt(question_obj, model_output, feedback):
    question = question_obj["question"]
    options = question_obj["alternatives"]
    option_letters = ["A", "B", "C", "D", "E"]
    formatted_options = "\n".join([f"{l}) {t}" for l, t in zip(option_letters, options)])

    prompt = (
        "A seguir está uma pergunta do ENEM, acompanhada de alternativas, "
        "uma resposta inicial e um feedback crítico. Escreva uma nova resposta levando em conta "
        "o feedback, explicando novamente o raciocínio e indicando a letra da alternativa correta "
        "no formato \"Resposta final: X\".\n\n"
        f"Pergunta:\n{question}\n\n"
        f"Alternativas:\n{formatted_options}\n\n"
        f"Resposta anterior:\n{model_output}\n\n"
        f"Feedback:\n{feedback}\n\n"
        "Nova resposta:"
    )
    return prompt


### Feedback iteration wrapper

In [11]:
def self_refine_enem(question_obj, max_iters=10):
    # Generate the initial chain-of-thought response
    prompt = build_cot_prompt(question_obj)
    response = call_openai_api(prompt)
    
    # Extract the final answer from the initial response
    prev_final = extract_answer_letter(response)
    
    history = [(response, None)]

    for _ in range(max_iters):
        # Generate feedback based on the current response
        fb_prompt = build_feedback_prompt(question_obj, response)
        feedback = call_openai_api(fb_prompt)

        # Build the refine prompt using the current response and feedback
        refine_prompt = build_refine_prompt(question_obj, response, feedback)
        new_response = call_openai_api(refine_prompt)
        
        # Extract the final answer from the new response
        new_final = extract_answer_letter(new_response)
        
        # If the final answer is unchanged, exit the loop
        if new_final is not None and new_final == prev_final:
            break
        
        # Update the response and the final answer for the next iteration
        response = new_response
        prev_final = new_final
        history.append((response, feedback))
    
    return response, history

## Load 2024 ENEM questions

In [12]:
import json

# Load the JSONL file line by line
data = []
with open('enem_2024.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        data.append(json.loads(line))

# Assign subject based on the index (0-indexed)
for i, entry in enumerate(data):
    if i < 45:
        subject = "Linguagens, Códigos e suas Tecnologias"
    elif i < 90:
        subject = "Ciências Humanas e suas Tecnologias"
    elif i < 135:
        subject = "Ciências da Natureza e suas Tecnologias"
    else:
        subject = "Matemática e suas Tecnologias"
    entry["subject"] = subject

# Show the first question
data[0]

{'id': 'questao_01',
 'exam': '2024',
 'IU': False,
 'ledor': False,
 'question': '## Holy War\nOh, so we can hate each other and fear each other\nWe can build these walls between each other Baby, blow by blow and brick by brick Keep yourself locked in, yourself locked in\n[…]\nOh, maybe we should love somebody\nOh, maybe we could care a little more\nSo maybe we should love somebody\nInstead of polishing the bombs of holy war\nNessa letra de canção, de Alicia Keys, que aborda um contexto de ódio e intolerância, o marcador “instead of ” introduz a ideia de',
 'alternatives': ['mudança de comportamento.',
  'panorama de conflitos.',
  'rotina de isolamento.',
  'perspectiva bélica.',
  'cenário religioso.'],
 'label': 'A',
 'figures': [],
 'description': [],
 'subject': 'Linguagens, Códigos e suas Tecnologias'}

## Connect to OpenAI API

In [14]:
from openai import OpenAI

# Read key from file
with open("openai-key.txt", "r") as f:
    api_key = f.read().strip()

client = OpenAI(api_key=api_key)

### API call

In [15]:
def call_openai_api(prompt, model="gpt-3.5-turbo", temperature=0.7):
    response = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "user", "content": prompt}
        ],
        temperature=temperature
    )
    return response.choices[0].message.content

# Test Prompting Techniques

## Test CoT

#### Test CoT with a single question

In [16]:
q = data[0]
prompt = build_cot_prompt(q)
response = call_openai_api(prompt)
predicted = extract_answer_letter(response)

print("Prompt:\n", prompt)
print("\nModel Response:\n", response)
print(f"\nPredicted: {predicted} | Ground Truth: {q['label']}")


Prompt:
 Você verá abaixo alguns exemplos de como a pergunta deve ser respondida passo a passo. Leia atentamente os exemplos e, em seguida, responda a pergunta que vem depois deles.

        ### Exemplo 1:

        Pergunta:
        Urgência emocional. Se tudo é para ontem, se a vida engata uma primeira e sai em
        disparada, se não há mais tempo para paradas estratégicas, caímos fatalmente no vício de querer
        que os amores sejam igualmente resolvidos num átimo de segundo. Temos pressa para ouvir “eu
        te amo”. Não vemos a hora de que fiquem estabelecidas as regras de convívio: somos namorados,
        ficantes, casados, amantes? Urgência emocional. Uma cilada. Associamos diversas palavras ao
        AMOR: paixão, romance, sexo, adrenalina, palpitação. Esquecemos, no entanto, da palavra que
        viabiliza esse sentimento: “paciência”. Amor sem paciência não vinga. Amor não pode ser mastigado
        e engolido com emergência, com fome desesperada. É uma refeição qu

#### CoT evaluation loop over sample questions

In [17]:
def run_cot(data):
    cot_results = []

    for i, question in enumerate(data):
        prompt = build_cot_prompt(question)
        correct_answer = question["label"]

        try:
            response = call_openai_api(prompt)
            predicted = extract_answer_letter(response)
        except Exception as e:
            response = str(e)
            predicted = None

        cot_results.append({
            "id": question["id"],
            "subject": question["subject"],
            "question": question["question"],
            "ground_truth": correct_answer,
            "predicted": predicted,
            "correct": predicted == correct_answer,
            "response": response
        })

        print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")

    return cot_results


## Test CoVe

#### Test CoVe with a single question

In [18]:
# Step 1: Pick a question
q = data[0]
question_text = q["question"]
prompt = build_cot_prompt(q)

# Step 2: Baseline CoT answer
baseline_answer = call_openai_api(prompt)

print("🔹 Baseline CoT Answer:\n", baseline_answer)

# Step 3: Plan verification questions
verification_qs_raw = plan_verification_questions(question_text, baseline_answer)

# Split the response into individual questions if the model gives a list
verification_questions = [line.strip("- ").strip() for line in verification_qs_raw.split("\n") if line.strip()]

print("\n🔹 Verification Questions:")
for qv in verification_questions:
    print("-", qv)

# Step 4: Execute verification
verifications = execute_verifications(verification_questions)

print("\n🔹 Verification Answers:")
for qv, av in verifications:
    print(f"Q: {qv}\nA: {av}\n")

# Step 5: Generate final verified answer
final_answer = generate_final_verified_answer(question_text, baseline_answer, verifications)

print("🔹 Final Verified Answer:\n", final_answer)

# Step 6: Extract predicted letter and compare to ground truth
predicted = extract_answer_letter(final_answer)
ground_truth = q["label"]

print(f"\n✅ Predicted Answer: {predicted}")
print(f"🎯 Ground Truth: {ground_truth}")

if predicted == ground_truth:
    print("🎉 CORRECT!")
else:
    print("❌ WRONG.")


🔹 Baseline CoT Answer:
 A expressão "instead of" é utilizada para indicar uma substituição ou troca de uma ação por outra. No contexto da letra da música, em que se fala sobre ódio e intolerância, a expressão "instead of polishing the bombs of holy war" sugere que, em vez de alimentar a guerra santa, seria mais adequado amar alguém e se importar mais com o próximo. Portanto, o marcador "instead of" introduz a ideia de mudança de comportamento.

Resposta final: A

🔹 Verification Questions:
- 1. Qual é o significado da expressão "instead of"?
- 2. O que a expressão "instead of polishing the bombs of holy war" sugere na letra da música?
- 3. Como a expressão "instead of" é utilizada no contexto da música de Alicia Keys?
- 4. Qual é a mensagem principal transmitida pela música em relação ao ódio e intolerância?

🔹 Verification Answers:
Q: 1. Qual é o significado da expressão "instead of"?
A: A expressão "instead of" significa "em vez de" ou "ao invés de", sendo utilizada para indicar que a

#### CoVe evaluation loop over sample questions

In [19]:
def run_cove(data):
    cove_results = []

    for i, question in enumerate(data):
        try:
            question_text = question["question"]
            correct_answer = question["label"]

            # Build CoT-style prompt
            prompt = build_cot_prompt(question)

            # Baseline CoT response
            baseline_answer = call_openai_api(prompt)

            # Extract initial answer letter from baseline
            initial_answer_letter = extract_answer_letter(baseline_answer)

            # Plan verifications
            verification_qs_raw = plan_verification_questions(question_text, baseline_answer)
            verification_questions = [
                line.strip("- ").strip()
                for line in verification_qs_raw.split("\n")
                if line.strip()
            ]

            # Execute verifications
            verifications = execute_verifications(verification_questions)

            # Final revised answer
            final_answer = generate_final_verified_answer(
                question_text, baseline_answer, verifications, question["alternatives"]
            )

            # Extract answer letter (A–E)
            predicted = extract_answer_letter(final_answer)

            # Record result
            cove_results.append({
                "id": question["id"],
                "question": question_text,
                "ground_truth": correct_answer,
                "predicted": predicted,
                "correct": predicted == correct_answer,
                "baseline_answer": baseline_answer,
                "initial_answer": initial_answer_letter,
                "final_answer": final_answer,
                "verification_qs": verification_questions,
                "verification_a": verifications,
                "subject": question.get("subject", "unknown")
            })

            print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")

        except Exception as e:
            print(f"[{i+1}/{len(data)}] ❌ Error: {e}")
            cove_results.append({
                "index": i,
                "question": question_text,
                "true_answer": correct_answer,
                "predicted": None,
                "correct": False,
                "error": str(e)
            })

    return cove_results

## Test Self-Refine

#### Test Self-Refine with a single question 

In [20]:
q = data[0]
final_response, trace = self_refine_enem(q)
predicted = extract_answer_letter(final_response)

print("Prompt inicial (iteração 0):\n", build_cot_prompt(q))
print("\nResposta final após refinamento:\n", final_response)
print(f"\nAlternativa prevista: {predicted} | Gabarito: {q['label']}")

print("\nHistórico de iterações:")
for i, (resp, fb) in enumerate(trace):
    print(f"\n--- Iteração {i} ---")
    print("Resposta:", resp)
    if fb:
        print("Feedback:", fb)


Prompt inicial (iteração 0):
 Você verá abaixo alguns exemplos de como a pergunta deve ser respondida passo a passo. Leia atentamente os exemplos e, em seguida, responda a pergunta que vem depois deles.

        ### Exemplo 1:

        Pergunta:
        Urgência emocional. Se tudo é para ontem, se a vida engata uma primeira e sai em
        disparada, se não há mais tempo para paradas estratégicas, caímos fatalmente no vício de querer
        que os amores sejam igualmente resolvidos num átimo de segundo. Temos pressa para ouvir “eu
        te amo”. Não vemos a hora de que fiquem estabelecidas as regras de convívio: somos namorados,
        ficantes, casados, amantes? Urgência emocional. Uma cilada. Associamos diversas palavras ao
        AMOR: paixão, romance, sexo, adrenalina, palpitação. Esquecemos, no entanto, da palavra que
        viabiliza esse sentimento: “paciência”. Amor sem paciência não vinga. Amor não pode ser mastigado
        e engolido com emergência, com fome desespera

#### Self-Refine evaluation loop over sample questions

In [21]:
def run_self_refine(data):
    self_refine_results = []

    for i, question in enumerate(data):
        try:
            question_text = question["question"]
            correct_answer = question["label"]

            # Run SELF-REFINE
            final_answer, trace = self_refine_enem(question, max_iters=3)
            predicted = extract_answer_letter(final_answer)

            # Extract intermediate answers from trace
            answer_sequence = []
            baseline_answer = None

            for step, (response, feedback) in enumerate(trace):
                try:
                    letter = extract_answer_letter(response)
                except Exception:
                    letter = None
                answer_sequence.append(letter)
                if step == 0:
                    baseline_answer = response

            # Record result
            self_refine_results.append({
                "id": question["id"],
                "question": question_text,
                "ground_truth": correct_answer,
                "predicted": predicted,
                "correct": predicted == correct_answer,
                "initial_answer": extract_answer_letter(baseline_answer),
                "final_answer": final_answer,
                "answer_sequence": answer_sequence,
                "baseline_answer": baseline_answer,
                "trace": trace,
                "subject": question.get("subject", "unknown")
            })

            print(f"[{i+1}/{len(data)}] ✅ Predicted: {predicted} | Correct: {correct_answer}")

        except Exception as e:
            print(f"[{i+1}/{len(data)}] ❌ Error: {e}")
            self_refine_results.append({
                "id": i,
                "question": question.get("question", ""),
                "ground_truth": question.get("label", ""),
                "predicted": None,
                "correct": False,
                "error": str(e),
                "subject": question.get("subject", "unknown")
            })

    return self_refine_results

## Test all methods - Loop

In [26]:
num_iterations = 40

for iteration in range(num_iterations):
    print(f"\n=== Iteration {iteration + 1} of {num_iterations} ===")

    # --- CoVe ---
    cove_results = run_cove(data)
    df_cove = pd.DataFrame(cove_results)
    save_results_csv(df_cove, method_name=f"cove_few-shot")
    print("CoVe results saved to CSV.")
    
    # --- Self-Refine ---
    self_refine_results = run_self_refine(data)
    df_self_refine = pd.DataFrame(self_refine_results)
    save_results_csv(df_self_refine, method_name=f"self-refine_few-shot")
    print("Self-Refine results saved to CSV.")
    
    # --- CoT ---
    cot_results = run_cot(data)
    df_cot = pd.DataFrame(cot_results)
    save_results_csv(df_cot, method_name=f"cot_few-shot")
    print("CoT results saved to CSV.")



=== Iteration 1 of 2 ===
[1/180] ✅ Predicted: A | Correct: A
[2/180] ✅ Predicted: D | Correct: A
[3/180] ✅ Predicted: E | Correct: C
[4/180] ✅ Predicted: E | Correct: E
[5/180] ✅ Predicted: A | Correct: A
[6/180] ✅ Predicted: C | Correct: C
[7/180] ✅ Predicted: B | Correct: B
[8/180] ✅ Predicted: E | Correct: E
[9/180] ✅ Predicted: A | Correct: D
[10/180] ✅ Predicted: A | Correct: A
[11/180] ✅ Predicted: D | Correct: D
[12/180] ✅ Predicted: E | Correct: E
[13/180] ✅ Predicted: E | Correct: E
[14/180] ✅ Predicted: B | Correct: B
[15/180] ✅ Predicted: D | Correct: D
[16/180] ✅ Predicted: D | Correct: D
[17/180] ✅ Predicted: B | Correct: B
[18/180] ✅ Predicted: D | Correct: D
[19/180] ✅ Predicted: B | Correct: B
[20/180] ✅ Predicted: B | Correct: B
[21/180] ✅ Predicted: D | Correct: C
[22/180] ✅ Predicted: A | Correct: E
[23/180] ✅ Predicted: E | Correct: E
[24/180] ✅ Predicted: B | Correct: C
[25/180] ✅ Predicted: B | Correct: B
[26/180] ✅ Predicted: C | Correct: D
[27/180] ✅ Predicted: