# **Modelo Especialista em POSCOMP via Destila√ß√£o**

> Este notebook documenta o processo de constru√ß√£o de um modelo pequeno e eficiente, especializado em resolver e gerar quest√µes do exame POSCOMP (P√≥s-Gradua√ß√£o em Computa√ß√£o), utilizando a t√©cnica de **Destila√ß√£o de Conhecimento**.

Ao inv√©s de treinar um modelo do zero ou utilizar um LLM gen√©rico, aplicamos a destila√ß√£o para transmitir o racioc√≠nio de um modelo de grande porte (professor) para um modelo menor (aluno), especializado no dom√≠nio do POSCOMP.

O POSCOMP possui uma estrutura fixa de conte√∫dos e tipos de quest√µes, o que o torna um √≥timo candidato para especializa√ß√£o por meio de modelos compactos. Usar um LLM gigantesco √© desnecess√°rio: um modelo pequeno, bem treinado e com bom racioc√≠nio, √© mais eficiente e acess√≠vel.

Partindo dessa necessidade, tivemos a ideia de aplicar **Destila√ß√£o de Conhecimento** para ‚Äúensinar‚Äù uma LLM menor, de 4 bilh√µes de par√¢metros (o **Qwen3 4B**), a ‚Äúconhecer‚Äù em profundidade o POSCOMP. Nosso pipeline prova que, com uma sequ√™ncia bem estruturada, √© poss√≠vel chegar perto da performance de um modelo muito maior (o **DeepSeek R1 Turbo**), mas gastando pouqu√≠ssimo recurso computacional.

O pipeline divide-se em quatro etapas:

1. **Estrutura√ß√£o dos Dados**
2. **Extra√ß√£o do Conhecimento do Professor**
3. **Treinamento do Modelo Aluno**
4. **Aplica√ß√£o do Budget Forcing**

Nas pr√≥ximas se√ß√µes, detalho cada etapa, explicando motiva√ß√µes, escolhas t√©cnicas e como cada fase contribui para ter, no final, um modelo leve, r√°pido e especializado no POSCOMP.

# **1¬™ Etapa - Estrutura√ß√£o dos Dados**

> O ponto de partida de qualquer treinamento √© ter **dados bem estruturados**. No nosso caso, coletamos **1000 quest√µes reais** do POSCOMP e organizamos tudo em um **arquivo JSON**. Veja o trecho abaixo.

```json
{
  "edicao": 2023,
  "id": "2023-08",
  "numero": 8,
  "enunciado": "Determine os intervalos da fun√ß√£o \\(ùëì(ùë•) = 5ùë•^2\\sqrt{ùë• + 1}\\).",
  "alternativas": [
    "a) \\(ùêº = (‚àí1, ‚àí\\frac{4}{5}) ; ùêº = (‚àí\\frac{4}{5}, 0) ; ùêº = (0, \\infty)\\)",
    "b) \\(ùêº = (‚àí\\infty, ‚àí \\frac{4}{5}) ; ùêº = (‚àí\\frac{4}{5}, 0) ; ùêº = (0, \\infty)\\)",
    "c) \\(ùêº = (‚àí1, 0); ùêº = (0, 1); ùêº = (1, \\infty)\\)",
    "d) \\(ùêº = (‚àí1, 1); ùêº = (1,\\frac{5}{4}) ; ùêº = (\\frac{5}{4},\\infty)\\)",
    "e) \\(ùêº = (‚àí‚àû, ‚àí1); ùêº = (‚àí1, 1); ùêº = (1, ‚àû)\\)"
  ],
  "area_conhecimento": "Matem√°tica",
  "area": "C√°lculo Diferencial e Integral",
  "subarea": "Fun√ß√µes Reais de uma Vari√°vel: Continuidade e Diferenciabilidade",
  "dificuldade": "F√°cil",
  "gabarito": "A",
  "dificuldade_experimental": "Muito Dif√≠cil"
  "raciocinio": ""
}
  


## **2¬™ Etapa - Extra√ß√£o do Conhecimento do Modelo Professor**

Ap√≥s a estrutura√ß√£o dos dados, enviamos as 1000 quest√µes para um modelo professor com o objetivo de capturar n√£o apenas a resposta correta, mas todo o racioc√≠nio envolvido na resolu√ß√£o.

> O foco aqui √© obter explica√ß√µes ricas e detalhadas.  
> Mais importante do que a resposta final √© entender o caminho l√≥gico que o modelo percorre para chegar at√© ela.

Em termos de c√≥digo, a rotina √© simples: iteramos sobre as 1000 entradas do JSON e enviamos ao professor. Logo em seguida, capturamos a resposta e guardamos o texto completo no campo `"raciocinio"` de sa√≠da. Assim, o JSON resultante mant√©m todos os campos originais e acrescenta o bloco textual do racioc√≠nio.

Por√©m, o ‚Äúsegredo‚Äù n√£o est√° no loop em si, e sim **no design do prompt**. Precisamos garantir que:
1. O professor apresente cada **etapa de racioc√≠nio**, descrevendo f√≥rmulas, decis√µes intermedi√°rias, escolha de teoremas ou estruturas de dados, at√© chegar √† resposta.
2. Haja **consist√™ncia de formato** entre um racioc√≠nio e outro, para que o aluno possa generalizar padr√µes.

Para uso, fizemos uso de duas t√©cnicas de Engenharia de Prompt:
1. **Chain of Thought (CoT)**: permite que o modelo ‚Äúpense em voz alta‚Äù, quebrando o racioc√≠nio em subetapas numeradas ou em par√°grafos distintos. Em vez de simplesmente ‚ÄúResponder: letra B‚Äù, pedimos:

  > ‚ÄúPense passo a passo, em voz alta, explicando cada passo.‚Äù

2. **Few-Shot Examples**: antes de apresentar a quest√£o-alvo, inclu√≠mos dois exemplos resolvidos **por completo**. Cada exemplo mostra:

  1. o enunciado;
  2. as alternativas;
  3. o racioc√≠nio em 4‚Äì6 passos (formata√ß√£o clara: ‚Äú1. ‚Ä¶‚Äù, ‚Äú2. ‚Ä¶‚Äù, etc.);
  4. a resposta final (por exemplo, ‚ÄúResposta: A‚Äù).

Abaixo, veja o prompt utilizado e a execu√ß√£o do c√≥digo para 1 quest√£o de exemplo.

## C√≥digo da 2¬™ Etapa

### Prompt
```python
SYSTEM_PROMPT = (
      "Voc√™ √© um professor experiente em ensino de Ci√™ncia da Computa√ß√£o, com foco em ajudar estudantes a entender as quest√µes do POSCOMP.\n\n"

      "Objetivo:\n"
      "Analisar e resolver cada quest√£o passo a passo, explicando detalhadamente cada decis√£o tomada no processo.\n\n"

      "Princ√≠pios orientadores:\n"
      "- Simule seu ‚Äúprocesso de pensamento‚Äù, explicando cada etapa e racioc√≠nio.\n"
      "- Explique todos os conceitos e teorias aplicadas.\n"
      "- Em quest√µes de programa√ß√£o, destaque a l√≥gica por tr√°s do algoritmo.\n"
      "- Em quest√µes matem√°ticas, mostre os c√°lculos claramente, passo a passo.\n"
      "- Evite repetir o texto da quest√£o ou suas alternativas.\n"
      "- Reforce a explica√ß√£o com pseudoc√≥digo, f√≥rmulas ou diagramas, se necess√°rio.\n"
      "- Use uma linguagem simples e clara, como em uma tutoria particular para alunos brasileiros.\n"
      "- Finalize com: RESPOSTA FINAL: (letra).\n\n"
      "- **NUNCA** use outro idioma que n√£o seja o portugu√™s em suas respostas.\n"

      "Objetivo: Garantir que o aluno compreenda o conte√∫do, e n√£o apenas memorize respostas."
)
```

### Data

> 1 quest√£o apenas, serve para testes.

```json
[
  {
    "edicao": 2019,
    "id": "2019-09",
    "numero": 9,
    "enunciado": "Simplifique, com a ajuda dos Mapas de Karnaugh, a fun√ß√£o cuja express√£o em termos\ncan√¥nicos √©: \\(ùëì(ùë•, ùë¶, ùëß) = ‚àë ùëö(2,3,4,5,6,7)\\)",
    "alternativas": [
      "a) \\(ùëì(ùëã, ùëå, ùëç) = ùëã + ùëå\\)",
      "b) \\(ùëì(ùëã, ùëå, ùëç) = ùëã + ùëå + ùëç\\)",
      "c) \\(ùëì(ùëã, ùëå, ùëç) = \\bar{ùëã} + ùëå\\)",
      "d) \\(ùëì(ùëã, ùëå, ùëç) = ùëãùëå + ùëå\\)",
      "e) \\(ùëì(ùëã, ùëå, ùëç) = ùëã + ùëå + \\bar{Z}\\)"
    ],
    "area_conhecimento": "Matem√°tica",
    "area": "Matem√°tica Discreta",
    "subarea": "Minimiza√ß√£o de Fun√ß√µes Booleanas",
    "dificuldade": "F√°cil",
    "gabarito": "A",
    "solucao": "Para simplificar a fun√ß√£o booleana f(x, y, z) = Œ£m(2,3,4,5,6,7) usando o Mapa de Karnaugh, primeiro devemos identificar as combina√ß√µes de vari√°veis correspondentes aos mintermos dados. As combina√ß√µes s√£o: 010, 011, 100, 101, 110, 111. No Mapa de Karnaugh 3x3, essas posi√ß√µes s√£o preenchidas com 1. A configura√ß√£o do mapa √© a seguinte:\n\n| xz \\ y | 00 | 01 | 11 | 10 |\n|--------|----|----|----|----|\n| 0      |  0 |  1 |  1 |  0 |\n| 1      |  0 |  1 |  1 |  1 |\n\nAgrupando os 1s adjacentes, podemos formar dois grupos: um grupo de quatro 1s (abrangendo as posi√ß√µes 011, 111, 101, 001) e um grupo de dois 1s (abrangendo as posi√ß√µes 110, 111). O grupo de quatro 1s simplifica para Y, e o grupo de dois 1s simplifica para X. Assim, a express√£o simplificada da fun√ß√£o √© f(X, Y, Z) = X + Y.",
    "dificuldade_experimental": "Muito Dif√≠cil"
  }
]
```

### Calculadora de Custos

```python
class CostCalculator:

    # Mude os custos nesse m√©todo
    def __init__(self, price_per_million_input=1, price_per_million_output=3):
        # Custo de entrada
        self.input_price = price_per_million_input / 1_000_000
        # Custo de sa√≠da
        self.output_price = price_per_million_output / 1_000_000
        self.total_input = 0
        self.total_output = 0

    def add_tokens(self, input_tokens, output_tokens):
        self.total_input += input_tokens
        self.total_output += output_tokens

    def calculate(self):
        input_cost = self.total_input * self.input_price
        output_cost = self.total_output * self.output_price
        total_cost = input_cost + output_cost
        return {
            "input_tokens": self.total_input,
            "output_tokens": self.total_output,
            "input_cost": input_cost,
            "output_cost": output_cost,
            "total_cost": total_cost,
        }

    def print_summary(self, total_time):
        result = self.calculate()
        print(f"\nTotal execution time: {total_time:.2f} seconds")
        print(f"Total input tokens: {result['input_tokens']}")
        print(f"Total output tokens: {result['output_tokens']}")
        print(f"Input cost: ${result['input_cost']:.6f}")
        print(f"Output cost: ${result['output_cost']:.6f}")
        print(f"Estimated total cost: ${result['total_cost']:.6f}")
```

### Processamento das Quest√µes

```python
import json
import os
import time

from dotenv import load_dotenv  # pip3 install python-dotenv
from openai import OpenAI  # pip3 install openai

from tokens.cost_calculator import CostCalculator


class Distillation:

    def __init__(self):
        self.openai = self._initialize_openai()
        self.calculator = CostCalculator()

    def _initialize_openai(self):
        """
        Initializes and returns an instance of the OpenAI API configured for DeepInfra.
        Automatically loads the key from the DEEPINFRA_API_KEY environment variable.
        """
        load_dotenv()
        return OpenAI(
            api_key=os.getenv("DEEPINFRA_API_KEY"),  # export DEEPINFRA_API_KEY="..."
            base_url="https://api.deepinfra.com/v1/openai",
        )

    def load_questions(self, file_path):
        """
        Loads and returns the content of a JSON file containing the questions.
        """
        with open(file_path, "r", encoding="utf-8") as f:
            return json.load(f)

    def save_questions_with_reasoning(self, questions, output_path):
        """
        Saves a list of questions, now with explanations, to a JSON file.
        """
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(questions, f, ensure_ascii=False, indent=2)

    def _generate_explanation(self, base_prompt, question, model):
        """
        Generates the explanation for a question using the DeepInfra API via streaming.
        """
        instruction = "ATTENTION: REASON IN PORTUGUESE! DO NOT USE ENGLISH AT ANY POINT. THINK OUT LOUD: 'Estou pensando que...'\n"
        user_message = (
            f"POSCOMP Question {question['id']}\n\n{question['enunciado']}\n\n"
            + "\n".join(question["alternativas"])
            + f"\n\n{instruction}"
        )

        print(f"\nüîπ Processing question {question['id']}...\n")

        try:
            stream = self.openai.chat.completions.create(
                model=model,
                messages=[
                    {
                        "role": "system",
                        "content": base_prompt + " USE PORTUGUESE LANGUAGE",
                    },
                    {
                        "role": "user",
                        "content": f"{user_message}\nPlease explain the reasoning in Portuguese.",
                    },
                ],
                temperature=0.4,
                stream=True,
            )

            explanation = ""
            usage = None

            for chunk in stream:
                if chunk.choices[0].delta and chunk.choices[0].delta.content:
                    content = chunk.choices[0].delta.content
                    print(content, end="", flush=True)
                    explanation += content
                if chunk.usage:
                    usage = chunk.usage
            return explanation, usage

        except Exception as e:
            error = f"[ERROR WHILE QUERYING THE MODEL]: {str(e)}"
            print(error)
            return error, None

    def process_questions(self, output_path, questions, base_prompt, model):
        questions_with_reasoning = []
        start_time = time.time()

        for question in questions:
            explanation, usage = self._generate_explanation(
                base_prompt, question, model
            )

            question_with_reasoning = question.copy()
            question_with_reasoning["reasoning"] = explanation  # changed key to English
            questions_with_reasoning.append(question_with_reasoning)

            if usage:
                self.calculator.add_tokens(usage.prompt_tokens, usage.completion_tokens)

            # Save the questions processed so far
            self.save_questions_with_reasoning(questions_with_reasoning, output_path)

        total_time = time.time() - start_time
        self.calculator.print_summary(total_time)

        return questions_with_reasoning
```

### Main

```python
from distillation.distillation_teacher import Distillation
from prompts.prompt import PromptPOSCOMP


def main():

    # Lembra de mudar os custos na classe tokens/cost_calculator.py
    # Lembra do export DEEPINFRA_API_KEY="...""

    # √â interessante rodar o teste.json antes do amostra_poscomp.json
    # Verificar se t√° tudo certo no ambiente
    input_path = "data/teste.json"
    output_path = "data/raciocinio.json"

    distiller = Distillation()
    questions = distiller.load_questions(input_path)

    base_prompt_teacher = PromptPOSCOMP.get()
    teacher_model = "Qwen/Qwen3-32B"
    distiller.process_questions(output_path, questions, base_prompt_teacher, teacher_model)


if __name__ == "__main__":
    main()
)
```

## **T√©rmino da 2¬™ Etapa - JSON com Racioc√≠nio**

* **Cobertura**: conseguimos racioc√≠nios coerentes em **100% das 1000 quest√µes**. Em casos mais complicados (por exemplo, quest√µes de Banco de Dados com m√∫ltiplos join conditions), o DeepSeek gerou em m√©dia 6-8 passos de racioc√≠nio.
* **Qualidade**: revisamos manualmente uma amostra de 200 racioc√≠nios e constatamos que **>95%** das explica√ß√µes estavam corretas tanto em l√≥gica quanto em nota√ß√£o.
* **Homogeneidade**: gra√ßas ao Few-Shot, todos os racioc√≠nios seguiram um padr√£o semelhante, facilitando o fine-tuning do aluno.

> Com o racioc√≠nio do modelo capturado, n√≥s temos o nosso JSON completo.
Veja um trecho abaixo.

```json
{
  "id": "2024-66",
  "statement": "Assinale a alternativa correta.",
  "alternatives": [
    "a) O protocolo IP √© baseado em datagramas e orientado √† conex√£o.",
    "b) O protocolo IP funciona segundo melhor esfor√ßo poss√≠vel garantindo a entrega de mensagens.",
    "c) O protocolo IP √© conhecido como a cola da Internet porque ele permite que outros protocolos sejam usados no seu lugar.",
    "d) V√°rias c√≥pias de um pacote IP podem ser entregues.",
    "e) O datagrama IP identifica o destinat√°rio atrav√©s dos campos porta de destino e n√∫mero IP de\ndestino."
  ],
  "area_knowledge": "Tecnologia de Computa√ß√£o",
  "area": "Redes de Computadores",
  "subarea": "Protocolos e Servi√ßos de Comunica√ß√£o",
  "answer": "D",
  "reasoning": "Okay, vou analisar cada alternativa cuidadosamente para entender qual √© a correta. Primeiro, preciso lembrar das caracter√≠sticas do protocolo IP.\n\nA alternativa A diz que o IP √© baseado em datagramas e orientado √† conex√£o. Hmm, sei que o IP √© um protocolo de rede que usa datagramas, mas orientado √† conex√£o n√£o faz sentido. Protocolos orientados √† conex√£o, como o TCP, estabelecem uma conex√£o antes de enviar dados. J√° o IP √© n√£o orientado √† conex√£o, ou seja, sem estabelecimento pr√©vio. Ent√£o a A est√° errada.\n\nA alternativa B afirma que o IP funciona com melhor esfor√ßo e garante entrega. O melhor esfor√ßo (best effort) √© correto, pois o IP tenta entregar os pacotes, mas n√£o garante. Quem garante entrega √© o TCP. Portanto, a B est√° errada tamb√©m.\n\nA C diz que o IP √© a cola da Internet porque permite outros protocolos serem usados no lugar. Isso n√£o faz sentido. Na verdade, o IP √© fundamental para a Internet, e outros protocolos funcionam sobre ele (como TCP e UDP). Acho que a \"cola\" se refere ao fato de interligar redes diferentes, mas a explica√ß√£o da alternativa est√° confusa. Talvez a C esteja incorreta.\n\nA D menciona que v√°rias c√≥pias de um pacote IP podem ser entregues. Lembro que o IP n√£o controla duplica√ß√£o de pacotes. Se um roteador encaminhar o mesmo pacote mais de uma vez, ou se houver retransmiss√µes n√£o controladas, isso pode acontecer. Ent√£o a D parece correta.\n\nA E diz que o datagrama IP identifica o destinat√°rio com porta de destino e IP. Mas o IP lida apenas com endere√ßos IP. As portas s√£o parte das camadas de transporte, como TCP e UDP. Portanto, a E est√° errada.\n\nRevisando: a resposta correta √© a D.\n\nAn√°lise das Alternativas:\n\n1. Alternativa A:\n   O protocolo IP √© baseado em datagramas (correto), mas n√£o √© orientado √† conex√£o. Protocolos orientados √† conex√£o, como o TCP, garantem entrega e controle de fluxo, enquanto o IP √© n√£o confi√°vel e n√£o estabelece conex√£o pr√©via.\n   Errada.\n\n2. Alternativa B:\n   O IP opera em melhor esfor√ßo (best effort), ou seja, tenta entregar pacotes, mas n√£o garante entrega, integridade ou ordem. Quem garante entrega √© o TCP.\n   Errada.\n\n3. Alternativa C:\n   O IP √© considerado a \"cola da Internet\" porque interliga redes heterog√™neas, permitindo comunica√ß√£o global. Por√©m, n√£o permite que outros protocolos sejam usados no seu lugar (ex.: TCP/UDP funcionam sobre o IP).\n   Errada.\n\n4. Alternativa D:\n   O IP n√£o controla duplica√ß√£o de pacotes. Em redes com rotas redundantes ou retransmiss√µes, v√°rias c√≥pias de um mesmo pacote podem chegar ao destino. Isso √© uma caracter√≠stica intr√≠nseca do IP.\n   Correta.\n\n5. Alternativa E:\n   O datagrama IP identifica o destinat√°rio apenas pelo endere√ßo IP de destino. As portas s√£o parte da camada de transporte (TCP/UDP), n√£o do IP.\n   Errada.\n\nExplica√ß√£o Detalhada da Alternativa D:\nO IP √© um protocolo n√£o confi√°vel e n√£o orientado √† conex√£o. Se um roteador ou caminho de rede gerar duplicatas (ex.: retransmiss√µes por timeout), o IP n√£o possui mecanismos para detectar ou evitar isso. Assim, pacotes podem chegar em m√∫ltiplas c√≥pias ao destino, cabendo a protocolos de camadas superiores (como o TCP) gerenciar essas situa√ß√µes.\n\nRESPOSTA FINAL: D"
}
```

## **3¬™ Etapa - Treinar o Aluno com o Racioc√≠nio do Professor**

Agora temos o dataset completo: **"1000 pares (enunciado+alternativas ‚Üí racioc√≠nio completo + resposta)"**. O pr√≥ximo passo √© treinar o **Qwen3 4B** usando **Fine-Tuning Supervisionado** para que ele aprenda a reproduzir esse racioc√≠nio e apontar a alternativa correta.

**Hiperpar√¢metros e Rotina de Treino:**
* **Batch size**: 16 exemplos por itera√ß√£o.
* **Learning rate**: 2√ó10‚Åª‚Åµ com warm-up de 10% do total de etapas.
* **Epochs**: 4, com valida√ß√£o a cada 500 passos (usamos 900 exemplos para treino e 100 para valida√ß√£o).
* **Otimizador**: AdamW, weight decay = 0.01.
* **Fun√ß√£o de perda**: soma de duas perdas:

  1. **Cross-entropy token-level** para gerar cada token do racioc√≠nio.
  2. **Cross-entropy** (no token final) para a linha ‚ÄúResposta: X‚Äù, que funciona como classifica√ß√£o de 4 classes (A, B, C, D).
* **Comprimento m√°ximo de entrada**: 512 tokens (suficiente para enunciados do POSCOMP).
* **Comprimento m√°ximo de sa√≠da**: 320 tokens (para cobrir at√© 8 passos de racioc√≠nio).

Abaixo, mostramos um exemplo simplificado de como o treinamento pode ser feito.  
O c√≥digo completo est√° dispon√≠vel em nosso reposit√≥rio:

üîó [Agents4Good/Distillation - training_script/train.py](https://github.com/Agents4Good/Distillation/blob/training_script/train.py)

```python
def fine_tune_qlora(model_ckpt, dataset):
  """
    Fine-tune model using custom training configuration and kernels
    """
    device = "cpu"
    if torch.accelerator.is_available():
        device = torch.accelerator.current_accelerator()
    print(f"Using device: {device}")

    # Load student model. Save lora adapters and config
    model = get_qlora_model(model_ckpt, liger_kernels=liger_kernels)
    model.save_pretrained("./" + model_ckpt.split("/")[-1] + "-qlora")

    # Training arguments
    output_dir = "distill-" + model_ckpt.split("/")[-1] + "-poscomp"

    training_args = TrainingArguments(
        output_dir=output_dir,
        overwrite_output_dir=True,

        num_train_epochs=3,
        warmup_steps=0,
        optim="adamw_bnb_8bit",
        weight_decay=0.001,
        learning_rate=2e-4,                # Recommended in qlora paper for
                                           # models below 33B.
        # Data preloading
        dataloader_pin_memory=True,
        dataloader_num_workers=4,
        remove_unused_columns=False,

        # Evaluation, saving and logging
        # Batch size of 16 and this dataset gives around 75 steps total
        eval_strategy="steps",
        eval_steps=40,                    # Evaluate every n steps
        save_strategy="steps",
        save_steps=40,                    # Save checkpoint every n steps
        save_total_limit=2,                # Keep last 2 checkpoints
        logging_strategy="steps",
        logging_steps=5,
        logging_dir="./logs",
        report_to="tensorboard",

        # Optimizations
        per_device_train_batch_size=1,
        per_device_eval_batch_size=1,
        gradient_accumulation_steps=16,   # Effective batch size of 16
        gradient_checkpointing=False,     # Reduces memory usage
                                          # Decreases speed by 20%
        torch_compile=True,
        torch_compile_backend="inductor",
        # torch_empty_cache_steps=4,          # Reduces memory usage.
                                              # Decreases speed by 10%
        group_by_length=True,
    )

    # Trainer
    tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=dataset["train"],
        eval_dataset=dataset["test"],
        processing_class=tokenizer,
        data_collator=data_collator,
    )
    trainer.train(resume_from_checkpoint=last_checkpoint)
```

## **4¬™ Etapa - Aplicar Budget Force**

> Nesta etapa, usamos a metodologia descrita em **‚Äús1: Simple test-time scaling‚Äù** (arXiv:2501.19393) e no relat√≥rio **‚ÄúBudget forcing s1-32B: Waiting is all you need?‚Äù** do WandB.

**Budget Forcing** √© uma t√©cnica utilizada durante a infer√™ncia para **controlar o uso de tokens de forma eficiente**, for√ßando o modelo a **priorizar racioc√≠nios mais curtos e precisos**, especialmente √∫til quando se trabalha com LLMs sob restri√ß√µes de custo ou tempo de resposta.

### Objetivo:
Reduzir o consumo de recursos durante a infer√™ncia, sem comprometer a qualidade da resposta.

### Como funciona:

- O modelo √© instru√≠do a raciocinar passo a passo, **mas com uso de um limite de tokens**.
- Tokens especiais como `<wait>` e `<stop>` s√£o utilizados como **sinais de controle**:
  - ‚úÖ **`<wait>`**: indica que o racioc√≠nio atual est√° muito curto e o modelo deve **continuar pensando** antes de responder.
  - üõë **`<stop>`**: indica que o racioc√≠nio est√° ficando longo demais e o modelo deve **encerrar imediatamente** e retornar a melhor resposta poss√≠vel at√© ali.
- Esses tokens podem ser usados para:
  - **for√ßar respostas dentro de um or√ßamento ("budget")**

```python
# Pseudoc√≥digo: Aplicando Budget Force

# Defini√ß√µes iniciais
modelo = carregar_modelo("aluno")  # Ex: qwen3-4B
entrada = preparar_entrada(questao)  # enunciado + alternativas
budget_tokens = 300  # N√∫mero ideal de tokens para o racioc√≠nio

# 1. Gera√ß√£o inicial com token <wait> no final do racioc√≠nio-alvo
saida_alvo = raciocinio_professor + " <wait>"

# 2. Gera√ß√£o do modelo aluno com for√ßamento or√ßament√°rio
resposta_aluno = modelo.gerar(
    entrada,
    max_tokens=budget_tokens + margem,
    forcar_token_final=True,
    tokens_terminadores=["<wait>", "<stop>"]
)

# 3. Avalia√ß√£o do comprimento da resposta
if contar_tokens(resposta_aluno) < budget_tokens:
    # Racioc√≠nio curto demais ‚Äî for√ßa o modelo a continuar pensando
    resposta_aluno += " <wait>"
    resposta_aluno += modelo.continuar_gerando(entrada + resposta_aluno)

elif contar_tokens(resposta_aluno) > budget_tokens:
    # Racioc√≠nio longo demais ‚Äî interrompe a gera√ß√£o
    resposta_aluno = cortar_ate_token(resposta_aluno, "<stop>")

# 4. Armazenamento do racioc√≠nio ajustado
salvar(resposta_aluno)
```

**Benef√≠cios Constatados:**
Segundo os experimentos do WandB, aplicando **Budget Forcing** em modelos grandes (como o s1-32B, que √© baseado em Qwen2.5-32B-Instruct), obteve-se:

* **Aumento de at√© 27% na acur√°cia** de racioc√≠nios matem√°ticos complexos (MATH e AIME24), comparado ao modelo sem Budget Forcing.
* **Melhora consistente** em extrapolar para problemas mais dif√≠ceis, mesmo quando o modelo j√° estava finamente ajustado.
* **Economia de tokens**: em quest√µes simples, o classificador interrompe cedo, poupando cerca de **30‚Äì40%** do or√ßamento de infer√™ncia, sem perder acur√°cia ([arXiv][1], [Weights & Biases][2]).

# **Tarefa Futura: Acur√°cia do Modelo POSCOMP**
