# Funções de recompensa

No repositório [Open-R1](https://github.com/huggingface/open-r1/blob/main/src/open_r1/rewards.py) da Hugging Face, que tem como objetivo reproduzir o artigo do DeepSeek-R1, são disponibilizadas diversas funções de recompensa que podem ser utilizadas para tornar o processo de recompensa mais granular.

Essas funções permitem avaliar o desempenho do modelo em diferentes níveis de detalhe, conforme o tipo de tarefa ou o comportamento desejado.

Além disso, há vários artigos que propõem estratégias específicas de definição de recompensas, dependendo da natureza da atividade.
Um exemplo é o artigo [ToolRL: Reward is All Tool Learning Needs](https://arxiv.org/abs/2504.13958), que apresenta uma forma particular de atribuir recompensas em cenários envolvendo o uso de ferramentas (tool use).

In [4]:
# Exemplo inspirado no Open-R1: função simples de acurácia
# Nesse caso, calcula-se a acurácia comparando a resposta gerada pelo modelo com uma resposta de referência.
# Suponha que temos uma resposta esperada (referência) e a saída gerada pelo modelo.
# Por exemplo, imagine que você está ajustando um modelo para gerar código em Python e quer recompensá-lo
# quando ele acerta exatamente a resposta esperada.

def accuracy(predictions, references):
    correct = 0
    total = len(references)
    
    for pred, ref in zip(predictions, references):
        if pred == ref:
            correct += 1
            
    return print(correct / total if total > 0 else 0)

# Primeiro exemplo
predictions = ["import pandas as pd # This is a coding in python for example"]
references = ["import pandas as pd # This is a coding in python for example"]
print("Exemplo Correto:")
acc = accuracy(predictions, references)

predictions = ["import numpy as np # This is a coding in python for example"]
references = ["This is a coding in python for example"]
print("Exemplo Errado:")
acc = accuracy(predictions, references)

Exemplo Correto:
1.0
Exemplo Errado:
0.0


# Breve análise das funções de recompensas

Analisei os sistemas de recompensa do **OpenR1** e do **ToolRL**, comparando suas abordagens no treinamento de modelos de linguagem com RL.

No **OpenR1**, estudei o algoritmo **GRPO** (uma variante do PPO) e suas múltiplas funções de recompensa, como:

- **accuracy_reward** (validação matemática via Math-Verify),
- **format_reward** (checagem de estrutura),
- **reasoning_steps_reward** (incentivo a raciocínios passo a passo),
- **code_reward** (execução de código em sandbox), entre outras.
- O sistema é altamente granular, avaliando desde clareza textual até penalidades por repetição ou respostas muito longas.

Já no **ToolRL**, as recompensas são mais diretas, combinando **R_format** (validação de sintaxe, como tags `<think>`) e **R_correct** (correspondência com o *ground-truth*). Apesar da simplicidade, a estrutura é eficaz para tarefas baseadas em ferramentas.

Concluí que o OpenR1 oferece um controle mais refinado para modelos de raciocínio (como matemática), enquanto o ToolRL prioriza eficiência em chamadas de API/tools. Ambos podem ser complementares, dependendo do objetivo de treinamento.