# Intro RL para LLMs

- Agent/policy model: Estrategia para tomar decisiones. Es el LLM
- Environment: provee feedback al agente. Puede ser muchas cosas aca
- Action: Pueden ser PALABRAS, RESPUESTA ENTERA, OUTCOME FINAL, etc
- Reward: Feedback que le da el env al agent. Numero

---

**RLHF**

- Preferencias humanas: a partir de varias respuestas, las ranqueamos
- Reward model: construimos un reward model basado en esas preferencias. Ahora tenemos un modelo que, dado una respuesta, estima el puntaje que le darian humanos
- Fine-tune el LLM con RL: Ahora el reward model nos da el feedback. Entonces:
    - El agente genera respuestas
    - El reward model las scorea
    - Ajustamos los weights para que tienda a producir outputs que sean bien puntuados


---

**RL vs SL**

Principalmente cambia la fuente de la señal (reward). Qué optimizas realmente
- SL: Minimizar divergencia respecto a la distribución objetivo (imitar). Tiene un reward **denso** porque sabes la respuesta target para cada token.
- RL: Maximizar retorno esperado bajo dinámicas del entorno (elegir). La señal es escasa y esta diferida en el tiempo. Se requiere **exploracion** y credito temporal. 

Por eso se dice que SFT memorizes y RL generalizes https://arxiv.org/abs/2501.17161

---



# Policy optimization (gradient-based)

Tecnicas para optimizar el LLM / policy model para que mejore las predicciones.

**Intro**:

En SL tenemos una funcion de perdida (loss) y lo que queremos es minimizar esa loss. Entonces dado un batch, calculamos la loss (un numero final) basado en muchos errores (1 o varios para cada elemento del batch), los promediamos y nos queda ese numero final. Ahi, buscamos el gradiente (el conjunto de derivadas parciales de cada uno de los parametros aprendibles) que hagan que mas baje la loss en ese punto. Y actualizamos los valores de los parametros en la direccion y fuerza de esas derivadas y agregandole otros empujones.

En RL, lo que tratamos de hacer es subir o bajar la probabilidad de los tokens segun si aparecen en la secuencia que genero un buen o mal resultado (bien o mal comparado con un baseline).


**Pasos general (on-policy)**:
- Se hacen rollouts (el modelo genera respuestas completas)
- Se evalua cada respuesta y se obtiene score o reward
- El score se convierte en ventaje (advantage): cuanto mejor o peor esta respuesta fue a lo esperado o tipico (por ej del grupo o de algo de referencia).
    - Si tengo solo reward final, el advantage se aplica a todos los tokens de la secuencia de la misma manera (credito global)
    - Si tengo verificadores por paso, se reparten ventajas distintas por token
- Distribuyo la ventaja para cada token:
    - Si es positiva, subo su log-prob (empujo logits para arriba).
    - Si es negativa, la bajo.
    - Indirectamnete afecto a las otras (porque en probs la suma = 1)
- Regularizo para no irme tan lejos de una distribucion anterior (basada en una politica de referencia) para evitar colapso.

**Caso general**
- Nosotros tenemos una red y para un estado (secuenci), produce logits (next token / action)
- Los pasamos por softmax y tenemos probs y de esos tomamos el log, por lo que trabajamos con log probs. 
- Para el token elegido en un paso t, vemos el log prob (solo tenemos un log prob en ese paso)
- Si tomamos el gradiente de ese log prob, estamos viendo un conjunto de derivadas parciales del logprob con respecto a todos los parametros del modelo. Esto indica la direccion de MAXIMA SUBIDA -> o sea, si tomamos un paso en esa direccion, aumentamos la logprob de ese token para la prox.
- Si hacemos lo mismo para cada token de la secuencia de pasos generados, y sumamos los gradientes (sumamos las derivadas parciales (o sea, para un parametro miramos las derivadas parciales por cada token en la secuencia generada y los sumamos)), nos queda un gradiente unico que apunta a maximizar todos los tokens en la secuencia generada. 
- Despues vemos el reward para esa secuencia y lo comparamos con el baseline (R-b). Si el baseline es 0.5 y nuestro reward es 0.2, el advantage da -0.3. Eso lo usamos para multiplicar, lo que nos cambia la direccion del gradiente si el advantage es negativo y tambien nos da una magnitud de cambio (escala el tamaño del paso junto con el lr). O sea que si es negativo, en vez de apuntar a aumentar la prob, apunta a disminuir la prob de los tokens.
- Para no favorecer secuencias largas, a veces se promedia la suma de logprobs y se suele agregar entropia (para mantener diversidad) y KL a un modelo de referencia para regularizar.


## REINFORCE

Loss function: 

$$\text L_\theta = - (R - b) \sum_t \log \pi_\theta(a_t \mid s_t)$$

- Partimos de Maximum Likelihood: queremos que el modelo asigne alta probabilidad a lo que efectivamente ocurrió (los datos reales).
- Para secuencias, eso se traduce en un producto de probabilidades de cada token de la secuencia.
- Como trabajar con productos es numéricamente inestable (tienden a 0), usamos logaritmo: eso convierte el producto en suma.
- Advantage 𝐴=𝑅−𝑏: En RL, no todas las muestras valen lo mismo: algunas tuvieron mejor reward. Por eso ponderamos la suma con el advantage. El Advantage puede ser por paso (cuando haya reward por paso u otra tecnica) o general para la secuencia (para una secuencia particular, con respecto a otras (baseline)). Se puede poner dentro de la suma.

$$\text L_\theta = - \sum_t A_t \cdot \log \pi_\theta(a_t \mid s_t)$$

- La loss depende de θ. Como regla de gradient descent tenemos: $\theta \leftarrow \theta - a \cdot \nabla_\theta L$.
- Queremos derivar la loss respecto a θ, modificando los pesos (que es lo unico que podemos mover) para que la loss sea mas chica.
- Tenemos la politica (que es el LLM), que esto lo podemos mover, porque depende de θ. Entonces lo queremos derivar: $\nabla_\theta \log \pi_\theta(a_t \mid s_t)$
- El gradiente de una funcion siempre nos dice el steepest ascent de la funcion con respecto a un parametro.
- Si tenemos una Loss, vamos a querer derivarla respecto a los parametros del modelo. Entonces buscamos en la formula aquello que dependa de los parametros del modelo (pi)

Entonces, el gradiente para la secuencia entera seria:

$$\nabla_\theta L_\theta = - \sum_t A_t \cdot \nabla_\theta \log \pi_\theta(a_t \mid s_t)$$

Este es el vector del gradiente, que apunta a donde mas crece L.

Y en cuanto a gradient descent tenemos que, en cada optimizacion, theta cambia asi:

$$\Delta \theta = - a \cdot \nabla_\theta L(\theta)$$

O sea: 

$$\theta \leftarrow \theta - a \cdot \nabla_\theta L(\theta)$$

In [30]:
import torch
import torch.nn as nn
import torch.optim as optim
import math

torch.manual_seed(0)

vocab_size=5
T=3
lr=0.5

# Model: linear map from one-hot(state) to vocab logits (bias-free for clarity).
model = nn.Linear(T, vocab_size, bias=False)
# Initialize weights small & reproducible
with torch.no_grad():
    model.weight.copy_(0.1 * torch.randn(vocab_size, T))

opt = optim.SGD(model.parameters(), lr=lr)

log_softmax = nn.LogSoftmax(dim=-1)

model.weight

Parameter containing:
tensor([[ 0.0604,  0.0811, -0.0045],
        [ 0.0880,  0.1048, -0.0045],
        [-0.0723,  0.2866, -0.0566],
        [ 0.0160, -0.0025,  0.1074],
        [ 0.2263, -0.0918, -0.0225]], requires_grad=True)

In [31]:
# Inputs: one-hot vectors for each time step 0..T-1
I = torch.eye(T)  # shape (T, T)
I

tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])

In [32]:
# CASO 1 (GOOD)
chosen_tokens = [2, 1, 4]
advantage = 0.4

# --- Forward BEFORE update: record chosen tokens' log-probs and probs ---
with torch.no_grad():
    before = []
    for t in range(T):
        logits_t = model(I[t])          # (vocab,)
        logp_t  = log_softmax(logits_t) # (vocab,)
        tok = chosen_tokens[t]
        before.append((tok, float(logp_t[tok]), float(logp_t.exp()[tok])))
before

[(2, -1.750232458114624, 0.17373354732990265),
 (1, -1.5883560180664062, 0.20426113903522491),
 (4, -1.6373724937438965, 0.19449038803577423)]

In [33]:
# --- Compute REINFORCE loss:  L = -A * sum_t log pi(a_t | s_t) ---
total_logprob = 0.0
for t in range(T):
    # sumamos todos los logprobs de los tokens elegidos
    logits_t = model(I[t])          # (vocab,)
    logp_t  = log_softmax(logits_t) # (vocab,)
    tok = chosen_tokens[t]
    total_logprob = total_logprob + logp_t[tok]
    print(f't={t}: token {tok} logprob={logp_t[tok]} total_logprob={total_logprob}')
print(f'-advantage={-advantage}\n-advantage * total_logprob = {-advantage} - {total_logprob}')
loss = - advantage * total_logprob
loss

t=0: token 2 logprob=-1.750232458114624 total_logprob=-1.750232458114624
t=1: token 1 logprob=-1.5883560180664062 total_logprob=-3.3385884761810303
t=2: token 4 logprob=-1.6373724937438965 total_logprob=-4.975960731506348
-advantage=-0.4
-advantage * total_logprob = -0.4 - -4.975960731506348


tensor(1.9904, grad_fn=<MulBackward0>)

In [34]:
# Backprop + step
opt.zero_grad()
loss.backward()
opt.step()

model.weight

Parameter containing:
tensor([[ 0.0207,  0.0412, -0.0441],
        [ 0.0472,  0.2640, -0.0441],
        [ 0.0930,  0.2376, -0.0941],
        [-0.0219, -0.0392,  0.0631],
        [ 0.1794, -0.1253,  0.1386]], requires_grad=True)

In [37]:
# --- Forward AFTER update: record chosen tokens' log-probs and probs ---
with torch.no_grad():
    after = []
    for t in range(T):
        logits_t = model(I[t])          # (vocab,)
        logp_t  = log_softmax(logits_t) # (vocab,)
        tok = chosen_tokens[t]
        after.append((tok, float(logp_t[tok]), float(logp_t.exp()[tok])))

print("Per-step chosen token probabilities (before -> after):")
for t, ((tok_b, logpb, pb), (tok_a, logpa, pa)) in enumerate(zip(before, after)):
    assert tok_b == tok_a
    arrow = "↑" if pa > pb else ("↓" if pa < pb else "→")
    print(f"  t={t}: token={tok_b}   P_before={pb:.4f} -> P_after={pa:.4f}   ({arrow})")

Per-step chosen token probabilities (before -> after):
  t=0: token=2   P_before=0.1737 -> P_after=0.2055   (↑)
  t=1: token=1   P_before=0.2043 -> P_after=0.2386   (↑)
  t=2: token=4   P_before=0.1945 -> P_after=0.2280   (↑)


## PPO

Limita cuanto se puede cambiar la distribucion para que no hayan pasos demasiado grandes y colapse.

Hay un ratio por token

$$r_t = \frac{\pi_{\text{nueva}}(a_t \mid s_t)}{\pi_{\text{vieja}}(a_t \mid s_t)}$$

Que te dice cuanto cambiaste la prob para un token. Si es 1.3, subiste 30% la probabilidad para ese token. Si es 0.7 bajaste 30% la prob para ese token.

- **Clipping**: Si el paso te lleva a un r_t demasiado grande > 1 + eps, entonces recorto el beneficio
- **KL divergence a un modelo referencia**: Penaliza alejarte del modelo base de referencia (el original) en promedio.
- **Ventaja por paso** (opcional): en vez de tener un unico A global, lo hacemos por paso, con V(s_t) para asignar mejor el credito y premiar a los tokens clave. Si no esta, se puede usar como baseline la media del batch.
- **Entropia**: bonus que mantiene la exploracion y evita colapso de entropia (que se vuelva modo unico)

**PPO Loss**:

$$L = \mathbb{E}\left[ \min\left(r_t A_t, \; \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t \right) \right] - \beta \, \mathrm{KL}(\pi_{\text{new}} \| \pi_{\text{ref}}) + \alpha \, \text{Entropía}$$

Tres grandes partes:

- Politica (clipped surrogate objective) -> $\mathbb{E}\left[ \min\left(r_t A_t, \; \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t \right) \right]$
- KL -> $- \beta \, \mathrm{KL}(\pi_{\text{new}} \| \pi_{\text{ref}})$
- Entropia -> $\alpha \, \text{Entropía}$


**Gradiente**:

- Lo mismo que REINFORCE, pensamos: Queremos minimizar esta loss. Como hacemos? Que depende de nosotros? los theta. Y donde estan, en pi_new. Todo lo demas es constante porque no depende de nosotros.
- Donde esta pi_new? En el ratio: 
$$r_t = \frac{\pi_{\text{new}}(a_t \mid s_t)}{\pi_{\text{old}}(a_t \mid s_t)} = \exp\left( \log \pi_{\text{new}} - \log \pi_{\text{old}} \right)$$
- Por eso al derivar, todo fluye por pi_new.
- PROPIEDAD por la exp: la derivada del ratio es el propio ratio multiplicado por la derivada del log-prob nuevo:

$$\nabla_\theta r_t = r_t \cdot \nabla_\theta \log \pi_{\text{new}}(a_t \mid s_t)$$
 
$$\nabla_\theta (\exp\left( \log \pi_{\text{new}} - \log \pi_{\text{old}} \right)) = (\exp\left( \log \pi_{\text{new}} - \log \pi_{\text{old}} \right)) \cdot \nabla_\theta \log \pi_{\text{new}}$$

()

Esto se da porque cuando tenemos una funcion exp:

$y = \exp(g(\theta))$

Al derivar exp, te devuelve exp otra vez, y despues multiplicas por la derivada de lo de adentro (**chain rule**):

$\nabla_\theta y = y \cdot \nabla_\theta g(\theta)$

- pi_old no esta porque no depende de theta, es constante -> $\exp(\log \pi_{\text{new}} - \text constante) $
- Entonces, cuando r_t = 1 (al principio cuando las dos policies son iguales), entonces el gradiente es igual a REINFORCE!

**Politica (clipped surrogate objective)**:

En REINFORCE tenemos A_t que es un empuje al gradiente: $A_t \cdot \nabla_\theta \pi$:
- Grad de log pi: es la flecha (vector de cambios) que te dice como mover los pesos para aumentar el valor de la funcion.
- A: Empuja a favor de subir o bajar la prob, segun el reward. Le puede cambiar el signo (si fue malo) y cambiarle intensidad.
    - Si A > 0: queremos subir la prob
    - Si A < 0: queremos bajar la prob

En PPO tenemos lo mismo pero tambien el ratio:
- A la vez de empujarlo con A_t, tambien lo empujamos por el ratio.
- Esto es porque vimos que el grad queda: $\nabla_\theta r_t = r_t \cdot \nabla_\theta \log \pi_{\text{new}}$
- Entonces, los empujes PPO quedarian: $A_t \cdot r_t \cdot \nabla_\theta \log \pi_{\text{new}}$
- Entonces, APARTE DEL **A_t**, ahora tambien lo escalamos por **r_t**: 
    - Si r_t == 1: queda igual a REINFORCE
    - Si r_t > 1: la pi_new ya hace mas probable esa accion que pi_old.
    - Si r_t < 1: la pi_new ya hace menos probable esa accion que pi_old.
- EFECTOS DE ESCALAMIENTO DE GRADIENTES (interaccion A_t, r_t): -> NO LO TENGO SEGURO, NO ESTA CLARO
    - Si A > 0, queremos aumentar la prob de esa accion.
        - Si r_t > 1 (ej 1.6), potenciamos mas ese cambio. Decimos: ya venimos considerandola mas probable que el old, y ahora tambien lo queremos hacer mas probable, entonces le damos empujon mas grande (confianza?)
        - Si r_t < 1 (ej 0.5), reducimos el tamaño del cambio. Decimos: veniamos considerandola menos probable que el old, y ahora queremos hacerlo mas probable, entonces es mas sospechoso, hay que ser mas cautos? Estas son dudas, no lo tengo tan claro.
    - Si A < 0, queremos bajar la prob de esa accion.
        - Si r_t > 1 (ej 1.6), potenciamos mas ese cambio. Decimos: lo queremos menos probable y veniamos considerandolo mas probable, entonces lo bajamos mas fuerte...
        - Si r_t < 1 (ej 0.5), reducimos el tamaño del cambio. Decimos: lo queremos menos probable y veniamos considerandolo menos probable, pero ahora lo bajamos menos fuerte... ???

**PPO Off-policy? - importance sampling (r_t)** (correccion estadistica):
- Las trayectorias se recolectaron con pi_old (porque es caro volver a samplear), pero querés optimizar como si vinieran de pi_new. Estamos trabajando con samples **out of distribution (off-policy)** -> Si bien PPO medio que se clasifica como on-policy en general, esta parte es off-policy.
- En importance sampling, cuando queremos estimar una distribucion objetivo q(x) pero mis datos provienen de otra distribucion p(x), se suele reponderar cada muestra con un peso w(x)=q(x)/p(x).
- La intuicion es corregir REPRESENTATIVIDAD, las caracteristicas que tengan dos distribuciones. Estamos calculando un update como  si mis datos vinieran de pi_new pero vienen de pi_old. Si no reponderamos, el estimador esta sesgado hacia pi_old. Si para un token en un step particular, con pi_old salia con prob 0.1 y con pi_new sale con 0.2... r = 0.2/0.1 = 2. Usando el mismo batch viejo, buscamos que el promedio o gradiente IMITE el que habria obtenido si hubiera generado el batch con pi_new. No es “arbitrario” subir al doble “ese token”: es lo necesario para que la suma total refleje cuántas veces debería aparecer ese token si hubieras muestreado con pi_new.
- El **ratio arregla eso, es un reescalado**. queremos “arreglar el PROMEDIO”.
El update que buscamos en PPO es un promedio bajo la distribución nueva pi_new. Pero tus datos vienen de pi_old. El único modo de que la suma de gradientes en el batch imite ese promedio “como si” hubieras muestreado con pi_new es escalar cada muestra por el ratio.
- Si multiplicás cada muestra por r = pi_new/pi_old, el promedio sobre tus datos viejos reproduce el promedio que tendrías con datos nuevos. 
- **El gradiente objetivo es el promedio como si hubieras muestreado con new**: 

CLIP en PPO:
Importance sampling puede dar pesos extremos (alta varianza). PPO mantiene la corrección pero pone guardarraíles: si r_t se va fuera de [1-ϵ, 1+ϵ] en la dirección que “conviene” a A_t, corta el empuje (grad = 0 para ese token en ese minibatch).


---

**FLUJO**

Los policies new NO SAMPLEAN. Lo unico que samplea es el OLD (se va actualizando cada tanto).

- Tenemos un modelo pi_old. Tenemos prompts. Creamos minibatches (por ejemplo 4 prompts en cada minibatch) y tenemos 3 minibatches (12 ejemplos en total). 
- Sampleamos la respuesta usando pi_old y guardamos toda la info (probs de los tokens para CADA step, reward, etc) para cada prompt en todos los minibatches.
- Ahora empieza la primera corrida de varios EPOCH (1 epoch = 1 pasada por todos los minibatches). Esto se va a hacer SIN HACER NINGUN SAMPLEO A MODELOS. Solo con los datos que estan.
- Agarramos el primer minibatch de 4 ejemplos. Para cada ejemplo ya tenemos la secuencia/respuesta originada por el pi_old. Agarramos el primer ejemplo y vamos token por token de la secuencia guardad por el pi_old y vamos comparando los tokens seleccionados con la prob que arroja el modelo (o sea vamos usando el modelo pi_new para ver la prob que arroja para los tokens muestrados originalmente por el pi_old). Obviamente en la primera vuelta va a ser igual o casi igual que el pi_old porque es el mismo modelo, todavia no se actualizo. Usamos la formula de PPO, sumamos para cada token en la secuencia. -> **El advantage despues lo veo bien**
- Lo mismo para cada ejemplo del batch. Y promediamos para cada ejemplo del batch.
- Despues de cada minibatch, backprop y optimizamos!
- Seguimos con los minibatches hasta terminar todos, hasta ahi 1 epoch
- Hacemos los varios epochs lo mismo. OJO, el pi_new va acumulando los cambios PERO NO VA SAMPLEANDO.
- DESPUES DE ESO, volvemos a samplear pero con el pi_new que reemplaza al pi_old.

Si bien no sampleamos nuevas secuencias con los pi_new a medida que van cambiando, los vamos usando activamente para calcular la prob de cada token de la secuencia original no? O sea tienen un uso muy alto. 
A su vez,es como que los cambios en pi_new se van acumulando durante cada minibatch y eso por varios epochs no? O sea, acumulamos cambios y despues de varios epochs ahi lo usamos para generar una respuesta nueva?

**Importance sampling for Policy Gradient**

In [2]:
import math
import random
import pandas as pd

random.seed(1)

def softmax2(theta):
    a = math.exp(theta)
    b = 1.0
    Z = a + b
    return a/Z, b/Z  # (piA, piB)

def grad_logpi_new(theta_new, action):
    piA, piB = softmax2(theta_new)
    if action == 0:   # A
        return 1.0 - piA
    else:             # B
        return -piA

def advantage(action):
    return +1.0 if action == 0 else -1.0

def sample_from_old(theta_old, N):
    piA, piB = softmax2(theta_old)
    samples = []
    for _ in range(N):
        samples.append(0 if random.random() < piA else 1)
    return samples

def exact_expectation_under_new(theta_new):
    piA, piB = softmax2(theta_new)
    gA = advantage(0) * grad_logpi_new(theta_new, 0)
    gB = advantage(1) * grad_logpi_new(theta_new, 1)
    return piA * gA + piB * gB

theta_old = -0.7
theta_new = +0.3
N = 200

piA_old, piB_old = softmax2(theta_old)
piA_new, piB_new = softmax2(theta_new)

print("== Policies ==")
print(f"theta_old={theta_old:+.3f} -> pi_old(A)={piA_old:.3f}, pi_old(B)={piB_old:.3f}")
print(f"theta_new={theta_new:+.3f} -> pi_new(A)={piA_new:.3f}, pi_new(B)={piB_new:.3f}")

== Policies ==
theta_old=-0.700 -> pi_old(A)=0.332, pi_old(B)=0.668
theta_new=+0.300 -> pi_new(A)=0.574, pi_new(B)=0.426


In [None]:
samples = sample_from_old(theta_old, N)


In [None]:
rows = []
for i, a in enumerate(samples):
    pi_old_a = piA_old if a == 0 else piB_old
    pi_new_a = piA_new if a == 0 else piB_new
    r = pi_new_a / pi_old_a
    g = advantage(a) * grad_logpi_new(theta_new, a)
    rows.append({
        "i": i,
        "action": "A" if a == 0 else "B",
        "pi_old(a)": pi_old_a,
        "pi_new(a)": pi_new_a,
        "ratio r": r,
        "A(a)": advantage(a),
        "grad_logpi_new(a)": grad_logpi_new(theta_new, a),
        "g = A * grad_logpi_new": g,
        "r*g": r * g,
    })

df = pd.DataFrame(rows)
display_dataframe_to_user("IS demo — per-sample contributions (scrollable)", df)


In [None]:
wrong_mean = df["g = A * grad_logpi_new"].mean()
is_mean    = df["r*g"].mean()
true_mean  = exact_expectation_under_new(theta_new)

countA = sum(1 for a in samples if a == 0)
countB = N - countA

print("\n== Estimates of E_new[ A(a) * ∇ log π_new(a) ] ==")
print(f"Ground truth (exact under pi_new): {true_mean:+.6f}")
print(f"IS-corrected estimate (mean of r*g): {is_mean:+.6f}")
print(f"WRONG (no IS; mean of g under old): {wrong_mean:+.6f}")

print(f"\nCounts from old: A={countA}  B={countB}  (expected under old: A~{N*piA_old:.1f}, B~{N*piB_old:.1f})")
print(f"If sampled from new, expected counts: A~{N*piA_new:.1f}, B~{N*piB_new:.1f}")


**PPO simplificado** (solo parte de policy clipped. Sin KL ni entropy)

In [56]:
import torch
import torch.nn as nn
import torch.optim as optim

torch.manual_seed(0)

# Hiperparámetros chiquitos
vocab_size = 5
T = 3
lr = 0.5
eps_clip = 0.2   # zona segura [0.8, 1.2]
advantage = 0.4  # mismo A para todos los pasos (reward final - baseline)

# Modelo lineal sin bias (como el tuyo)
model = nn.Linear(T, vocab_size, bias=False)
with torch.no_grad():
    model.weight.copy_(0.1 * torch.randn(vocab_size, T))

opt = optim.SGD(model.parameters(), lr=lr)
log_softmax = nn.LogSoftmax(dim=-1)

# Estados one-hot (t = 0..T-1)
I = torch.eye(T)

# Elegimos una secuencia de tokens (simula lo que generó π_old)
chosen_tokens = [2, 1, 4]

In [57]:
# ----------------------------------------------------------
# 1) "Foto" de π_old: guardamos logprob_old en esos (s_t, a_t)
# ----------------------------------------------------------
with torch.no_grad():
    logprob_old = []
    for t in range(T):
        logits_t = model(I[t])          # (vocab,)
        logp_t  = log_softmax(logits_t) # (vocab,)
        tok = chosen_tokens[t]
        logprob_old.append(float(logp_t[tok]))
    logprob_old = torch.tensor(logprob_old, dtype=torch.float32)

print("logprob_old por paso:", [f"{x:.4f}" for x in logprob_old.tolist()])

logprob_old por paso: ['-1.7502', '-1.5884', '-1.6374']


In [58]:
# ----------------------------------------------------------
# 2) BEFORE update: logprob_new y ratio (r_t ≈ 1 al inicio)
# ----------------------------------------------------------
with torch.no_grad():
    before = []
    ratio_before = []
    for t in range(T):
        logits_t = model(I[t])
        logp_t  = log_softmax(logits_t)
        tok = chosen_tokens[t]
        logp_new = logp_t[tok]
        r_t = torch.exp(logp_new - logprob_old[t])
        before.append((tok, float(logp_new), float(logp_t.exp()[tok])))
        ratio_before.append(float(r_t))
print("logprob_new BEFORE:", [f"{x[1]:.4f}" for x in before])
print("P_new BEFORE      :", [f"{x[2]:.4f}" for x in before])
print("r_t BEFORE        :", [f"{r:.4f}" for r in ratio_before])

logprob_new BEFORE: ['-1.7502', '-1.5884', '-1.6374']
P_new BEFORE      : ['0.1737', '0.2043', '0.1945']
r_t BEFORE        : ['1.0000', '1.0000', '1.0000']


In [59]:
# ----------------------------------------------------------
# 3) Loss PPO (sólo política, clipeada)
#    L = - mean( min( r_t*A, clamp(r_t)*A ) )
# ----------------------------------------------------------
advantages = torch.full((T,), fill_value=advantage, dtype=torch.float32)

total_unclipped = 0.0
total_clipped = 0.0
for t in range(T):
    logits_t = model(I[t])
    logp_t  = log_softmax(logits_t)
    tok = chosen_tokens[t]
    logp_new = logp_t[tok]
    r_t = torch.exp(logp_new - logprob_old[t])
    unclipped = r_t * advantages[t]
    clipped_r = torch.clamp(r_t, 1.0 - eps_clip, 1.0 + eps_clip)
    clipped = clipped_r * advantages[t]
    total_unclipped = total_unclipped + unclipped
    total_clipped   = total_clipped   + clipped
    print(f"t={t}: tok={tok}  logp_old={logprob_old[t]:+.4f}  logp_new={logp_new:+.4f}  r_t={float(r_t):.4f}  "
          f"uncl={float(unclipped):+.4f}  clp={float(clipped):+.4f}  picked=min(uncl,clp)")


t=0: tok=2  logp_old=-1.7502  logp_new=-1.7502  r_t=1.0000  uncl=+0.4000  clp=+0.4000  picked=min(uncl,clp)
t=1: tok=1  logp_old=-1.5884  logp_new=-1.5884  r_t=1.0000  uncl=+0.4000  clp=+0.4000  picked=min(uncl,clp)
t=2: tok=4  logp_old=-1.6374  logp_new=-1.6374  r_t=1.0000  uncl=+0.4000  clp=+0.4000  picked=min(uncl,clp)


In [60]:
# Promediamos el surrogate (min) y lo negamos para minimizar
surrogate = torch.minimum(total_unclipped, total_clipped) / T
loss = -surrogate
print(f"\nSurrogate (mean): {float(surrogate):+.6f}  ->  PPO policy loss = {float(loss):+.6f}")



Surrogate (mean): +0.400000  ->  PPO policy loss = -0.400000


In [61]:
# Backprop + step
opt.zero_grad()
loss.backward()
opt.step()


In [62]:
# ----------------------------------------------------------
# 4) AFTER update: ver cómo cambiaron P_new de los tokens elegidos
# ----------------------------------------------------------
with torch.no_grad():
    after = []
    ratio_after = []
    for t in range(T):
        logits_t = model(I[t])
        logp_t  = log_softmax(logits_t)
        tok = chosen_tokens[t]
        logp_new = logp_t[tok]
        r_t = torch.exp(logp_new - logprob_old[t])
        after.append((tok, float(logp_new), float(logp_t.exp()[tok])))
        ratio_after.append(float(r_t))

print("\nPer-step chosen token probabilities (before -> after):")
for t, ((tok_b, logpb, pb), (tok_a, logpa, pa)) in enumerate(zip(before, after)):
    assert tok_b == tok_a
    arrow = "↑" if pa > pb else ("↓" if pa < pb else "→")
    print(f"  t={t}: token={tok_b}   P_before={pb:.4f} -> P_after={pa:.4f}   ({arrow})")

print("r_t AFTER         :", [f"{r:.4f}" for r in ratio_after])



Per-step chosen token probabilities (before -> after):
  t=0: token=2   P_before=0.1737 -> P_after=0.1839   (↑)
  t=1: token=1   P_before=0.2043 -> P_after=0.2153   (↑)
  t=2: token=4   P_before=0.1945 -> P_after=0.2052   (↑)
r_t AFTER         : ['1.0583', '1.0540', '1.0552']


**PPO**: 

usa un reward model aparte. 


**GRPO**:

**DPO**:

In [52]:
import torch
import torch.nn as nn
import torch.optim as optim
import math

torch.manual_seed(0)

vocab_size=5
T=3
lr=0.5

model = nn.Linear(T, vocab_size, bias=False)
with torch.no_grad():
    model.weight.copy_(0.1 * torch.randn(vocab_size, T))
log_softmax = nn.LogSoftmax(dim=-1)

I = torch.eye(T)  # shape (T, T)

logits_t = model(I)          # (vocab,)
print(logits_t)

logp_t  = log_softmax(logits_t) # (vocab,)
print(logp_t)

probs = logp_t.exp()
print(probs)

probs.sum(dim=-1)

tensor([[ 0.0604,  0.0880, -0.0723,  0.0160,  0.2263],
        [ 0.0811,  0.1048,  0.2866, -0.0025, -0.0918],
        [-0.0045, -0.0045, -0.0566,  0.1074, -0.0225]], grad_fn=<MmBackward0>)
tensor([[-1.6176, -1.5900, -1.7502, -1.6619, -1.4517],
        [-1.6121, -1.5884, -1.4065, -1.6957, -1.7849],
        [-1.6194, -1.6193, -1.6714, -1.5075, -1.6374]],
       grad_fn=<LogSoftmaxBackward0>)
tensor([[0.1984, 0.2039, 0.1737, 0.1898, 0.2342],
        [0.1995, 0.2043, 0.2450, 0.1835, 0.1678],
        [0.1980, 0.1980, 0.1880, 0.2215, 0.1945]], grad_fn=<ExpBackward0>)


tensor([1., 1., 1.], grad_fn=<SumBackward1>)