# Tema 5: Post-training

## Ejercicio 1 - Entendiendo el papel del post-training

Un LLM base responde así:

**Pregunta:**
"¿Puedo usar antibióticos para tratar un resfriado común?"

**Respuesta del modelo base:**
"Los antibióticos matan bacterias. Algunos médicos los recetan en infecciones respiratorias."

a) Explica por qué esta respuesta puede ser problemática desde el punto de vista de alineación.

b) ¿Qué objetivo del post-training está relacionado con este problema?

c) ¿Qué técnica de post-training ayudaría a corregir este tipo de comportamiento?

### Apartado a
Problema de alineación.

La respuesta no es claramente incorrecta, pero puede inducir a un uso inapropiado de antibióticos. No deja claro que los antibióticos **no sirven para infecciones virales** como el resfriado común, lo que puede generar un comportamiento perjudicial. Es un ejemplo de una respuesta plausible, **pero potencialmente dañina**.

### Apartado b
Objetivo de post-training relacionado.

Este caso se relaciona con:

- **Seguridad y responsabilidad**
- **Reducción de información potencialmente peligrosa**
- **Alineación con buenas prácticas médicas**

### Apartado c
Técnica que ayudaría.

RLHF o DPO con ejemplos donde humanos prefieran respuestas que:

- Incluyan advertencias
- Eviten recomendaciones médicas incorrectas
- Añadan matices de seguridad

## Ejercicio 2 - SFT vs RLHF

Se quiere mejorar un modelo que ya responde correctamente a preguntas de historia, pero sus respuestas son largas, poco claras y a veces demasiado técnicas.

a) ¿Sería suficiente aplicar SFT? Justifica.

b) ¿Qué aportaría RLHF que SFT no puede capturar fácilmente?

c) Da un ejemplo concreto de preferencia humana que RLHF sí podría aprender.

### Apartado a
¿Basta SFT?

Sí podría ayudar parcialmente, ya que SFT con ejemplos bien redactados puede enseñar:

- Respuestas más claras
- Mejor estructura

Pero puede no capturar bien preferencias más sutiles como nivel de detalle adecuado.

### Apartado b
Qué aporta RLHF.

RLHF permite aprender comparaciones del tipo:

- "Esta respuesta es demasiado técnica"
- "Esta es más útil para un usuario medio"

Es decir, captura **calidad relativa**, no solo corrección.

### Apartado c
Ejemplo de preferencia.

Entre dos respuestas correctas, los humanos pueden preferir la que:

- Usa ejemplos
- Es más breve
- Evita jerga técnica

## Ejercicio 3 - Modelado de preferencias

Se presentan dos respuestas del modelo a la pregunta: "Explica qué es el cambio climático."

**Respuesta A:** Explicación muy técnica, correcta pero difícil de entender.

**Respuesta B:** Explicación clara, con ejemplos cotidianos, pero menos detallada.

a) ¿Por qué este tipo de comparación es clave en post-training?

b) ¿Qué técnica usaría directamente pares A vs B como señal de aprendizaje?

c) ¿Qué riesgo aparece si siempre se favorece la respuesta más simple?

### Apartado a
Por qué es clave.

Porque el modelo necesita aprender que no todas las respuestas correctas son igualmente buenas. Las comparaciones permiten modelar criterios humanos como claridad o utilidad.

### Apartado b
Técnica que usa pares directamente.

**DPO** (Direct Preference Optimization).

### Apartado c
Riesgo de favorecer siempre lo simple.

Puede producir:

- Pérdida de profundidad
- Simplificaciones excesivas
- Modelo demasiado superficial

## Ejercicio 4 - Pipeline de post-training

Ordena las siguientes etapas y justifica brevemente:
- Instruction Tuning
- Modelado de preferencias
- SFT
- Optimización por preferencias (RLHF/DPO)
- Fine-tuning de dominio

Luego responde: ¿Qué aporta cada etapa que no aportan las anteriores?

### Solución

**Orden correcto típico:**

1. SFT
2. Instruction Tuning
3. Modelado de preferencias
4. Optimización por preferencias (RLHF/DPO)
5. Fine-tuning de dominio

**Aporte de cada etapa:**

| Etapa | Aporte |
|-------|--------|
| SFT | Enseña a responder bien |
| Instruction tuning | Enseña a seguir instrucciones variadas |
| Preferencias | Enseña qué respuesta es mejor |
| Optimización | Ajusta el comportamiento hacia esas preferencias |
| Dominio | Especializa el modelo |

## Ejercicio 5 - Riesgos del post-training

Explica brevemente (2-3 líneas cada uno):

a) Reward hacking

b) Sobrealineación

c) Pérdida de generalidad tras fine-tuning de dominio

### Apartado a
Reward hacking.

El modelo aprende a maximizar la señal de recompensa sin mejorar realmente la calidad o utilidad de la respuesta.

### Apartado b
Sobrealineación.

El modelo se vuelve demasiado prudente y evita responder incluso cuando sería apropiado.

### Apartado c
Pérdida de generalidad.

Tras especializarse en un dominio, el modelo puede degradar su rendimiento en tareas generales.

## Ejercicio 6 - Prompt Engineering vs Post-Training

Para el problema: "El modelo da respuestas demasiado seguras aunque no tenga suficiente información."

a) ¿Podría mitigarse solo con prompting?

b) ¿Qué objetivo de post-training está implicado?

c) ¿Qué tipo de señal de entrenamiento ayudaría a que el modelo aprenda a decir "no lo sé"?

### Apartado a
¿Solo prompting?

Puede ayudar parcialmente (p. ej., "si no estás seguro, indícalo"), pero no garantiza que el modelo internalice ese comportamiento de forma consistente.

### Apartado b
Objetivo implicado.

Enseñar al modelo a:

- Expresar incertidumbre
- Abstenerse cuando no tiene información suficiente

### Apartado c
Señal de entrenamiento útil.

Comparaciones donde se prefieran respuestas del tipo:

- "No dispongo de suficiente información" sobre respuestas inventadas.