### Prueba de entrada CC0C2

**Formato de la evaluación**

- **Entrega**: Se sugiere un informe escrito para cada sección (o un único documento con apartados), que incluya:
  - Planteamiento teórico y razonamiento.
  - Descripciones de la implementación propuesta (no se exige código como tal, pero sí explicación de pasos o seudocódigo).
  - Resultados (numéricos, analíticos y/o cualitativos).
  - Conclusiones y reflexiones.

- **Criterios de evaluación**:
  1. Claridad y coherencia en la explicación teórica.
  2. Profundidad en el desarrollo y justificación de las decisiones de diseño.
  3. Rigor en el análisis de resultados y en la comparación de métodos.
  4. Capacidad de relacionar los contenidos con los temas de NLP que se verán más adelante.




#### **Ejercicios**

##### **Ejercicio 1**

1. **Teoría de perceptrón multicapa**  
   - Explicar el funcionamiento de un perceptrón multicapa (MLP). Incluir la descripción de capas, neuronas, funciones de activación y la importancia de la función de pérdida.
   - Describir en detalle el procedimiento matemático de la retropropagación de errores (backpropagation) y la actualización de pesos, mostrando cómo se aplica la regla de la cadena.

2. **Diseño de una red neuronal para un problema clásico**  
   - Proponer una arquitectura de red neuronal simple (una o dos capas ocultas) para resolver un problema de clasificación binaria o multiclase en un dataset pequeño (por ejemplo, un conjunto de datos sintético de 2D o 3D).
   - Explicar cómo se definiría la función de costo y la métrica de evaluación (accuracy, F1, etc.).
   - Incluir un razonamiento sobre la elección de hiperparámetros (tasa de aprendizaje, número de neuronas por capa, etc.).
   - Discutir los posibles problemas de **desvanecimiento/explosión del gradiente** y las estrategias de mitigación (inicialización, normalización, clipping de gradientes, etc.).

**Entrega esperada**:  
- Sección teórica detallada.  
- Diseño conceptual de la red y justificación de hiperparámetros.  
- Resultados esperados (por ejemplo, curva de pérdida vs. épocas) y conclusiones sobre desempeño y dificultad de entrenamiento.

##### **Ejercicio 2**

1. **Comparación de optimizers**  
   - Describir y comparar brevemente **SGD**, **Momentum**, **Adam** y **RMSProp**.  
   - Analizar ventajas, desventajas y contextos de uso.

2. **Regularización**  
   - Explicar distintas técnicas de regularización (L1, L2, Dropout, Batch Normalization, etc.).  
   - Proponer cómo incluir estas técnicas en la misma red neuronal de la sección previa o en otra red de ejemplo.

3. **Experimentos conceptuales**  
   - Plantear un experimento (no se requiere código) donde se modifiquen sistemáticamente hiperparámetros como tasa de aprendizaje o porcentaje de Dropout, y se analicen los efectos esperados en la convergencia y la capacidad de generalización.

**Entrega esperada**:  
- Análisis escrito de los optimizadores y la regularización.  
- Ejemplo ilustrativo (numérico o basado en gráficas hipotéticas) que muestre la influencia de estos métodos.  
- Conclusiones sobre buenas prácticas y lecciones aprendidas para el entrenamiento de redes profundas.

##### **Ejercicio 3**

1. **Conceptos fundamentales de RL**  
   - Definir formalmente **entorno**, **estado**, **acción**, **recompensa** y el objetivo de maximizar el retorno.  
   - Explicar la diferencia entre **Q-learning**, **métodos de política** y **métodos actor-crítico**.

2. **Diseño de un problema de RL sencillo**  
   - Proponer un entorno simple (por ejemplo, un gridworld o un laberinto 2D) y describir:  
     - Estados posibles.  
     - Acciones disponibles.  
     - Función de recompensa.  
   - Discutir cómo se calcularían las actualizaciones de la **Q-Table** o de la **política** (dependiendo del método elegido: Q-learning vs. Policy Gradient).  

3. **Desafíos y extensiones**  
   - Mencionar las principales dificultades del RL clásico (exploración vs. explotación, dimensionalidad, etc.).  
   - Relacionarlo con el uso de redes neuronales (Deep Q-Networks, Policy Gradients) y cómo esto se conecta más adelante con **RLHF** para alinear grandes modelos de lenguaje.

**Entrega esperada**:  
- Explicación teórica de Q-learning o Policy Gradient (elegir uno).  
- Descripción detallada de un entorno simple y de la dinámica de entrenamiento (paso a paso).  
- Reflexión sobre la escalabilidad de RL y su relevancia en IA/NLP avanzada.

##### **Ejercicio 4**

1. **Modelo de lenguaje N-grama**  
   - Explicar brevemente qué es un modelo n-gram y cómo se calcula la **probabilidad** de una secuencia.  
   - Estimar o razonar sobre la **perplejidad** y por qué es relevante.

2. **Métodos de evaluación**  
   - Describir las métricas clásicas para evaluar la generación de texto: **perplejidad**, **BLEU** y, opcionalmente, **ROUGE**.  
   - Analizar fortalezas y limitaciones de estas métricas.

3. **Ejemplo de evaluación simplificada**  
   - Proponer un mini-corpus (por ejemplo, un conjunto de oraciones cortas) y describir cómo se calcularían manualmente BLEU y ROUGE comparando oraciones generadas vs. oraciones de referencia.

**Entrega esperada**:  
- Resumen conciso de la teoría de n-gramas.  
- Explicación matemática de perplejidad y su interpretación.  
- Demostración conceptual (con código) del cálculo de BLEU y ROUGE con ejemplos pequeños.

##### **Ejercicio 5**

1. **Arquitectura Seq2Seq**  
   - Describir los módulos de un sistema seq2seq con RNN (encoder-decoder).  
   - Explicar la diferencia entre LSTM y GRU (mecanismos internos, puertas, etc.).

2. **Tarea de traducción sencilla**  
   - Plantear una tarea simple (por ejemplo, convertir números en letras o transformar fechas).  
   - Explicar paso a paso cómo se entrenaría el modelo (selección de función de pérdida, backpropagation through time, etc.).  
   - Incluir una discusión sobre el uso de **greedy** vs. **beam search** para la fase de decodificación.

3. **Evaluación y ejemplos**  
   - Proponer cómo se mediría el desempeño (puede ser exactitud literal o BLEU).  
   - Incluir ejemplos de salidas generadas e interpretación de errores comunes (pérdida de contexto, confusiones al final de la secuencia, etc.).

**Entrega esperada**:  
- Esquema conceptual del modelo seq2seq.  
- Descripción clara de la tarea de traducción artificial y su proceso de entrenamiento.  
- Reflexión sobre los principales desafíos que surgen (p. ej. gradiente que se atenúa, necesidad de más datos, etc.).

##### **Ejercicio 6**

1. **Visión general de RLHF**  
   - Explicar, a alto nivel, la idea de **aprendizaje por refuerzo con retroalimentación humana (RLHF)** y por qué es relevante en modelos de lenguaje de gran tamaño (LLMs).

2. **Diseño de un entrenador de recompensa sencillo**  
   - Esbozar cómo se define la función de recompensa a partir de preferencias humanas (ej. clasificar respuestas como buenas o malas).  
   - Describir el rol de un "reward model" y cómo se acopla al modelo de lenguaje principal.

3. **Limitaciones y retos éticos**  
   - Mencionar los retos en la recopilación de datos humanos, sesgos y la posibilidad de "gaming" del sistema.

**Entrega esperada**:  
- Ensayo breve que conecte los fundamentos de RL con la idea de RLHF.  
- Reflexión sobre la importancia de la alineación de modelos con valores o preferencias humanas.

> **Entrega**: El enlace del repositorio donde se ha alojado un cuaderno de jupyter notebook organizado por secciones, con explicaciones claras y suficientes ejemplos o esquemas que demuestren el entendimiento.


In [None]:
### Tus respuestas