## **Práctica calificada 1 CC0C2**

#### **Indicaciones generales**

Cada estudiante debe:
1. Elegir **uno de los proyectos propuestos (no se admite proyectos repetidos)** y registrar su elección. **Fecha de entrega 3 de mayo hasta las 14:00 PM** 
2. Crear un **repositorio público en GitHub** con el nombre `nlp-proyectoXX`, donde `XX` es el número del proyecto.
3. Actualizar dicho repositorio diariamente (mínimo un `commit` con mensaje descriptivo) con:
   - Código fuente
   - Notebooks de prueba
   - Métricas intermedias
   - Registro de decisiones técnicas
4. Entregar el **enlace del repositorio** vía formulario o correo antes del dia jueves 24 de este mes. 
5. Presentar el trabajo en la **sesión final obligatoria de exposición**, en la que se evaluará:
   - Entendimiento técnico
   - Justificación de decisiones
   - Análisis de resultados
   - Calidad de visualización y comunicación


#### **Cronograma sugerido de avance**

| Día | Actividades esperadas | Verificable en GitHub |
|-----|------------------------|------------------------|
| 1 | Registro del proyecto elegido y estructura base del repositorio | `README.md`, carpeta `src/` y `notebooks/`, primer commit |
| 2 | Primer prototipo o pruebas preliminares con datos | código de carga y procesado inicial |
| 3 | Implementación parcial de componentes clave | archivo funcional + evidencia de ejecución |
| 4 | Primeros resultados / métricas básicas | gráficos, tablas de salida, resultados intermedios |
| 5 | Feedback intermedio (revisión cruzada) entre equipos | issues/comentarios cruzados en GitHub |
| 6 | Mejoras / refactorización / experimentos adicionales | scripts refactorizados y limpieza de logs |
| 7 | Documentación de decisiones, generación de reportes | notebooks explicativos o `doc/` con comparativas |
| 8 | Implementación final y validación de resultados | ejecución reproducible + versión final `main.ipynb` |
| 9 | Preparación de presentación (slides, notebook narrado) | `presentation.ipynb` o `slides.pdf` |
| 10 | **Presentación en clase obligatoria** | defensa oral, sesión de preguntas, revisión del repo |


#### **Criterios de evaluación**

| Criterio | Peso (%) |
|---------|----------|
| **Presentación oral** (defensa técnica, comprensión profunda, dominio del contenido) | **60%** |
| **Repositorio de GitHub** (progreso continuo, calidad del código, documentación) | 30% |
| **Presentación del trabajo final** (visualización de resultados, storytelling técnico) | 10% |

> **Importante:** La presentación del trabajo **no se puede reemplazar**. Si el estudiante no se presenta o presenta un trabajo no comprendido, la calificación será de  **0**. Si se presenta un trabajo al final sin mostrar seguimiento continuo, el puntaje por el repositorio de trabajo sera de 0%. 

#### **Requisitos del repositorio**

Debe incluir al menos:
- `README.md` con descripción clara del proyecto, dataset y enfoque
- Carpeta `src/` con los módulos desarrollados
- Carpeta `notebooks/` con pruebas y visualizaciones
- Archivo `requirements.txt` o `environment.yml`
- Comandos reproducibles (Makefile o instrucciones en README)
- GitHub Actions (opcional, para pruebas automáticas o linting)


#### **Sugerencia adicional**

Antes de la entrega final:
- Se recomienda usar `issues` o `projects` de GitHub para organizar tus tareas 
- Usar ramas (`feature/`, `fix/`, `test/`) y _pull requests_ como parte de buenas prácticas
- Añadir métricas reproducibles (BLEU, ROUGE, Perplexity, etc.) con graficación


#### **Rúbrica de evaluación oral individual – Proyecto de NLP**

| Criterio | Excelente (4 pts) | Bueno (3 pts) | Regular (2 pts) | Insuficiente (1 pt) | Puntaje |
|---------|------------------|----------------|------------------|----------------------|--------|
| **1. Dominio del contenido técnico** | Explica con precisión, seguridad y profundidad todos los componentes del proyecto, incluyendo algoritmos, métricas y decisiones clave | Explica adecuadamente los aspectos principales, aunque con algunos vacíos de detalle | Muestra comprensión limitada; omite o malinterpreta partes importantes del trabajo | Evidencia poco o nulo conocimiento del proyecto; depende de leer el código sin entenderlo |      /4 |
| **2. Razonamiento y justificación técnica** | Justifica cada decisión con base en teoría o experimentación (hiperparámetros, modelos, técnicas de NLP, etc.) | Justifica la mayoría de las decisiones, aunque algunas sin evidencia concreta | Justifica parcialmente, con argumentos débiles o vagos | No justifica sus decisiones o no entiende por qué eligió un enfoque |      /4 |
| **3. Presentación de resultados** | Presenta métricas con análisis crítico, señala ventajas, limitaciones y propone mejoras | Muestra resultados claros, aunque con análisis superficial o sin propuestas | Resultados vagos o sin explicación; dificultad para vincularlos con el objetivo | No puede explicar los resultados o sólo los menciona sin contexto |      /4 |
| **4. Claridad y expresión oral** | Habla con fluidez, usa terminología técnica adecuada, mantiene coherencia y estructura lógica | Lenguaje claro en general, aunque con momentos de duda o tecnicismos mal empleados | Discurso poco claro, uso limitado del lenguaje técnico o desorganización al hablar | Lenguaje confuso o desordenado; no se logra comprender el enfoque del proyecto |      /4 |
| **5. Recursos visuales y preparación** | Uso excelente de visualizaciones, notebooks, slides u otros medios que refuerzan la exposición; excelente preparación | Usa recursos adecuados para apoyar su exposición, aunque con limitaciones en claridad o estructura | Presenta recursos poco organizados o insuficientes para complementar la explicación | No presenta recursos de apoyo o usa código sin formato, sin estructura ni explicación |      /4 |

#### **Total: /20 puntos**
  
> El plagio, falta de exposición o presentación de código no entendido anula la evaluación (**nota: 0**).


### **Proyecto 1: Implementación de un Data Loader escalable y optimizado para IA generativa**

Este proyecto consiste en diseñar y desarrollar desde cero un **Data Loader** capaz de alimentar modelos de IA generativa con flujos de datos de texto de gran tamaño, manteniendo latencias bajas y throughput alto. Sus componentes principales son:

1. **Arquitectura de streaming y batching**  
   - **Prefetching**: implementar un pool de hilos o procesos que lean chunks de texto desde disco o S3, descomprimiendo y normalizando en paralelo.  
   - **Buffers circulares**: usar un buffer de tamaño $B$ para almacenar batches de tamaño $b$, de modo que mientras el modelo consume batch $i$, el loader prepara el $i+1$.  
   - **Control de backpressure**: medir el queue length y ajustar dinámicamente la tasa de lectura para evitar saturar la memoria.

2. **Preprocesamiento en la misma tubería**  
   - **Normalización Unicode**: aplicar NFKC/ NFKD y pasar a minúsculas.  
   - **Lematización y filtrado**: usar un lematizador (por ejemplo SpaCy o NLTK) y filtrar tokens muy raros con una distancia de Levenshtein mínima  
     $$
       d(i,j) = 
       \begin{cases}
         0 & \text{si }i=j,\\
         \min\{d(i-1,j)+1,\;d(i,j-1)+1,\;d(i-1,j-1)+\mathbf{1}_{i\neq j}\} & \text{en otro caso.}
       \end{cases}
     $$
   - **Segmentación de oraciones**: dividir en unidades semánticas usando expresiones regulares o modelos basados en CRF para detectar puntos de corte.

3. **Manejo de vocabulario incremental**  
   - **Construcción de índices**: asignar IDs de token de forma lazy, reservando un token `<UNK>` inicial.  
   - **Reservoir sampling para OOV**: si aparece un token que no está en vocab y el vocab está lleno ($V_{\max}$), reemplazar aleatoriamente un token de baja frecuencia.

4. **Métricas de rendimiento y monitoreo**  
   - **Throughput $\tau$**: medir tokens procesados por segundo,
     $$
       \tau = \frac{\sum_{i=1}^n |\,\text{batch}_i|}{T_\text{total}}\quad[\tfrac{\text{tokens}}{\text{s}}].
     $$
   - **Latencia de batch**: $L_b = t_\text{fin} - t_\text{inicio}$. Graficar percentiles $p_{50}, p_{90}, p_{99}$.  
   - **Uso de memoria**: trackear RSS y ajustarse para que nunca exceda un umbral $M_{\max}$.

5. **Iteraciones y mejoras**  
   - Introducir **async I/O** (por ejemplo con `aiofiles`) y comparar contra hilos tradicionales.  
   - Implementar **Compresión en vuelo** de batches usando LZ4 o Zstandard para reducir I/O.  
   - Explorar **DataLoader distribuido**: sharding de corpus y uso de Redis como cola.

**Entregables y entregas parciales**:  
- Diseño de la arquitectura y pruebas de I/O secuencial vs paralelo.  
- Integración de normalización y lematización.  
- Métricas de rendimiento y optimizaciones de compresión.  
- Reporte final con comparativa de throughput y latencia, código en GitHub y notebook reproducible.


### **Proyecto 2: Tokenización avanzada y compresión de vocabulario con BPE**

El objetivo es implementar un sistema de tokenización basado en **Byte-Pair Encoding (BPE)** que ajuste dinámicamente su vocabulario para maximizar cobertura y minimizar OOV, midiendo su impacto en modelos de lenguaje n‑grama y neuronales.

1. **Implementación de BPE desde cero**  
   - **Inicialización**: partir de un vocabulario de caracteres.  
   - **Conteo de pares**: en cada iteración, calcular la frecuencia de cada par de sub‑tokens $(x,y)$.  
   - **Merge greedily**: seleccionar el par con mayor frecuencia  
     $$
       (x^*,y^*) = \arg\max_{(x,y)} \mathrm{count}(x\,y)
     $$
     y reemplazar todas sus apariciones por un nuevo token `xy`.  
   - **Complejidad**: usar estructuras `heap` para actualizar en $O(\log V)$ por merge, total de $O(M \log V)$ donde $M$ es número de merges.

2. **Configuración y métricas**  
   - **Tamaño de vocabulario** $V$: experimentar con $V\in\{10^4,2\!\times10^4,5\!\times10^4\}$.  
   - **Subword regularization**: implementar técnica de sampling para merges estocásticos, como en SentencePiece.  
   - **Cobertura de OOV**:  
     $$
       \text{OOV rate} = 1 - \frac{\#\text{tokens cubiertos}}{\#\text{tokens totales}}.
     $$

3. **Impacto en modelos de lenguaje**  
   - **n‑grama**: entrenar modelos de orden 3–5 con distintos BPE y medir perplejidad.  
   - **Neuronal**: usar un RNN sencillo (sin gates) con embedding size fijo y comparar convergencia.

4. **Dimensión semántica de los sub‑tokens**  
   - Visualizar embeddings de sub‑tokens con PCA o t-SNE.  
   - Analizar merges lingüísticos: caen en morfemas o generan 'juntas' arbitrarias.

5. **Entregas y pruebas**  
   - Implementación básica de BPE.  
   - Añadir subword regularization y medir OOV.  
   - Entrenar n‑grama y RNN breve, evaluar perplejidad y curva de aprendizaje.  
   - Análisis cualitativo de sub‑tokens, muestras de merges y reporte completo.



### **Proyecto 3: Análisis comparativo de técnicas de suavizado en modelos n‑grama**

En este proyecto, se implementan y comparan exhaustivamente distintas estrategias de suavizado para modelos n‑grama, evaluando su impacto en métricas de calidad y distribución de probabilidad.

1. **Modelos n‑grama y MLE**  
   - Definir probabilidad MLE de un n‑grama:
     $$
       P_{\mathrm{MLE}}(w_n\mid w_{n-N+1}^{n-1}) = \frac{c(w_{n-N+1}^n)}{c(w_{n-N+1}^{n-1})}.
     $$

2. **Suavizado aditivo (Laplace y Add‑$k$)**  
   - **Laplace** ($k=1$):
     $$
       P_{\mathrm{Lap}}(w) = \frac{c(w) + 1}{C + V}.
     $$
   - **Add‑$k$**:
     $$
       P_{\mathrm{Add}\,k}(w) = \frac{c(w) + k}{C + k\,V}.
     $$

3. **Descuento absoluto y backoff de Katz**  
   - **Absolute discounting**:
     $$
       P_{\mathrm{AD}}(w_n\mid h) = \frac{\max(c(h\,w_n) - D,0)}{c(h)} + \alpha(h)\,P_{\mathrm{lower}}(w_n\mid h').
     $$
   - **Backoff de Katz**: aplicar descuento sólo si $c>D$; en otro caso, retroceder a $n-1$-grama.

4. **Interpolación lineal**  
   - Combinar K órdenes:
     $$
       P_{\mathrm{INT}}(w_n\mid h) = \sum_{i=1}^N \lambda_i\,P_{\mathrm{MLE}}(w_n\mid h_i),\quad \sum\lambda_i=1.
     $$

5. **Suavizado de Kneser–Ney**  
   - **Kneser–Ney** modificado:
     $$
       P_{\mathrm{KN}}(w_n\mid h) = \frac{\max(c(h\,w_n)-D,0)}{c(h)} + \gamma(h)\,P_{\mathrm{cont}}(w_n),
     $$
     donde
     $$
       P_{\mathrm{cont}}(w) = \frac{\#\{\text{historia }h':h'\,w\}}{\sum_{w'}\#\{\!h'\!:\!h'\,w'\}}.
     $$
   - Calcular $\gamma(h)=\frac{D}{c(h)}\times|\{w:c(h\,w)>0\}|$.

6. **Evaluación y métricas**  
   - **Perplejidad** en conjunto de validación:
     $$
       \text{PP} = \exp\Bigl(-\tfrac{1}{N}\sum_{i=1}^N\log P(w_i\mid w_{1}^{i-1})\Bigr).
     $$
   - **Held‑out likelihood**: producto de probabilidades en datos no vistos.  
   - Experimentar con ruido sintético (inserción de errores tipográficos) y medir degradación.

7. **Cronograma**  
   - MLE, Laplace y Add‑$k$.  
   - Absolute discounting y Katz backoff.  
   - Interpolación lineal y ajuste de $\lambda$.  
   - Implementación completa de Kneser–Ney, evaluación comparativa con gráficos de PP y análisis de trade‑offs.


### **Proyecto 4: Descuento y backoff "online" para n‑gramas en flujo de datos**

Este reto propone diseñar un sistema de **suavizado dinámico** que ajuste parámetros de descuento y backoff en tiempo real sobre flujos de texto—fundamental para servicios de lenguaje en producción.

1. **Manejo de flujo de datos**  
   - Emplear un generador infinito de texto (por ejemplo, logs de chat).  
   - Utilizar un **Sliding Window** de tamaño $W$ para mantener en memoria solo los últimos $W$ tokens.

2. **Conteo aproximado de n‑gramas**  
   - Para escalabilidad, usar un **Count–Min Sketch** (CMS) con parámetros $(\epsilon,\delta)$, de modo que  
     $$
       \hat{c}(w) \le c(w) + \epsilon \|\mathbf{c}\|_1 \quad\text{con probabilidad }1-\delta.
     $$
   - Mantener CMS por órdenes de n‑grama (1 a $N$).

3. **Actualización de parámetros de descuento**  
   - Estimar dinámicamente el descuento $D$ según frecuencia de co‑ocurrencias en ventana:  
     $$
       D = \frac{N_1}{N_1 + 2N_2},
     $$
     donde $N_k$ es el número de n‑gramas vistos exactamente $k$ veces en la ventana.

4. **Backoff "online"**  
   - Calcular la normalización $\alpha(h)$ en cada paso usando conteos parciales de CMS.  
   - Implementar versiones streaming de  
     $$
       P(w\mid h) = 
       \begin{cases}
         \frac{\max(\hat{c}(h\,w)-D,0)}{\hat{c}(h)} & \hat{c}(h)>0,\\
         \alpha(h)\,P(w\mid h')                & \text{en otro caso.}
       \end{cases}
     $$

5. **Algoritmo**  
   ```pseudo
   init CMSs for orders 1..N
   for each token t in stream:
     update_CMSs(window.append(t))
     if window.size>W: pop_left(window)
     current_ngram = last N tokens
     estimate c, D, α
     output P(t | history) via discounted-backoff
   ```

6. **Métricas de calidad**  
   - **Degradación de perplejidad** con ventanas de distintos tamaños $W$.  
   - **Latencia de cálculo** por token (máximo < 1 ms).  
   - **Memoria usada** por CMS ($O(\frac{1}{\epsilon}\log\frac{1}{\delta})$).

7. **Cronograma**  
   - Prototipo secuencial con ventanas fijas.  
   - Integración de CMS y cálculo incremental de $D$.  
   - Implementación de backoff completo "online".  
   - Pruebas de latencia y memoria; ajuste de $\epsilon,\delta$.  
   - Reporte con comparativas y recomendaciones de configuración.


### **Proyecto 5: Retropropagación a través del tiempo y ajuste de hiperparámetros en RNN con puertas**

En este trabajo se construye y ajusta un RNN con puertas (LSTM o GRU) aplicado a modelado de lenguaje, prestando especial atención a la **Retropropagación a través del tiempo (BPTT)** y la estabilidad del entrenamiento.

1. **Definición de la arquitectura**  
   - **LSTM**:  
     $$
       f_t = \sigma(W_f[x_t,h_{t-1}]+b_f),\quad
       i_t = \sigma(W_i[x_t,h_{t-1}]+b_i),
     $$
     $$
       \tilde{c}_t = \tanh(W_c[x_t,h_{t-1}]+b_c),\quad
       c_t = f_t\odot c_{t-1} + i_t\odot \tilde{c}_t,
     $$
     $$
       o_t = \sigma(W_o[x_t,h_{t-1}]+b_o),\quad
       h_t = o_t\odot\tanh(c_t).
     $$
   - **GRU** (opcional): similar pero con menos puertas.

2. **BPTT y cálculo de gradientes**  
   - Para un loss $L$ sobre secuencia de largo $T$:
     $$
       \frac{\partial L}{\partial W_h}
       = \sum_{t=1}^T \frac{\partial L}{\partial h_t}\frac{\partial h_t}{\partial W_h}
       = \sum_{t=1}^T \delta_t\;h_{t-1}^\top.
     $$
   - **Truncamiento** de BPTT en ventanas de longitud $k$ para limitar costo computacional.

3. **Problemas de vanishing/exploding gradients**  
   - **Clip de gradiente**:  
     $$
       \hat{g} = 
       \begin{cases}
         g & \|g\|\le C,\\
         \frac{C}{\|g\|}\,g & \text{si }\|g\|>C.
       \end{cases}
     $$
   - **Inicialización de pesos**: usar Xavier/He.

4. **Selección de hiperparámetros**  
   - **Learning rate** $\alpha$ (grid search o bayesiano).  
   - **Batch size** $B$.  
   - **Hidden size** $H$.  
   - **Dropout** entre capas.  
   - **Clipping norm** $C$.

5. **Evaluación**  
   - **Curvas de entrenamiento** (loss vs epoch).  
   - Medir **perplejidad** al final de cada epoch:
     $$
       \mathrm{PP} = \exp\bigl(\tfrac{L}{N}\bigr).
     $$
   - Graficar gradientes medios y distribuciones para confirmar estabilidad.

6. **Plan de entrega**  
   - Implementación básica de LSTM/GRU y BPTT truncado.  
   - Explorar efectos de $\alpha,B,H$.  
   - Integrar clipping y dropout, analizar gradientes.  
   - Entrenamiento completo, recolectar métricas.  
   - Fine‑tuning automático de hiperparámetros.  
   - Comparar arquitecturas (LSTM vs GRU), documentar resultados.


### **Proyecto 6: Evaluación de modelos de lenguaje recurrentes: perplejidad y palabras fuera de vocabulario**

Este proyecto gira en torno a la **evaluación rigurosa** de modelos RNN para lenguaje, con foco en métricas clave y manejo de OOV.

1. **Definición de métricas**  
   - **Perplejidad (PP)**:
     $$
       \mathrm{PP}(W) = \exp\Bigl(-\tfrac{1}{N}\sum_{i=1}^N\log P(w_i\mid w_{1}^{i-1})\Bigr).
     $$
   - **Held‑out Likelihood**:  
     $$
       L_{\text{held}} = \prod_{i=1}^{N_{\text{held}}}P(w_i\mid w_{1}^{i-1}).
     $$
   - **Coverage de vocabulario**: porcentaje de tokens en test presentes en vocabulario de entrenamiento.

2. **Gestión de OOV**  
   - **Token `<UNK>`**: reemplazar todo token raro por un token UNK.  
   - **Backoff a modelo de caracteres**: usar un RNN char‑level para generar UNK a nivel subword.  
   - **Distancia de Levenshtein** para asignar candidatos cercanos:  
     $$
       \hat{w} =
       \arg\min_{v\in V}\,d_{\text{Lev}}(w,v).
     $$

3. **Diseño experimental**  
   - Entrenar un LSTM de 2 capas con embedding de dimensión 300 y hidden size 512 sobre un corpus estándar (WikiText-2).  
   - Generar tres variantes de vocabulario ($10^4, 3\times10^4, 5\times10^4$).

4. **Análisis de resultados**  
   - Reportar PP en validación y test.  
   - Medir **rate de OOV**:  
     $$
       \mathrm{OOV\%} = 100\cdot\frac{|\{w_i:w_i\notin V\}|}{N}.
     $$
   - Comparar estrategias: UNK puro vs. backoff char‑level vs. Levenshtein.

5. **Cronograma**  
   - Preparar datasets y pipeline de entrenamiento.  
   - Entrenar y evaluar vocab $10^4$.  
   - Entrenar vocab $3\times10^4$, medir OOV.  
   - Implementar backoff char‑level.  
   - Medir Levenshtein reassignment.  
   - Compilar métricas y gráficos.  
   - Escribir reporte con tablas de PP vs OOV y recomendaciones.

### **Proyecto 7: Algoritmo de Viterbi y notación de semianillos en HMM para etiquetado de secuencias**

El objetivo es implementar y generalizar el **algoritmo de Viterbi** para HMM clásicos y su formulación con **semianillos**, explorando distintos semiring y sus aplicaciones en etiquetado de secuencias.

1. **Definición de HMM**  
   - Estados $S=\{s_1,\dots,s_K\}$, observaciones $O$, matriz de transición $A=[a_{ij}]$ y de emisión $B=[b_i(o)]$.  
   - Objetivo: encontrar la secuencia $s_{1:T}^*$ que maximiza $P(s_{1:T},o_{1:T})$.

2. **Viterbi clásico**  
   - Recurrencia:
     $$
       \delta_t(i) = \max_{1\le j\le K}\bigl[\delta_{t-1}(j)\,a_{j,i}\bigr]\;b_i(o_t),
     $$
     con
     $\delta_1(i)=\pi_i b_i(o_1)$.  
   - **Backpointer**:
     $$
       \psi_t(i) = \arg\max_j[\delta_{t-1}(j)\,a_{j,i}].
     $$
   - Reconstrucción:
     $\hat{s}_T = \arg\max_i \delta_T(i)$, luego retroceder con $\psi$.

3. **Semianillos y formulación general**  
   - Un **semiring** es $(\mathcal{K},\oplus,\otimes,0,1)$.  
   - Viterbi ↔ $\oplus=\max,\;\otimes=\times$.  
   - Forward ↔ $\oplus=+\,,\;\otimes=\times$.  
   - Recurrencia general:
     $$
       \delta_t(i)=\bigoplus_j\bigl[\delta_{t-1}(j)\otimes u_{j,i}(o_t)\bigr].
     $$

4. **Aplicación y extensiones**  
   - Implementar Viterbi con diferentes semiring (por ejemplo, log‑semiring para evitar underflow).  
   - Extender a **Viterbi generalizado** con semianillos de conteo para enumerar las $k$ mejores trayectorias.

5. **Plan de actividades**  
   - Codificar HMM básico y Viterbi clásico.  
   - Backpointer y reconstrucción de secuencia.  
   - Definir abstracción semiring y reescribir Viterbi genérico.  
   - Implementar semiring de sum‑product y log‑semiring.  
   - Extender para top‑$k$ paths (k‑best Viterbi).  
   - Pruebas en corpus de POS-tagging y análisis de precisión.


### **Proyecto 8: Etiquetado de secuencias discriminativo: perceptrón estructurado, SVM estructurada y CRF**

Comparar tres enfoques discriminativos para **sequence labeling**, desde algoritmos online sencillos hasta modelos probabilísticos complejos.

1. **Perceptrón estructurado**  
   - **Función de puntuación**: $F(x,y;\theta)=\theta^\top f(x,y)$.  
   - **Actualización online**:
     $$
       \theta \leftarrow \theta + f(x,y^{(t)}) - f(x,\hat y^{(t)}),
     $$
     donde $\hat y^{(t)}=\arg\max_y F(x,y;\theta)$.  
   - **Features**:  
     - Unigramas y bigramas de etiquetas ($y_{t-1},y_t$).  
     - Prefijos y sufijos de la palabra $x_t$.  
     - Indicadores de mayúscula, dígitos y morfología.

2. **SVM estructurada (Structured SVM)**  
   - **Objetivo primal**:
     $$
       \min_{\theta,\xi} \;\tfrac{1}{2}\|\theta\|^2 + C\sum_i \xi_i,
     $$
     sujeto a  
     $\forall i,y\neq y_i:\;\theta^\top[f(x_i,y_i)-f(x_i,y)]\ge \Delta(y_i,y)-\xi_i.$  
   - Usar **cutting-plane** (algoritmo de Joachims) o **SGD**.

3. **Conditional Random Fields (CRF)**  
   - **Log‑likelihood**:
     $$
       L(\theta) = \sum_{i=1}^M \Bigl[\theta^\top f(x^{(i)},y^{(i)}) - \log Z_\theta(x^{(i)})\Bigr],
     $$
     donde  
     $$
       Z_\theta(x)=\sum_{y'}\exp\bigl(\theta^\top f(x,y')\bigr).
     $$
   - Gradiente:
     $\nabla L=\sum_i [f(x,y^{(i)}) - \mathbb{E}_{y'\sim p_\theta}[f(x,y')]]$.  
   - Optimizar con L-BFGS o SGD estocástico.

4. **Evaluación**  
   - Métricas: **precision**, **recall**, **F1** a nivel de entidad.  
   - Conjunto de datos: CoNLL‑2003 NER.  
   - Comparar velocidad de entrenamiento y calidad.

5. **Cronograma**  
   - Implementar perceptrón estructurado.  
   - Entrenar y evaluar perceptrón.  
   - Codificar Structured SVM (usar lib SVM-light estructural).  
   - Entrenar SVM y recoger métricas.  
   - Implementar CRF (usar CRFsuite o desde cero).  
   - Comparar resultados, ablation de features y reporte técnico.


### **Proyecto 9: Etiquetado de secuencias con redes neuronales: RNNs y CNNs a nivel de carácter**

Se crea un modelo híbrido de **CNN char‑level + RNN word‑level** para resolver tasks de NER o POS-tagging, aprovechando información morfológica.

1. **Módulo char‑CNN**  
   - **Embedding de caracteres**: vector de dimensión $d_c$.  
   - **Convoluciones 1D** con filtros de anchuras $\{3,5,7\}$ y $F$ mapas cada uno.  
   - **Max‑pooling** sobre longitud variable para obtener vector fijo por palabra:
     $$
       v_{\text{char}} = \max_{i=1\dots L}\bigl(\mathrm{CNN}(c_1,\dots,c_L)\bigr).
     $$

2. **Combinación con embedding de palabra**  
   - Concatenar $v_{\text{char}}$ con embedding preentrenado (o aleatorio) $v_{\text{word}}$.  
   - Resultado $x_t = [v_{\text{char}};v_{\text{word}}]$.

3. **RNN bidireccional**  
   - Usar **BiLSTM**:
     $\overrightarrow{h}_t = \mathrm{LSTM}(x_t,\overrightarrow{h}_{t-1})$,  
     $\overleftarrow{h}_t = \mathrm{LSTM}(x_t,\overleftarrow{h}_{t+1})$.  
   - Concatenar $[\,\overrightarrow{h}_t;\overleftarrow{h}_t]$ y pasar a capa densa.

4. **Capa de etiquetado y pérdida**  
   - **Softmax** sobre etiquetas:
     $$
       \hat y_t = \mathrm{softmax}(W[h_t] + b).
     $$
   - **Loss**: cross‑entropy sumado sobre $t$:
     $\mathcal{L} = -\sum_{t=1}^T \log \hat y_t[y_t]$.

5. **Optimización y regularización**  
   - **Adam** con $\alpha=0.001$.  
   - **Dropout** en embedders y salida de RNN (p=0.5).  
   - **Early stopping** con paciencia de 5 epochs.

6. **Plan de trabajo**  
   - Codificar char‑CNN y probar extracción de features morfológicos.  
   - Integrar embedding de palabra y RNN unidireccional.  
   - Cambiar a BiLSTM y ajustar hiperparámetros.  
   - Añadir dropout y early stopping.  
   - Entrenar en CoNLL‑2003 y medir precision/recall.  
   - Análisis de errores por palabra (OOV vs IV) y reporte final.

### **Proyecto 10: Semántica vectorial y evaluación de representaciones: TF‑IDF, PMI, Word2vec (CBOW vs Skip‑gram)**

Este proyecto explora métodos clásicos y neuronales para obtener **representaciones de palabras**, evaluando su calidad intrínseca y extrínseca.

1. **TF‑IDF y PMI**  
   - **TF‑IDF**:
     $$
       \text{tfidf}_{t,d} = \text{tf}_{t,d}\times \log\frac{N}{\text{df}_t}.
     $$
   - **PMI** para par $(w,c)$:
     $$
       \mathrm{PMI}(w,c) = \log\frac{P(w,c)}{P(w)P(c)}.
     $$

2. **Word2vec: CBOW y Skip‑gram**  
   - **CBOW** objetivo:
     $$
       \max_\theta \sum_{t=1}^T \log P(w_t\mid w_{t-k}^{t-1},w_{t+1}^{t+k}),
     $$
     con
     $\;P(w_t\mid \cdot) = \mathrm{softmax}(v_{w_t}^\top \bar{v})$.  
   - **Skip‑gram** objetivo:
     $$
       \max_\theta \sum_{t=1}^T \sum_{-k\le j\le k,\,j\neq0}\log P(w_{t+j}\mid w_t).
     $$
   - **Negative sampling**:
     $$
       \log\sigma(v_c^\top v_w) + \sum_{i=1}^K\log\sigma(-v_{c_i}^\top v_w).
     $$

3. **Evaluación intrínseca**  
   - **Similitud de coseno**:
     $$
       \cos(\mathbf{u},\mathbf{v}) = \frac{\mathbf{u}\cdot \mathbf{v}}{\|\mathbf{u}\|\|\mathbf{v}\|}.
     $$
   - **Analogías**: resolver $v_{king}-v_{man}+v_{woman}\approx v_{queen}$.  
   - Correlación Spearman con benchmarks (WordSim-353).

4. **Evaluación extrínseca**  
   - **Clasificación de documentos**: entrenar SVM con features TF‑IDF vs embeddings promedio.  
   - Métricas: **accuracy**, **F1**, **ROC‑AUC**.

5. **Análisis de sesgo y equidad**  
   - **WEAT** (Word Embedding Association Test): calcular diferenciales $d$.  
   - Probar reducción de sesgo con **hard‑debiasing** (Bolukbasi et al.).

6. **Cronograma**  
   - Calcular TF‑IDF y PMI; entrenar modelos Word2vec.  
   - Evaluación intrínseca.  
   - Experimento extrínseco en clasificación.  
   - Medir y mitigar sesgos.  
   - Consolidar resultados, graficar comparativas de coseno, correlaciones y métricas de clasificación.


### **Proyecto 11: Explorando librerías de IA generativa y creación de un pipeline modular**

**Objetivo.** Evaluar y comparar las principales librerías de IA generativa (por ejemplo, Hugging Face Transformers, OpenAI API, Diffusers) y construir un _pipeline_ modular que permita experimentar con distintos modelos, tokenizadores y estrategias de _prompting_.

1. **Selección y evaluación de librerías**  
   - **Transformers** (Hugging Face): carga de modelos preentrenados, _tokenizers_ rápidos en Rust, y generación con _top-k_ y _nucleus sampling_.  
   - **OpenAI API**: abstracción de llamadas REST, límites de tasa y _streaming_.  
   - **Diffusers**: para tareas multimodales (texto→imagen), uso de pipelines como `StableDiffusionPipeline`.  
   - **Benchmark**: medir tiempo de inicialización, uso de GPU vs CPU, latencia por _token_ y calidad (mediante métricas cualitativas).

2. **Diseño de un DataLoader/genérico**  
   - Integra con el Proyecto 1: convierte corpus de texto e imágenes en batches mixtos.  
   - Usa una interfaz común ("`next_batch()`"): cada batch contiene `input_ids`, `attention_mask`, y metadatos (longitudes, idiomas).  
   - Permite combinar distintos _tokenizers_ (BPE, WordPiece, SentencePiece) en el mismo flujo.

3. **Prompt engineering y estrategias de decodificación**  
   - Implementar _sampling_ con hyperparámetros:  
     $$
       P_\text{next}(w) \propto  
       \begin{cases}
         p(w) & \text{si }p(w)\ge p_{\min},\\
         0 & \text{si }p(w)< p_{\min},
       \end{cases}
     $$  
     donde $p_{\min}$ surge de _top-p_ (nucleus) o _top-k_.  
   - Medir diversidad con **self-BLEU**:  
     $$
       \text{self-BLEU} = \frac{1}{M}\sum_{i=1}^M \text{BLEU}(\text{gen}_i,\{\text{gen}_j\}_{j\neq i}).
     $$

4. **Evaluación de calidad**  
   - **Métricas automáticas**: BLEU, ROUGE-L, METEOR.  
   - **Evaluación humana**: cuadrantes de coherencia, relevancia y fluidez en una escala Likert de 1–5.  
   - Crear un pequeño panel de 5 evaluadores que ratingeen 50 muestras.  

5. **Cronograma**  
   - Instalar y fijar entornos para cada librería; pruebas de carga y generación de ejemplos mínimos.  
   - Implementar DataLoader genérico y pipelines de entrada.  
   - Integrar estrategias de _prompting_ y decodificación; primer benchmark de latencia.  
   - Aplicar métricas automáticas; recoger resultados en tablas comparativas.  
   - Organizar evaluación humana y procesar scores.  
   - Comparación final, análisis de trade‑offs (velocidad vs. calidad), recomendaciones y código en repositorio público.


### **Proyecto 12: Normalización, lematización y su impacto en modelos n‑grama y RNN**

**Objetivo.** Diseñar distintos pipelines de preprocesamiento de texto centrados en normalización y lematización, y medir su efecto sobre modelos n‑grama y RNN.

1. **Técnicas de preprocesamiento**  
   - **Unicode normalization**: NFKC vs. NFD.  
   - **Lowercasing** y manejo de acentos (`á→a`).  
   - **Lematización**: SpaCy vs. NLTK vs. Porter stemmer.  
   - **Distancia de Levenshtein** para agrupar variantes:  
     $$
       d_{\text{Lev}}(s,t)=
       \begin{cases}
         0 & s=t,\\
         \min\{d(s_{1..|s|-1},t)+1,\;d(s,t_{1..|t|-1})+1,\;d(s_{1..|s|-1},t_{1..|t|-1})+\mathbf{1}_{s_{|s|}\neq t_{|t|}}\}
       \end{cases}
     $$

2. **Pipelines a comparar**  
   - **Pipeline A**: NFKC → minúsculas → tokenización whitespace → no lematización.  
   - **Pipeline B**: Unicode NFC → lower → lematización SpaCy → filtro tokens < 3 caracteres.  
   - **Pipeline C**: NFD → lower → stemmer Porter → agrupación Levenshtein ≤ 1.  

3. **Evaluación en n‑grama y RNN**  
   - Reentrenar modelo n‑grama de orden 4 con suavizado Kneser–Ney (proyecto 3) en cada pipeline.  
   - Entrenar un LSTM de 2 capas (proyecto 5) con embeddings de 300 dimensiones.  
   - Medir **perplejidad** ($\mathrm{PP}$) en test:  
     $$
       \mathrm{PP}=\exp\Bigl(-\tfrac{1}{N}\sum_{i=1}^N\log P(w_i\mid w_{<i})\Bigr).
     $$

4. **Análisis de resultados**  
   - Tabla comparativa de $\mathrm{PP}$ y _held‑out likelihood_ para cada pipeline.  
   - Tiempo de preprocesamiento por millón de tokens.  
   - Impacto en _vocab size_ y **OOV rate**:
     $$
       \text{OOV rate} = 1-\frac{|\{w_i:w_i\in V\}|}{N}.
     $$

5. **Cronograma**  
   - Implementar y probar pipelines A, B y C.  
   - Reentrenar n‑grama y recopilar métricas de PP.  
   - Entrenar LSTM en cada pipeline; monitorear convergencia y PP.  
   - Análisis estadístico (ANOVA) para verificar diferencias significativas.  
   - Reporte con gráficos de PP vs. pipeline y recomendaciones de preprocesamiento.



### **Proyecto 13: Modelos secuencia a secuencia con atención y métricas de evaluación de calidad**

**Objetivo.** Construir un modelo Seq2Seq con atención para una tarea de traducción o resumen, y evaluar su desempeño con métricas como BLEU, ROUGE, precisión, recall y F1.

1. **Arquitectura Seq2Seq con atención**  
   - **Encoder**: BiLSTM de encoder de dimensión $H$.  
   - **Decoder**: LSTM unidireccional, paso a paso, con atención global de Bahdanau:  
     $$
       e_{t,i} = v_a^\top \tanh(W_h h_i + W_s s_{t-1}),\quad
       \alpha_{t,i} = \frac{\exp(e_{t,i})}{\sum_j\exp(e_{t,j})},
     $$
     $$
       c_t = \sum_i \alpha_{t,i} h_i,\quad
       s_t = \mathrm{LSTM}(y_{t-1},[s_{t-1};c_t]).
     $$
   - **Output**: cálculo de probabilidad con _softmax_:
     $$
       P(y_t\mid y_{<t},x) = \mathrm{softmax}(W_o[s_t;c_t]+b_o).
     $$

2. **Métricas de evaluación**  
   - **BLEU** (n=1…4):
     $$
       \mathrm{BLEU} = \mathrm{BP}\exp\Bigl(\sum_{n=1}^4 w_n\log p_n\Bigr),\quad
       \mathrm{BP} = \exp\bigl(1-\tfrac{r}{c}\bigr)^+.
     $$
   - **ROUGE‑L** (Longest Common Subsequence).  
   - **Precisión, Recall, F1** a nivel de _n_-grama:
     $$
       \text{Precision} = \frac{\#\text{ngramas predichos correctos}}{\#\text{ngramas predichos}},
     \quad
       \text{Recall} = \frac{\#\text{ngramas predichos correctos}}{\#\text{ngramas de referencia}}.
     $$

3. **Tarea experimental**  
   - Elegir dataset: IWSLT’14 (fr->en) o CNN/DailyMail (resumen).  
   - Entrenar modelo con embedding de dimensión 256 y hidden 512.  
   - Optimizar con Adam ($\alpha=0.0005$), _dropout_ 0.3 y _early stopping_.

4. **Plan de entregas**  
   - Preparar datos y pipeline de lectura, tokenización BPE (proyecto 2).  
   - Implementar encoder/decoder y atención básica.  
   - Entrenar y ajustar hiperparámetros; graficar _loss_ vs _epoch_.  
   - Implementar cálculo de BLEU/ROUGE y generar ejemplos de salida.  
   - Análisis de errores: atención mal enfocada y long sequence.  
   - Reporte final con métricas, ejemplos y recomendaciones para producción.


### **Proyecto 14: Etiquetado de secuencias no supervisado y sistemas dinámicos lineales**

**Objetivo.** Explorar métodos de **etiquetado de secuencias sin supervisión**, combinando HMM entrenados por EM, clúster jerárquico y **sistemas dinámicos lineales (LDS)** para descubrir etiquetas latentes.

1. **HMM no supervisado con EM**  
   - Parámetros: $\pi_i$, $A=[a_{ij}]$, emisiones $B=[b_i(x)]$.  
   - **E‑step**: calcular $\gamma_t(i)=P(s_t=i\mid x_{1:T})$ y $\xi_t(i,j)=P(s_{t-1}=i,s_t=j\mid x_{1:T})$ con forward-backward.  
   - **M‑step**: reestimar  
     $$
       \pi_i' = \gamma_1(i),\quad
       a_{ij}' = \frac{\sum_{t=2}^T\xi_t(i,j)}{\sum_{t=2}^T\gamma_{t-1}(i)},\quad
       b_i'(x_k) = \frac{\sum_{t:x_t=x_k}\gamma_t(i)}{\sum_{t=1}^T\gamma_t(i)}.
     $$

2. **Clúster jerárquico de secuencias**  
   - Representar cada secuencia como vector de frecuencias de n‑gramas.  
   - Aplicar **agglomerative clustering** con distancia de Coseno.  
   - Asignar etiquetas según cluster.

3. **Sistemas dinámicos lineales (LDS)**  
   - Formulación de Kalman Filter:  
     $$
       x_{t+1} = F x_t + w_t,\quad
       y_t = H x_t + v_t,\quad
       w_t\sim\mathcal{N}(0,Q),\;v_t\sim\mathcal{N}(0,R).
     $$
   - Estimar $F,H,Q,R$ con EM de LDS.  
   - Uso de estados latentes $x_t$ como etiquetas suavizadas.

4. **Comparativa y evaluation**  
   - Medir **coherencia interna** de clusters (Silhouette).  
   - Para HMM y LDS, evaluar **perplejidad** como proxy de ajuste.  
   - Visualizar trayectorias latentes en 2D con PCA.

5. **Cronograma**  
   - Implementar HMM+EM y probar convergencia.  
   - clustering jerárquico y análisis de Silhouette.  
   - Formular y entrenar LDS con EM; filtrar secuencias.  
   - Comparar etiquetas y evaluar perplejidad/clustering.  
   - Reporte final, visualizaciones de trayectorias latentes y discusión de ventajas y limitaciones.



### **Proyecto 15: Implementación de HMM y algoritmo de Viterbi con ejemplo de POS‑Tagging**

**Objetivo.** Construir desde cero un **Hidden Markov Model (HMM)** de primer orden para etiquetado de partes de habla (POS‑tagging) y aplicar el **algoritmo de Viterbi** con backpointers, mostrando un ejemplo completo paso a paso.

1. **Definición del HMM**  
   - Conjunto de estados $S=\{\text{NOUN, VERB, ADJ,…}\}$, observaciones $O$ (palabras).  
   - Parámetros: $\pi_i=P(s_1=i)$, $A=[a_{ij}=P(s_t=j\mid s_{t-1}=i)]$ y $B=[b_j(o)=P(o\mid s=j)]$.

2. **Algoritmo de Viterbi**  
   - **Inicialización** ($t=1$):
     $$
       \delta_1(i)=\pi_i\,b_i(o_1),\quad \psi_1(i)=0.
     $$
   - **Recurrencia** ($t=2\ldots T$):
     $$
       \delta_t(j)=\max_{i}\bigl[\delta_{t-1}(i)\,a_{ij}\bigr]\;b_j(o_t),\quad
       \psi_t(j)=\arg\max_{i}[\delta_{t-1}(i)\,a_{ij}].
     $$
   - **Terminación**:
     $\hat s_T=\arg\max_i\delta_T(i)$ y retroceso usando $\psi$.  
   - **Backpointer**: reconstrucción $\hat s_t=\psi_{t+1}(\hat s_{t+1})$.

3. **Ejemplo detallado**  
   - Corpus pequeño: "Time flies like an arrow".  
   - Tablas de $\pi$, $A$ y $B$ con valores sintéticos.  
   - Cálculo manual de $\delta_t$ y $\psi_t$ para cada paso, mostrando matrices y vectores.

4. **Características de orden superior**  
   - Extender a trigramas de estados ($P(s_t\mid s_{t-2},s_{t-1})$).  
   - Modificar recurrencia:
     $$
       \delta_t(k)\!=\!\max_{i,j}[\delta_{t-2}(i)\,a_{ij,k}]\;b_k(o_t),
     $$
     donde $a_{ij,k}=P(s_t=k\mid s_{t-2}=i,s_{t-1}=j)$.

5. **Entregables y cronograma**  
   - Definición de estados, estimación puntual de $\pi,A,B$.  
   - Implementación de Viterbi de primer orden y ejemplo manual.  
   - Pruebas y validación con corpus real (e.g., Brown Corpus).  
   - Extensión a trigrama‑HMM y adaptación de código.  
   - Informe comparativo de precisión y tiempo de ejecución.  
   - Optimización de estructuras de datos (arrays vs. diccionarios) y preprocesamiento de etiquetas.  

### **Proyecto 16: Estimación de parámetros en HMM con Baum–Welch y análisis de convergencia**

**Objetivo.** Implementar el **algoritmo Baum–Welch** (EM para HMM) para estimar parámetros $\pi,A,B$ a partir de datos sin etiquetas y analizar su convergencia y sensibilidad a la inicialización.

1. **Formulación EM**  
   - **E‑step**: calcular esperanzas usando forward-backward:  
     $$
       \gamma_t(i)=P(s_t=i\mid O,\theta),\quad
       \xi_t(i,j)=P(s_t=i,s_{t+1}=j\mid O,\theta).
     $$
   - **Forward** $\alpha$ y **Backward** $\beta$:  
     $\alpha_1(i)=\pi_i b_i(o_1)$,  
     $\alpha_{t+1}(j)=\sum_i\alpha_t(i)a_{ij}b_j(o_{t+1})$.  
     Similar para $\beta$.

2. **M‑step**: reestimar  
   $$
     \pi_i'=\gamma_1(i),\quad
     a_{ij}'=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)},\quad
     b_j'(k)=\frac{\sum_{t:o_t=k}\gamma_t(j)}{\sum_{t=1}^T\gamma_t(j)}.
   $$

3. **Análisis de convergencia**  
   - Ejecutar múltiples inicializaciones aleatorias.  
   - Medir log‑likelihood en cada iteración:
     $$
       L(\theta) = \sum_{t=1}^T \log\Bigl(\sum_i\alpha_t(i)\beta_t(i)\Bigr).
     $$
   - Visualizar curvas de $L(\theta)$ vs. iteraciones y comparar tiempo a convergencia.

4. **Ejemplo**  
   - Dataset de etiquetas ocultas: secuencias de POS parcialmente observadas.  
   - Comparar parámetros estimados contra valores “verdaderos” en HMM sintético.

5. **Entregables y cronograma**  
   - Implementación de forward–backward y validación numérica.  
   - E‑step y M‑step completos en toy example.  
   - Pruebas con corpus real y captación de log‑likelihood.  
   - Análisis de sensibilidad a $\theta^{(0)}$.  
   - Ajustes de regularización (pseudocounts).  
   - Informe con tablas de convergencia y recomendaciones de inicialización.  

### **Proyecto 17: Inferencia en HMM: Algoritmo forward–backward, entropía y probabilidad marginal**

**Objetivo.** Profundizar en la **inferencia** de HMM calculando probabilidades marginales, entropía de secuencias y probabilidad de observaciones, usando el **algoritmo forward–backward** y variantes en el dominio log.

1. **Forward–Backward**  
   - **Forward** ($\alpha$) como en proyecto 16.  
   - **Backward** ($\beta$):  
     $\beta_T(i)=1$,  
     $\beta_t(i)=\sum_j a_{ij}\,b_j(o_{t+1})\,\beta_{t+1}(j).$

2. **Cálculo de probabilidades marginales**  
   - $P(s_t=i\mid O) = \frac{\alpha_t(i)\beta_t(i)}{\sum_k\alpha_t(k)\beta_t(k)}.$  
   - Visualizar distribuciones marginales en cada posición $t$.

3. **Entropía de la cadena**  
   - Definir entropía condicional:
     $$
       H(S\mid O) = -\sum_{t=1}^T\sum_i P(s_t=i\mid O)\log P(s_t=i\mid O).
     $$
   - Interpretar incertidumbre del modelo ante diferente longitud de secuencia.

4. **Probabilidad de la secuencia de observaciones**  
   $$
     P(O) = \sum_i\alpha_T(i)\quad\text{o en log‑dominio:}\quad
     \log P(O) = \log\sum_i\exp(\log\alpha_T(i)).
   $$
   - Implementar **log-sum-exp** para evitar underflow:
     $$
       \log\sum_i e^{x_i} = m + \log\sum_i e^{x_i - m},\quad m=\max_i x_i.
     $$

5. **Entregables y cronograma**  
   - Forward–Backward en toy example; cálculo de $\alpha,\beta$.  
   - Inferencia marginal y mapas de calor de $P(s_t)$.  
   - Entropía y análisis de incertidumbre por longitud $T$.  
   - Implementación log‑sum‑exp y pruebas numéricas.  
   - Aplicar a corpus real y comparar entropías entre oraciones cortas y largas.  
   - Reporte con gráficos de entropía vs. longitud y código modular.  


### **Proyecto 18: HMM de orden superior y Viterbi extendido para modelos trigramáticos**

**Objetivo.** Ampliar el HMM clásico a un **HMM de segundo orden** (trigramas de estados) e implementar la versión extendida de Viterbi para secuencias más ricas en dependencias de contexto.

1. **Definición de HMM de orden 2**  
   - Transiciones $a_{i,j,k}=P(s_t=k\mid s_{t-2}=i, s_{t-1}=j)$.  
   - Emisiones $b_k(o_t)$ como antes.

2. **Viterbi extendido**  
   - **Inicialización** (t=1,2):  
     $\delta_2(i,j)=\pi_i\,a_{i,j} \,b_j(o_2)$.  
   - **Recurrencia** ($t\ge3$):
     $$
       \delta_t(j,k)=\max_i\bigl[\delta_{t-1}(i,j)\,a_{i,j,k}\bigr]\,b_k(o_t),
     $$
     con backpointer $\psi_t(j,k)=\arg\max_i[\delta_{t-1}(i,j)\,a_{i,j,k}]$.

3. **Complejidad y optimizaciones**  
   - Complejidad $O(T\times|S|^3)$.  
   - Proponer poda de estados de baja probabilidad ($\delta<\epsilon$).  
   - Uso de estructuras dispersas si $A$ es esparso.

4. **Ejemplo práctico**  
   - Corpus limitado: dispositivos médicos con jerga.  
   - Comparar Viterbi 1ro vs 2do orden en precisión de etiquetas.

5. **Entregables y cronograma**  
   - Implementar Viterbi de 2do orden en un ejemplo.  
   - Crear corpus sintético para medir precisión.  
   - Optimizar poda y probar efectos en velocidad.  
   - Análisis comparativo de precisión vs costo computacional.  
   - Extender a dato real (e.g., WSJ) y medir mejoras.  
   - Informe final con gráficas de trade‑off y recomendaciones.  


### **Proyecto 19: Etiquetado de secuencias discriminativo con perceptrón estructurado y características de orden superior**

**Objetivo.** Implementar un modelo de **sequence labeling discriminativo** basado en **Perceptrón Estructurado** usando features de orden superior (trigramas de etiquetas, prefijos, sufijos, patrones morfológicos).

1. **Función de puntuación**  
   $$
     F(x,y;\theta)=\sum_{t=1}^T \theta\cdot f_t(x,y_{t-2},y_{t-1},y_t),
   $$
   donde $f_t$ incluye:  
   - Indicadores de trigramas $(y_{t-2},y_{t-1},y_t)$.  
   - Prefijos/sufijos de longitud 3–5 de $x_t$.  
   - Características ortográficas (mayúscula, dígitos).

2. **Algoritmo online**  
   - Para cada secuencia de entrenamiento $(x^{(i)},y^{(i)})$:  
     - Inferir $\hat y^{(i)}=\arg\max_y F(x^{(i)},y;\theta)$ (usar Viterbi en perceptrón).  
     - Actualizar:
       $\theta\leftarrow\theta + f(x^{(i)},y^{(i)}) - f(x^{(i)},\hat y^{(i)})$.

3. **Decodificación**  
   - Adaptar Viterbi para usar $\oplus=\max,\otimes=+$ con features de orden superior.

4. **Evaluación**  
   - Métricas: precision, recall, F1 a nivel de etiqueta completa.  
   - Dataset: CoNLL‑2000 Chunking o CoNLL‑2003 NER.

5. **Entregables y cronograma**  
   - Definición de features y estructura de $\theta$.  
   - Implementación de decodificador (Viterbi modificada).  
   - Bucle de entrenamiento online y evaluación inicial.  
   - Inclusión de características de orden superior adicionales.  
   - Tuning de tasa de aprendizaje y regularización.  
   - Comparativa vs perceptrón unigramas/bigramas y reporte de resultados.  


### **Proyecto 20: Máquinas de vectores de soporte estructuradas para etiquetado de secuencias**

**Objetivo.** Desarrollar un **Structured SVM** para secuencia de etiquetas, usando cutting‑plane o subgradient descent, y compararlo con el perceptrón estructurado.

1. **Formulación del Structured SVM**  
   - Optimizar:
     $$
       \min_{\theta,\xi}\tfrac{1}{2}\|\theta\|^2 + C\sum_i\xi_i,
     $$
     sujeto a
     $\forall i,\forall y\neq y_i:\;\theta^\top[f(x_i,y_i)-f(x_i,y)]\ge \Delta(y_i,y)-\xi_i.$

2. **Función de pérdida estructural**  
   - Usar **Hamming Loss** normalizada:
     $\Delta(y,y') = \frac{1}{T}\sum_{t=1}^T\mathbf{1}_{y_t\neq y'_t}.$

3. **Algoritmo de optimización**  
   - **Cutting‑plane** (SVM‑struct de Joachims): iterar generando constraints más violadas $\arg\max_y[\Delta(y_i,y)+\theta^\top f(x_i,y)]$.  
   - Alternativamente, **SDCA** o SGD con loss-augmented decoding (usar Viterbi modificado).

4. **Decodificación y loss-augmented inference**  
   - Resolver $\max_y[\Delta(y_i,y)+\theta^\top f(x_i,y)]$ con Viterbi con penalización de etiquetas incorrectas.

5. **Evaluación**  
   - Precision, recall, F1 en CoNLL‑2003.  
   - Medir tiempo de entrenamiento vs perceptrón estructurado.

6. **Entregables y cronograma**  
   - Configuración de features y data.  
   - Implementar loss-augmented Viterbi.  
   - Cutting‑plane loop base.  
   - Optimizaciones de performance y caché de constraints.  
   - Entrenamiento completo, ajuste de $C$.  
   - Reporte comparativo y recomendaciones de uso.  



#### **Referencias**  

1. **Proyecto 1 – Data Loader escalable**  
   - Paszke, A. et al. (2019). *PyTorch: An Imperative Style, High-Performance Deep Learning Library*. NeurIPS.  
   - Abadi, M. et al. (2016). *TensorFlow: A System for Large-Scale Machine Learning*. OSDI.  

2. **Proyecto 2 – Tokenización y BPE**  
   - Sennrich, R., Haddow, B. & Birch, A. (2016). *Neural Machine Translation of Rare Words with Subword Units*. ACL.  
   - Gage, P. (1994). *A New Algorithm for Data Compression*. C Users Journal.  

3. **Proyecto 3 – Suavizado en modelos n‑grama**  
   - Chen, S. F. & Goodman, J. (1999). *An Empirical Study of Smoothing Techniques for Language Modeling*. Computer Speech & Language.  
   - Kneser, R. & Ney, H. (1995). *Improved Backing‐off for M‐gram Language Modeling*. ICASSP.  

4. **Proyecto 4 – Descuento y backoff online**  
   - Good, I. J. (1953). *The Population Frequencies of Species and the Estimation of Population Parameters*. Biometrika.  
   - Cormode, G. & Muthukrishnan, S. (2005). *An Improved Data Stream Summary: The Count-Min Sketch and Its Applications*. LATIN.  

5. **Proyecto 5 – BPTT y RNN con puertas**  
   - Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). *Learning Representations by Back-Propagating Errors*. Nature.  
   - Hochreiter, S. & Schmidhuber, J. (1997). *Long Short-Term Memory*. Neural Computation.  

6. **Proyecto 6 – Evaluación de RNN: perplejidad y OOV**  
   - Mikolov, T. et al. (2010). *Recurrent Neural Network Based Language Model*. Interspeech.  
   - Jurafsky, D. & Martin, J. H. (2009). *Speech and Language Processing* (Cap. 3: Perplexity). Prentice Hall.  

7. **Proyecto 7 – HMM y Viterbi (tutorial)**  
   - Rabiner, L. R. (1989). *A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition*. Proceedings of the IEEE.  

8. **Proyecto 8 – Perceptrón estructurado y características de orden superior**  
   - Collins, M. (2002). *Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms*. EMNLP.  

9. **Proyecto 9 – Etiquetado con CNN + RNN a nivel de carácter**  
   - Ma, X. & Hovy, E. (2016). *End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF*. ACL.  

10. **Proyecto 10 – Embeddings: TF‑IDF, PMI y Word2vec**  
    - Mikolov, T. et al. (2013). *Efficient Estimation of Word Representations in Vector Space*. arXiv.  
    - Turney, P. D. & Pantel, P. (2010). *From Frequency to Meaning: Vector Space Models of Semantics*. Journal of Artificial Intelligence Research.  

11. **Proyecto 11 – Semántica distribucional y distribuida**  
    - Deerwester, S. et al. (1990). *Indexing by Latent Semantic Analysis*. Journal of the American Society for Information Science.  
    - Brown, P. F. et al. (1992). *Class-based n-gram Models of Natural Language*. Computational Linguistics.  

12. **Proyecto 12 – Librerías de IA generativa y pipeline**  
    - Wolf, T. et al. (2020). *Transformers: State-of-the-Art Natural Language Processing*. EMNLP.  
    - Ramesh, A. et al. (2022). *Hierarchical Text-Conditional Image Generation with CLIP Latents*. arXiv.  

13. **Proyecto 13 – Normalización y lematización**  
    - Bird, S., Klein, E. & Loper, E. (2009). *Natural Language Processing with Python*. O’Reilly Media.  
    - Honnibal, M. & Montani, I. (2020). *spaCy 2: Natural Language Understanding with Bloom Embeddings, Convolutional Neural Networks and Incremental Parsing*. ACL System Demonstrations.  

14. **Proyecto 14 – Seq2Seq con atención**  
    - Sutskever, I., Vinyals, O. & Le, Q. V. (2014). *Sequence to Sequence Learning with Neural Networks*. NeurIPS.  
    - Bahdanau, D., Cho, K. & Bengio, Y. (2015). *Neural Machine Translation by Jointly Learning to Align and Translate*. ICLR.  

15. **Proyecto 15 – Etiquetado no supervisado y LDS**  
    - Rabiner, L. R. (1989). *A Tutorial on Hidden Markov Models…* (EM para HMM).  
    - Ghahramani, Z. & Hinton, G. E. (1996). *Parameter Estimation for Linear Dynamical Systems*. Technical Report.  

16. **Proyecto 16 – HMM y Viterbi con ejemplo paso a paso**  
    - Rabiner, L. R. (1989). *A Tutorial on Hidden Markov Models…*.  

17. **Proyecto 17 – Estimación en HMM con Baum–Welch**  
    - Baum, L. E., Petrie, T., Soules, G. & Weiss, N. (1970). *A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains*. The Annals of Mathematical Statistics.  
    - Rabiner, L. R. (1989). *A Tutorial on Hidden Markov Models…*.  

18. **Proyecto 18 – Inferencia en HMM: Forward–Backward**  
    - Rabiner, L. R. (1989). *A Tutorial on Hidden Markov Models…*.  

19. **Proyecto 19 – HMM de orden superior y Viterbi extendido**  
    - Jurafsky, D. & Martin, J. H. (2009). *Speech and Language Processing* (Secc. 4.4: Modelos n‑grama de orden superior).  

20. **Proyecto 20 – Perceptrón estructurado con características complejas**  
    - Collins, M. (2002). *Discriminative Training Methods for Hidden Markov Models…*.  

