### **Representaciones distribuidas**

Las representaciones distribuidas han transformado el campo del procesamiento de lenguaje natural (NLP) y el aprendizaje automático. A diferencia de enfoques basados en codificaciones locales, como one-hot encoding, que generan vectores dispersos de alta dimensión con valores mayoritariamente en cero, las representaciones distribuidas aprenden vectores densos de dimensión fija en un espacio continuo. 

Gracias a la hipótesis distributiva, según la cual palabras con contextos similares comparten significados próximos, estos métodos capturan relaciones semánticas complejas, optimizan el uso de memoria y facilitan el aprendizaje de significados de palabras nuevas o raras.


#### **Características principales**

Veamos algunos características de estos métodos:

- A diferencia de las representaciones locales, las distribuidas pueden capturar relaciones complejas entre palabras, como sinónimos, antónimos o términos que suelen aparecer en contextos similares.

- Al representar palabras como vectores de tamaño fijo en un espacio continuo, se reduce la dimensionalidad del problema comparado con métodos de representación más simples pero de alta dimensionalidad, como el one-hot encoding.

- Estos modelos pueden generalizar para entender palabras nuevas o raras a partir de sus componentes (por ejemplo, entender palabras compuestas a partir de los significados de sus partes).

**Ejemplos y modelos**

- Word2Vec: Probablemente el ejemplo más conocido de representaciones distribuidas. Word2Vec utiliza redes neuronales para aprender representaciones vectoriales de palabras a partir de grandes conjuntos de datos de texto. Ofrece dos arquitecturas principales: CBOW (Continuous Bag of Words) y Skip-gram, cada una diseñada para aprender representaciones que predigan palabras en función de sus contextos o viceversa.

- GloVe (Global Vectors for Word Representation): Un modelo que aprende representaciones de palabras a partir de las estadísticas co-ocurrenciales de palabras en un corpus. La idea es que las relaciones semánticas entre palabras pueden ser capturadas observando qué tan frecuentemente aparecen juntas en un gran corpus.

- Embeddings contextuales: Modelos más recientes como ELMo, BERT y GPT ofrecen una evolución de las representaciones distribuidas, generando vectores de palabras que varían según el contexto en el que aparecen, lo que permite capturar usos y significados múltiples de una misma palabra dependiendo de la oración en la que se encuentre.

### **Embeddings de palabras**

Los embeddings de palabras son representaciones vectoriales densas y de baja dimensión de palabras, diseñadas para capturar el significado semántico, sintáctico y relaciones entre ellas. A diferencia de las representaciones de texto más antiguas, como el one-hot encoding, que son dispersas (la mayoría de los valores son cero) y de alta dimensión, los embeddings de palabras se representan en un espacio vectorial continuo donde palabras con significados similares están ubicadas cercanamente en el espacio vectorial.

**Características de los embeddings de palabras**

- Cada palabra se representa como un vector denso, lo que significa que cada dimensión tiene un valor real, a diferencia de los vectores dispersos de otras técnicas de representación.

- Los embeddings generalmente tienen un tamaño de dimensión fijo y relativamente pequeño (por ejemplo, 100, 200, 300 dimensiones) independientemente del tamaño del vocabulario.

- Estos vectores intentan capturar el contexto y el significado de una palabra, no solo su presencia o ausencia. Palabras que se usan en contextos similares tendrán embeddings similares.

- Pueden ayudar a los modelos de aprendizaje automático a generalizar mejor a palabras no vistas durante el entrenamiento, dado que las palabras con significados similares se mapean a puntos cercanos en el espacio vectorial.


En 2013, un trabajo fundamental de Mikolov [Efficient Estimationof Word Representations in Vector Space](https://arxiv.org/abs/1301.3781) demostraron que su modelo de representación de palabras basado en una red neuronal conocido como `Word2vec`, basado en la `similitud distributiva`, puede capturar relaciones de analogía de palabras como: 

$$King - Man + Woman \approx Queen$$

Conceptualmente, Word2vec toma un gran corpus de texto como entrada y "aprende" a representar las palabras en un espacio vectorial común en función de los contextos en los que aparecen en el corpus.


#### **Embeddings de palabras pre-entrenadas**

Podemos embeddings de Word2vec previamente entrenadas y buscar las palabras más similares (clasificadas por similitud de coseno) a una palabra determinada. 

Tomemos un ejemplo de un modelo word2vec previamente entrenado y cómo podemos usarlo para buscar la mayoría de las palabras similares. Usaremos los embeddings de vectores de Google News. https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM

Se pueden encontrar algunos otros modelos de embeddings de palabras previamente entrenados y detalles sobre los medios para acceder a ellos a través de gensim en: https://github.com/RaRe-Technologies/gensim-data

El código que sigue cubre los pasos clave. Aquí encontramos las palabras que semánticamente son más similares a la palabra "beautiful"; la última línea devuelve el vector de embeddings de la palabra " beautiful ":

Dos cosas a tener en cuenta al utilizar modelos previamente entrenados:

* Los tokens/palabras siempre están en minúsculas. Si una palabra no está en el vocabulario, el modelo genera una excepción.
* Por lo tanto, siempre es una buena idea encapsular esas declaraciones en bloques `try/except`.

### **Representaciones distribuidas avanzadas**

En la evolución de las representaciones distribuidas, surgieron cuatro líneas de investigación fundamentales que atendieron necesidades concretas: mejorar la generalización, reducir la carga computacional, incorporar conocimiento morfológico y compartir representaciones entre tareas. A continuación describimos cada enfoque, su motivación y la fórmula matemática que explica su funcionamiento.

#### **Neural network language model (NNLM)**

**Contexto**  
Antes de 2003, las representaciones basadas en conteo (coocurrencias, SVD, PMI) carecían de capacidad para modelar interacciones no lineales. Bengio et al. propusieron entrenar de forma conjunta los embeddings y una red feed‑forward que, para una ventana de contexto fija $(w_{t-n+1},\dots,w_{t-1})$, estimara la probabilidad de la siguiente palabra $w_t$.

**Ecuación clave**  

$$
P(w_t \mid w_{t-n+1},\dots,w_{t-1})
=
\frac{\exp\bigl(u_{w_t}^{\!\top}\,f\bigl(W\,[\,e_{w_{t-n+1}},\dots,e_{w_{t-1}}]\bigr)\bigr)}
     {\sum_{w\in V}\exp\bigl(u_{w}^{\!\top}\,f\bigl(W\,[\,e_{w_{t-n+1}},\dots,e_{w_{t-1}}]\bigr)\bigr)},
$$  

donde:  
- $e_{w}\in\mathbb{R}^d$ es el embedding de cada palabra de contexto.  
- $W$ y $u_w$ son parámetros entrenables de la red.  
- $f$ es una función oculta no lineal (por ejemplo, tanh).  
- El denominador softmax normaliza sobre todo el vocabulario $V$.  

Este planteamiento mejoró la predicción de secuencias y sentó las bases de los embeddings neuronales.


#### **C&W Model (Collobert & Weston)**

**Contexto**  
La necesidad de compartir embeddings entre múltiples tareas (clasificación, análisis sintáctico, etc.) y de evitar el alto coste de la normalización softmax condujo a Collobert y Weston (2008) a diseñar un esquema de aprendizaje por ranking con redes convolucionales.

**Ecuación clave**  

Definiendo una ventana real $x^+$ y variantes corruptas $x^-$, el objetivo hinge es:  
$$
\mathcal{L}_{\mathrm{C\&W}}
=
\sum_{x^+}\sum_{x^-}
\max\bigl(\,0,\,1 - s(x^+) + s(x^-)\bigr),
$$  
donde $s(x)$ es una puntuación escalar obtenida aplicando convoluciones y capas densas sobre la secuencia de embeddings concatenados. Esta pérdida garantiza que los ejemplos reales obtengan siempre al menos un margen de 1 frente a los negativos, acelerando el entrenamiento y facilitando el multitasking.


#### **CBOW y Skip‑gram**

**Contexto**  
Word2Vec introdujo dos tareas inversas que, combinadas con técnicas de muestreo, hicieron posible entrenar embeddings de alta calidad en vocabularios enormes.

- **CBOW** promedia el contexto para predecir la palabra central.
- **Skip‑gram** invierte la tarea, usando la palabra central para predecir su contexto.

**Ecuación clave (Negative Sampling)**  
En lugar de softmax completo, usan:
$$
\mathcal{L}_{\text{NS}}
=
-\log\sigma\bigl(u_{w_t}^{\!\top}v_C\bigr)
\;-\;
\sum_{i=1}^k
\mathbb{E}_{w_i\sim P_n}
\bigl[\log\sigma\bigl(-u_{w_i}^{\!\top}v_C\bigr)\bigr],
$$
donde  
- $v_C$ es el embedding del contexto (o de la palabra central).  
- $\sigma(x)=1/(1+e^{-x})$.  
- $P_n$ es una distribución de ruido habitual (frecuencias a la 3/4).  
- $k$ es el número de muestras negativas.  

Gracias a esta reformulación, la complejidad por ejemplo pasó de $O(|V|)$ a $O(k)$.


#### **Método híbrido caracter‑palabra**

**Contexto**  
Las lenguas ricas en morfología y el problema de las palabras OOV inspiraron la combinación de embeddings de caracteres y de palabra. Mediante CNNs o LSTMs se aprenden vectores de caracteres o n‑gramas, que luego se fusionan con el embedding de la palabra completa.

**Ecuación clave**  
Para un término $w$ compuesto por $L$ n‑gramas de caracteres $c_i$, la representación final es:  
$$
v_w
=
W_1\,e_w
\;+\,
W_2\,
\Bigl(\tfrac{1}{L}\sum_{i=1}^L c_i\Bigr),
$$  
con $W_1$ y $W_2$ como matrices de combinación entrenables. FastText ejemplifica esta idea descomponiendo cada palabra en todos sus n‑gramas y sumando sus embeddings, logrando robustez frente a variaciones ortográficas y morfológicas.


### **Representaciones distribuidas de frases**

Las representaciones distribuidas de frases constituyen un paso intermedio entre los embeddings de palabras y los de documentos completos. Si bien las palabras aportan unidades atómicas de significado, las frases introducen composiciones semánticas y relaciones sintácticas complejas que los modelos deben capturar para tareas como análisis de sentimientos, clasificación de oraciones y recuperación de información. 

En este contexto, las dos familias clásicas de métodos son los basados en Bag‑of‑Words (BoW), que extienden de forma lineal la lógica de los embeddings de palabras, y los basados en autoencoders, que emplean arquitecturas neuronales para codificar y decodificar la secuencia completa.

#### **Basadas en bolsas de palabras**

Los métodos Bag‑of‑Words para frases aprovechan la disponibilidad de embeddings de palabras preentrenados y definen la representación de una frase como agregación de los vectores de sus tokens. La simplicidad y eficiencia de estos esquemas han garantizado su vigencia en entornos con grandes volúmenes de datos.

**Promedio simple de embeddings**

Sea una frase $S = (w_1, w_2, \,\dots\,, w_n)$ con embeddings de palabras $v_i = e_{w_i} \in \mathbb{R}^d$. El promedio simple define:

$$
  v_{S} = \frac{1}{n} \sum_{i=1}^n v_i.
$$

Este método asume que cada token contribuye de igual manera a la semántica global. A pesar de ignorar el orden y las interacciones no lineales, su bajo coste computacional $O(n\times d)$ lo convierte en una opción popular, especialmente para tareas de similitud semántica donde la magnitud de la frase importa más que su estructura interna.

**Promedios ponderados y smooth inverse frequency (SIF)**

Para reflejar la relevancia diferencial de cada palabra, se introducen pesos basados en estadísticas de corpus. El esquema SIF (Arora et al., 2017) propone:

$$
  \alpha_i = \frac{a}{a + p(w_i)},
  \quad
  v_{S} = \frac{1}{\sum_{i=1}^n \alpha_i} \sum_{i=1}^n \alpha_i v_i,
$$

donde $p(w_i)$ es la frecuencia de $w_i$ en un gran corpus y $a$ un parámetro de suavizado (por ejemplo, $10^{-3}$). Después se suprime la primera componente principal $u$ de todo el conjunto de vectores de frases:

$$
  v_{S}' = v_{S} - u\bigl(u^\top v_{S}\bigr).
$$

La eliminación de la componente dominante reduce el efecto de palabras muy frecuentes y mejora la discriminación entre frases semánticamente similares.

**Representación TF‑IDF ponderada**

Como alternativa, se utiliza el peso TF‑IDF de cada término:

$$
  \alpha_i = \mathrm{tf}(w_i, S) \times \log\frac{N}{\mathrm{df}(w_i)},
  \quad
  v_{S} = \frac{1}{\sum_{i=1}^n \alpha_i} \sum_{i=1}^n \alpha_i v_i,
$$

con $N$ el número total de documentos y $\mathrm{df}(w_i)$ la cantidad de documentos que contienen $w_i$. Este esquema potencia términos distintivos y atenúa los muy comunes.

**Max‑pooling, min‑pooling y concatenaciones**

Otros esquemas no lineales incluyen:

- **Max‑pooling:** $v_S(j) = \max_{1\le i\le n} v_i(j)$ para cada dimensión $j$.
- **Min‑pooling:** $v_S(j) = \min_{1\le i\le n} v_i(j)$.
- **Concatenación:** combinación de $\langle\mathrm{mean},\mathrm{max},\mathrm{min}\rangle$ generando un vector de dimensión $3d$.

Aunque capturan características de forma más rica, incrementan la dimensionalidad y el coste de almacenamiento.

**Interpretación empírica y aplicaciones**

Los métodos BoW han mostrado:

- **Buen desempeño en similitud semántica:** la correlación coseno entre $v_S$ y otro vector de referencia se alinea con la percepción humana de similitud.
- **Eficiencia en recuperación de información:** indexación de vectores en aproximaciones de "nearest neighbor" para búsqueda rápida.

No obstante, son sensibles a la presencia de stopwords y carecen de modelado de negaciones y dependencia sintáctica.

**Limitaciones sintácticas y semánticas**

| Limitación                  | Descripción                                                                         |
|-----------------------------|-------------------------------------------------------------------------------------|
| Invarianza al orden         | No distingue "rojo coche rápido" de "rápido coche rojo"                           |
| Escasa interacción léxica   | No captura modismos ni expresiones idiomáticas                                      |
| Vulnerable a palabras vacías| Stopwords frecuentes pueden dominar la media sin corrección de ponderación adecuada |
| Sin dependencia gramatical  | No modela relaciones sujeto-verbo u objetos directos e indirectos                    |

En entornos donde la sintaxis sea clave (por ejemplo, detección de sarcasmo o análisis profundo de relaciones), se prefieren métodos más complejos.




#### **Basadas en autoencoder**

Los autoencoders resuelven las debilidades de BoW al aprender codificaciones latentes que capturan orden, sintaxis e interacciones no lineales.

**Arquitectura de encoder-decoder**

Un autoencoder de secuencia implementa:

- **Encoder:** procesa $(x_1,\dots,x_n)$ (embeddings de palabra) mediante una red recurrente:
  $$
    h_t = f(h_{t-1}, x_t),
    \quad
    z = h_n,
  $$
  donde $f$ puede ser LSTM o GRU.

- **Decoder:** genera la secuencia reconstruida:
  $$
    s_t = g(s_{t-1}, z),
    \quad
    \hat x_t = \mathrm{softmax}(W_o s_t),
  $$

La pérdida de reconstrucción se define como entropía cruzada acumulada:

$$
  \mathcal{L}_{AE} = -\sum_{t=1}^n \log P( x_t \mid s_{t-1}, z ).
$$

Esta configuración favorece latentes $z$ que capturan la información esencial de la frase.

**Autoencoder denoising**

Al introducir un operador de ruido $T(\cdot)$ que borra o altera tokens, el encoder recibe $\tilde x = T(x)$ y aprende a reconstruir $x$. La pérdida es:

$$
  \mathcal{L}_{DAE} = -\sum_{t=1}^n \log P( x_t \mid f(\tilde x) ).
$$

Este mecanismo impulsa robustez frente a errores menores y parsinómias de tokenización.

**Autoenconder variacional (VAE)**

El VAE aplica un enfoque probabilístico:

- **Encoder estocástico:** $q_\phi(z\mid x) = \mathcal{N}(\mu(x), \mathrm{diag}(\sigma^2(x)))$.
- **Decoder condicional:** $p_\theta(x\mid z)$.

La función objetivo maximiza la evidencia libre inferior:

$$
  \mathcal{L}_{VAE}
  = \mathbb{E}_{q_\phi} [ \log p_\theta(x\mid z) ]
    - \mathrm{D}_{KL}\bigl(q_\phi(z\mid x) \| p(z)\bigr).
$$

Este esquema favorece latentes continuos y permite generar frases nuevas mediante muestreo en el espacio $z$.

**Vectores Skip‑Thought**

Skip‑Thought extiende la reconstrucción a las oraciones adyacentes:

1. Encoder produce $h_i = f(s_i)$.
2. Dos decoders generan $s_{i-1}$ y $s_{i+1}$.
3. La pérdida combina ambas reconstrucciones:
   $$
     \mathcal{L}_{SkipThought}
     = -\sum_t [ \log P(s_{i-1}[t]\mid h_i) + \log P(s_{i+1}[t]\mid h_i) ].
   $$

Los vectores $h_i$ codifican información semántica inter-oracional.

**Modelos basados en atención (Transformers)**

Aunque no estrictamente autoencoders, los Transformers ofrecen representaciones de frases mediante atención múltiple:

$$
  \mathrm{Attention}(Q,K,V) = \mathrm{softmax}\bigl(\tfrac{QK^\top}{\sqrt{d_k}}\bigr)V.
$$

En BERT, el token especial `[CLS]` produce un vector $h_{CLS}$ que sirve de representación de frase. La autoatención captura dependencias de largo alcance y orden sintáctico.

**Comparativa y aplicaciones prácticas**


| Método            | Captura orden | Robustez OOV | Eficiencia  | Uso típico                            |
|-------------------|---------------|--------------|-------------|---------------------------------------|
| BoW promedio      | No            | Baja         | Alta        | Búsqueda, similitud rápida            |
| BoW ponderado     | No            | Media        | Alta        | Recuperación con stopword handling    |
| Autoencoder Seq2Seq | Sí         | Media        | Media       | Generación de texto, compresión de secuencias |
| VAE               | Sí            | Alta         | Baja        | Generación creativa de frases         |
| Skip‑Thought      | Sí            | Alta         | Baja        | Arquitectura preentrenada general     |
| Transformers      | Sí            | Alta         | Media/Baja  | Tareas de clasificación de frases     |

Las representaciones de frases alimentan distintas aplicaciones:

- **Clasificación de sentimientos:** embeddings de frase como características de entrada a clasificadores lineales o no lineales.
- **Respuesta a preguntas (QA):** mapeo de pregunta y contextos a vectores comparables.
- **Detección de plagio y similitud:** medición de coseno entre vectores de frases largas.
- **Agrupamiento de opiniones:** clustering de reseñas por similitud semántica.



### **Representaciones distribuidas de oraciones**

Las oraciones, a diferencia de palabras o frases cortas, contienen estructuras sintácticas más complejas y relaciones semánticas de largo alcance, lo que impone nuevos retos a los modelos de representación. Mientras que los embeddings de palabras capturan información léxica y los vectores de frases medianas se centran en composiciones sencillas, las representaciones de oraciones deben integrar:

1. **Información de orden y estructura:** la secuencia de tokens y la dependencia gramatical.
2. **Semántica de alto nivel:** intenciones, relaciones argumentales y tono.
3. **Contexto extraoracional:** en algunos casos, información del párrafo o documento de origen.

Explora dos grandes enfoques: las representaciones generales de oraciones, obtenidas mediante preentrenamiento en tareas de inferencia textual, y las representaciones dirigidas a tareas específicas, donde la arquitectura se adapta y optimiza para el objetivo final.

##### Representación general de oraciones

Los modelos de representación general buscan generar vectores que funcionen bien en una amplia variedad de tareas sin modificación adicional. Dos ejemplos paradigmáticos son **InferSent** y el **Universal Sentence Encoder (USE)**.

**InferSent: Bi‑LSTM con max‑pooling**

**Arquitectura:** InferSent emplea una red bidireccional LSTM (Bi‑LSTM) para procesar la oración:

- Para cada token $w_t$, el encoder genera una representación hacia adelante
  $$
    \overrightarrow{h}_t = \mathrm{LSTM}_f(\overrightarrow{h}_{t-1}, e_{w_t}),
  $$
  y otra hacia atrás
  $$
    \overleftarrow{h}_t = \mathrm{LSTM}_b(\overleftarrow{h}_{t+1}, e_{w_t}).
  $$

- El vector de la oración se construye mediante *max‑pooling* dimensional:
  $$
    v_{\mathrm{sent}}(j) = \max_{1 \le t \le n} \bigl[\overrightarrow{h}_t(j),\overleftarrow{h}_t(j)\bigr]
  $$
  donde $j$ recorre las $d$ dimensiones de los estados ocultos.

**Entrenamiento:** Se entrena en la tarea de **inferencia textual natural (NLI)**, usando datasets como SNLI y MultiNLI. Dado un par de oraciones
- oración base $u$,
- hipótesis $v$,
InferSent crea un vector combinado:
  $$
    x = [\,u,\; v,\; u - v,\; u \odot v\,],
  $$
que se pasa a una red feed‑forward con función de activación ReLU y capa softmax para predecir las clases {entailment, contradiction, neutral}. La función de pérdida es la entropía cruzada:
  $$
    \mathcal{L}_{\text{NLI}} = -\sum_{c \in \{e,n,c\}} y_c \log p_c(x)
  $$
con $y_c$ la etiqueta real y $p_c(x)$ la probabilidad predicha.

**Ventajas:**
- Captura dependencias de largo alcance mediante LSTM.  
- Max‑pooling extrae rasgos sintácticos y semánticos clave.  

**Limitaciones:**
- Entrenamiento costoso en datos NLI.  
- No adapta el embedding para tareas fuera del dominio NLI sin fine‑tuning.

**Universal Sentence Encoder (USE)**

Google desarrolló el USE con dos variantes que equilibran eficiencia y precisión:

1. **Deep Averaging Network (DAN):**  
   - Se calculan embeddings de palabras y bi‑gramas:
     $$ v_i = e_{w_i},\quad g_i = e_{(w_i,w_{i+1})}. $$
   - Se promedian:
     $$ m = \frac{1}{n-1} \sum_{i=1}^{n-1} (v_i + g_i). $$
   - Se proyecta mediante capas densas con ReLU:
     $$ h = \mathrm{ReLU}(W_1 m + b_1),\quad v_{\mathrm{sent}} = \mathrm{ReLU}(W_2 h + b_2). $$
   - El modelo es rápido y de baja latencia, adecuado para aplicaciones en línea.

2. **Transformer Encoder:**  
   - Cada token y bi‑grama recibe un vector de embeddings.  
   - Se aplica *multi-head self-attention* en varias capas:
     $$
       \mathrm{Attention}(Q,K,V) = \mathrm{softmax}\bigl(\tfrac{QK^\top}{\sqrt{d_k}}\bigr)V,
     $$
     donde $Q,K,V$ provienen de proyecciones lineales de las entradas.  
   - Tras $L$ capas, se extrae el vector del token especial [CLS] o se promedian todos los vectores de salida para obtener $v_{\mathrm{sent}}$.

**Preentrenamiento:** USE se entrena con tareas de clasificación de parágrafos y predicción de texto, combinando señales de similitud semántica, minería de parágrafos duplicados y clasificación NLI. La función de pérdida suele ser entropía cruzada sobre múltiples objetivos simultáneos (multi-task), por ejemplo:
  $$
    \mathcal{L}_{\mathrm{USE}} = \lambda_1 \mathcal{L}_{\mathrm{sim}} + \lambda_2 \mathcal{L}_{\mathrm{NLI}} + \lambda_3 \mathcal{L}_{\mathrm{dup}},
  $$
con pesos $\lambda_i$.

**Comparativa:**

| Variante       | Precisión en transferencia | Latencia | Parámetros   |
|----------------|-----------------------------|----------|--------------|
| DAN            | Media                       | Muy baja | ~20M         |
| Transformer    | Alta                        | Media    | ~110M        |

**Aplicaciones generales**

Las representaciones entrenadas en NLI o en tareas multi‑tarea demuestran desempeño sólido en:
- **Clasificación de sentimientos**         
- **Recuperación de información**           
- **Detección de similitud semántica**      
- **Respuesta a preguntas (QA) extractiva**

Además, al ser preentrenamientos, pueden reutilizarse sin modificaciones en tareas con pocos datos propios.

#### **Representación dirigida por tarea**

Cuando el objetivo final difiere significativamente del preentrenamiento general, adaptar la representación de oración al dominio y la tarea específica mejora el rendimiento.

**Atención supervisada sobre tokens relevantes**

Se añade una capa de atención que pondera cada token $h_t$ según su importancia para la tarea:

- Cálculo de puntuaciones:
  $$
    e_t = v_a^\top \tanh(W_h h_t + W_s s),
  $$
  donde $s$ puede ser un vector de estado inicial o contexto externo, y $v_a,W_h,W_s$ son parámetros aprendidos.

- Normalización con softmax:
  $$
    \alpha_t = \frac{\exp(e_t)}{\sum_{k=1}^n \exp(e_k)}.
  $$

- Vector de oración ponderado:
  $$
    v_{\mathrm{task}} = \sum_{t=1}^n \alpha_t h_t.
  $$

Este mecanismo permite al modelo enfocarse en fragmentos críticos (por ejemplo, negaciones o entidades) y reduce el ruido de tokens irrelevantes.

**Multi-task Learning y pérdida conjunta**

Al entrenar simultáneamente en la tarea principal y tareas auxiliares (por ejemplo, etiquetado de entidades, detección de sentimientos), se define una pérdida combinada:
  $$
    \mathcal{L} = \lambda_p \mathcal{L}_{\mathrm{principal}} + \sum_{i=1}^m \lambda_i \mathcal{L}_{\mathrm{aux}_i},
  $$
con $\lambda_p,\lambda_i$ pesos de cada tarea y pérdidas específicas $\mathcal{L}_{\mathrm{aux}}$ (entropía cruzada, CRF, etc.). Esta configuración refuerza las características compartidas y mejora la generalización.

**Fine‑tuning de modelos preentrenados (Transfer Learning)**

Métodos modernos como BERT incorporan un preentrenamiento masivo y capas de Transformer. Para tareas de clasificación de oraciones se procede a:

1. **Añadir cabecera de clasificación:** un vector de salida `[CLS]` se conecta a una capa densa:
   $$
     \hat y = \mathrm{softmax}(W_{cls} h_{[CLS]} + b_{cls}).
   $$
2. **Fine‑tuning end‑to‑end:** todos los parámetros de BERT y la capa adicional se actualizan mínimo un par de epochs con tasa de aprendizaje baja.
3. **Pérdida de entropía cruzada:**
   $$
     \mathcal{L}_{\mathrm{BERT-tune}} = -\sum_{c} y_c \log \hat y_c.
   $$

Este enfoque adapta las representaciones de oraciones a características propias de la tarea (voz activa/pasiva, tono, polaridad).

**Atención multi-head y pooling adaptativo**

Al utilizar Transformers, se pueden extraer representaciones dirigidas mediante *attention pooling*:

1. **Multi-head Attention Output:** de la última capa se obtienen vectores $H = [h_1,\dots,h_n]$.
2. **Cálculo de logits de atención para cada cabecera:**
   $$
     A = \mathrm{softmax}\bigl(W_A H^\top\bigr),
   $$
   produciendo pesos $\alpha_{t}^{(i)}$ por head.
3. **Pooling adaptativo:**
   $$
     v_{\mathrm{mh}} = \bigl[\sum_t \alpha_t^{(1)} h_t;\dots;\sum_t \alpha_t^{(k)} h_t\bigr],
   $$
   concatenando los outputs de $k$ cabeceras para capturar perspectivas múltiples.

**Comparativa de enfoques dirigidos**

| Método                    | Adaptación | Dependencia de datos | Costo computacional |
|---------------------------|------------|----------------------|---------------------|
| Capa atención simple      | Media      | Moderada             | Baja–Media          |
| Multi-task Learning       | Alta       | Alta                 | Media–Alta          |
| Fine‑tuning BERT          | Muy alta   | Moderada–Alta        | Alta                |
| Attention pooling adapt.  | Media      | Moderada             | Media               |

Cada técnica presenta un balance entre la cantidad de datos etiquetados necesarios, la flexibilidad para tareas nuevas y el coste de entrenamiento.




### **Representaciones distribuidas de documentos** 

Doc2vec nos permite aprender directamente las representaciones de textos de longitud arbitraria (frases, oraciones, párrafos y documentos), teniendo en cuenta el contexto de las palabras del texto.

Esto es similar a Word2vec en términos de su arquitectura general, excepto que, además de los vectores de palabras, también aprende un "vector de párrafo" que aprende una representación del texto completo (es decir, con palabras en contexto). Cuando se aprende con un corpus grande de muchos textos, los vectores de párrafo son únicos para un texto determinado (donde "texto" puede significar cualquier fragmento de texto de longitud arbitraria), mientras que los vectores de palabras se compartirán en todos los textos.  

Hay dos arquitecturas del modelo Doc2Vec, que es una extensión de Word2Vec diseñada para generar representaciones vectoriales no solo para palabras sino también para piezas de texto más grandes como oraciones, párrafos y documentos. Estas representaciones vectoriales son útiles para muchas tareas de procesamiento del lenguaje natural, como la clasificación de textos y la búsqueda semántica. Aquí están las dos arquitecturas: 

**Memoria distribuida (DM)**: 

En el modelo DM de Doc2Vec, cada palabra y el párrafo (o documento) entero tienen su propio vector de aprendizaje único en una "Paragraph Matrix" y en una "Word Matrix", respectivamente. 

Durante el entrenamiento, el modelo intenta predecir la siguiente palabra en un contexto dada una ventana de palabras y el vector único del párrafo/documento. 

Los vectores de las palabras y del párrafo se pueden promediar o concatenar antes de enviarlos a una capa de clasificador, que intenta predecir la palabra siguiente. 

El objetivo es que al final del entrenamiento, el vector del párrafo capture la esencia del texto, lo que hace posible usar este vector para tareas de clasificación o comparación de similitud. 

**Bolsa de palabras distribuidas (DBOW)**: 

El modelo DBOW funciona de manera inversa al DM. Ignora el contexto de las palabras y, en su lugar, fuerza al modelo a predecir las palabras en un párrafo/documento dada solo la identificación del párrafo (es decir, su vector único). 

No hay una capa de promedio o concatenación; el modelo directamente predice las palabras a partir del vector del párrafo. 

Al igual que en el modelo DM, el vector del párrafo se entrena para representar el contenido completo del párrafo/documento. 

DBOW es eficaz para grandes conjuntos de datos donde la semántica puede ser capturada incluso sin el orden exacto de las palabras. 

Ambos métodos son útiles para aprender representaciones vectoriales que reflejan el significado de los párrafos o documentos, aunque capturan diferentes aspectos de los datos: DM toma en cuenta el orden de las palabras, mientras que DBOW se centra en la ocurrencia de las palabras. Estos vectores resultantes pueden ser utilizados en diversas tareas, tales como agrupación de documentos, clasificación y búsqueda por similitud semántica. 

### **Representación orientada a tareas**

En entornos de procesamiento de lenguaje natural (NLP) y recuperación de información (IR), los documentos adoptan variadas formas y tamaños, desde párrafos breves hasta informes completos. Si bien los embeddings generales de documentos (como Doc2Vec en sus variantes DM y DBOW) ofrecen vectores eficaces para tareas amplias, en escenarios específicos es fundamental **afinar** estas representaciones para reflejar las necesidades particulares de la aplicación final.

La **representación orientada a tareas** surge para reducir la brecha entre la generalidad del embedding base y la especialización requerida por tareas como resumen automático, clasificación de textos o sistemas de pregunta‑respuesta (QA).

Exploramos dos estrategias principales: el **fine‑tuning** de embeddings preentrenados mediante retropropagación y el **aprendizaje multi‑tarea** ("multi-task learning"), donde múltiples objetivos se entrenan de forma conjunta. Ambas metodologías se apoyan en formulaciones matemáticas rigurosas para adaptar vectores de documento a dominios concretos.

#### **Fine‑tuning de embeddings de documento**

El proceso de fine‑tuning consiste en tomar un modelo preentrenado, por ejemplo, un encoder de documentos en arquitectura Transformer o un Doc2Vec y continuar su entrenamiento en un conjunto etiquetado para la tarea meta. Imagina que disponemos de un conjunto de documentos $\{D_i\}_{i=1}^N$, cada uno con su embedding inicial $v_i^{(0)}\in \mathbb{R}^d$, generado por la red base. Para una tarea de clasificación, asociamos a cada documento una etiqueta $y_i\in \{1,\dots,C\}$.

**Función objetivo y retropropagación**

Se define una capa de clasificación sobre el embedding:

$$
  \hat p_i = \mathrm{softmax}(W_{c} v_i + b_{c}),
$$

donde $W_{c}\in \mathbb{R}^{C\times d}$ y $b_{c}\in\mathbb{R}^C$ son parámetros de la capa de salida, y

$$
  \hat p_{i,j} = \frac{\exp\bigl((W_{c} v_i + b_{c})_j\bigr)}{\sum_{k=1}^C \exp\bigl((W_{c} v_i + b_{c})_k\bigr)}.
$$

La pérdida de entropía cruzada para un solo ejemplo es:

$$
  \mathcal{L}_i = -\sum_{j=1}^C \mathbb{I}_{[y_i=j]} \log\bigl(\hat p_{i,j}\bigr).
$$

El fine‑tuning también actualiza los parámetros internos $\theta$ del encoder de documento (sea Transformer, RNN o Doc2Vec). El objetivo total sobre el dataset es:

$$
  \mathcal{L}_{\mathrm{fine}} = \frac{1}{N} \sum_{i=1}^N \mathcal{L}_i + \lambda\,\lVert \theta \rVert^2,
$$

donde $\lambda$ aplica regularización L2 para evitar sobreajuste. El descenso por gradiente (o variantes como Adam) actualiza simultáneamente $W_c, b_c$ y $\theta$:

$$
  \theta \leftarrow \theta - \eta \frac{\partial \mathcal{L}_{\mathrm{fine}}}{\partial \theta},
  \quad
  W_{c} \leftarrow W_{c} - \eta \frac{\partial \mathcal{L}_{\mathrm{fine}}}{\partial W_{c}},
$$

y $\eta$ es la tasa de aprendizaje. Este ajuste continuo permite que el embedding capture patrones cruciales para la clasificación de documentos, tales como la presencia de términos discriminativos, la estructura argumental y la coherencia temática.

**Ejemplo: fine‑tuning para resumen extractivo**

En resumen automático extractivo, se entrena un modelo que aprueba o rechaza cada frase $s_{i,j}$ de un documento $D_i$. Se obtiene el embedding de frase $v_{i,j}$ y se aplica:

$$
  \hat p_{i,j} = \sigma\bigl(w_{s}^{\top} v_{i,j} + b_{s}\bigr),
$$

con $\sigma(x) = 1/(1+e^{-x})$. La pérdida binaria log‑loss:

$$
  \mathcal{L}_{i,j} = -\bigl[y_{i,j}\log\hat p_{i,j} + (1-y_{i,j})\log(1-\hat p_{i,j})\bigr].
$$

Fine‑tuning ajusta tanto $w_s, b_s$ como $\theta$ del encoder de frase, permitiendo que la representación enfatice contenidos relevantes para el resumen.

**Ventajas y desafíos del fine‑tuning**

- **Ventajas:**
  - Alta precisión en el dominio específico.  
  - Aprovechamiento de conocimiento general preentrenado.  

- **Desafíos:**
  - Riesgo de sobreajuste con pocos datos etiquetados.  
  - Coste computacional elevado si el encoder es muy grande.  
  - Necesidad de ajustes cuidadosos de la tasa de aprendizaje $\eta$ y regularización $\lambda$.  

#### **Aprendizaje multi‑tarea (Multi‑Task Learning)**

El **multi-task learning** optimiza simultáneamente varias tareas relacionadas, compartiendo representaciones subyacentes y promoviendo la transferencia de conocimiento entre tareas. Para documentos, esto puede incluir tareas como clasificación temática, análisis de sentimiento y extracción de entidades.

**Formulación matemática**

Supongamos $T$ tareas, cada una con función de pérdida $\mathcal{L}^{(t)}$. Un ejemplo de tareas podría ser:

1. **Resumen extractivo**: $\mathcal{L}^{(1)}$.  
2. **Clasificación de tema**: $\mathcal{L}^{(2)}$.  
3. **Detección de sentimiento**: $\mathcal{L}^{(3)}$.

Se comparte el encoder de documento con parámetros $\theta_s$ (“shared”), y cada tarea posee parámetros específicos $\theta_t$ ("task‑specific"). La pérdida total se define como:

$$
  \mathcal{L}_{\mathrm{MTL}} = \sum_{t=1}^T \lambda_t \frac{1}{N_t} \sum_{i=1}^{N_t} \mathcal{L}_i^{(t)}(\theta_s,\theta_t),
$$

con pesos $\lambda_t>0$ que equilibran la importancia de cada tarea y $N_t$ el número de ejemplos de la tarea $t$. Las actualizaciones por gradiente son:

$$
  \theta_s \leftarrow \theta_s - \eta \sum_{t=1}^T \lambda_t \frac{\partial \mathcal{L}^{(t)}}{\partial \theta_s},
$$
$$
  \theta_t \leftarrow \theta_t - \eta \lambda_t \frac{\partial \mathcal{L}^{(t)}}{\partial \theta_t},\quad t=1,\dots,T.
$$

Este esquema aprovecha la señal adicional de tareas relacionadas para mejorar la calidad del embedding compartido $\theta_s$, reduciendo la probabilidad de sobreajuste y mejorando la generalización.

**Ejemplo: tareas combinadas de QA y clasificación**

En un sistema de pregunta‑respuesta, podemos combinar:
- **Respuesta extractiva (QA):** $\mathcal{L}^{(1)}$ entropía cruzada sobre spans de texto.  
- **Clasificación de tema:** $\mathcal{L}^{(2)}$ entropía cruzada sobre categorías.

La capa compartida $\theta_s$ aprende características sintácticas útiles para identificar tanto las secciones relevantes de texto como el dominio temático, mientras que $\theta_1$ y $\theta_2$ se especializan en cada tarea.

**Regularización implícita y explícita**

- **Regularización implícita:** el multi-task actúa como un "armado inductivo", ya que la necesidad de resolver varias tareas impide sobreajustar una sola.  
- **Regularización explícita:** se pueden añadir términos penalizadores similares a L2 o dropout en $\theta_s$ para mejorar la robustez.

**Weighting dinámico de tareas**

Determinar pesos $\lambda_t$ adecuados es crítico. Estrategias dinámicas incluyen:
1. **Uncertainty weighting** (Kendall et al., 2018): el peso se ajusta según la varianza de la pérdida de cada tarea, definiendo $\lambda_t = 1/(2\sigma_t^2)$ y aprendiendo $\sigma_t$.  
2. **GradNorm** (Chen et al., 2018): equilibra magnitudes de gradiente para que ninguna tarea domine la actualización de $\theta_s$.  
Ambos métodos conducen a mejoras en la convergencia y a representaciones más equilibradas.

**Comparativa y consideraciones de diseño**

| Aspecto                | Fine‑tuning simple  | Multi‑Task Learning      | Ventaja clave                               |
|------------------------|---------------------|--------------------------|---------------------------------------------|
| Dependencia de datos   | Alta                | Moderada                 | MTL necesita múltiples anotaciones          |
| Costo computacional    | Alto (por tarea)    | Compartido                | MTL entrena un solo encoder para varias     |
| Riesgo de sobreajuste  | Alto (pocos datos)  | Bajo                     | MTL regulariza implícitamente               |
| Adaptabilidad          | Alta                | Media                    | Fine‑tuning específico para cada tarea      |


**Extensiones y tendencias actuales**

1. **Meta‑Learning para NLP:** se entrena un modelo que aprende a adaptarse rápidamente a tareas nuevas con pocos ejemplos (learning-to-learn).  
2. **Adapters en Transformers:** módulos ligeros insertados entre capas preentrenadas, entrenables por tarea, reducen drásticamente el número de parámetros ajustados.  
3. **Prompt‑Tuning:** en modelos de lenguaje grande, se optimizan vectores de "prompt" para dirigir el encoder a la tarea deseada sin modificar parámetros básicos.
