### Ejercicio 02 - Repaso Teoría 

#### 1. ¿Cuál es la principal innovación de la arquitectura Transformer?

<small>

La principal innovación de la arquitectura Transformer es la eliminación total de las redes neuronales recurrentes (RNNs) y convolucionales (CNNs) en favor de un mecanismo llamado autoatención (self-attention).

A diferencia de las arquitecturas anteriores que procesaban secuencias de manera secuencial (como las RNN) o con ventanas locales (como las CNN), el Transformer procesa todos los elementos de la secuencia en paralelo, permitiendo que cada posición se relacione directamente con cualquier otra, sin importar la distancia entre ellas.

Esto se logra a través de mecanismos de atención escalada y multi-cabezal (multi-head attention), que permiten al modelo "enfocarse" en diferentes partes de la entrada simultáneamente y aprender relaciones complejas en la secuencia.

Gracias a esta innovación:

- Se mejora significativamente la eficiencia en el entrenamiento, aprovechando mejor el paralelismo del hardware moderno (como las GPUs).
- Se facilita el aprendizaje de dependencias a largo plazo entre elementos de una secuencia.
- Se logra una mayor calidad en tareas de traducción automática y otros problemas de procesamiento de lenguaje natural.

</small>

#### 2. ¿Cómo funciona el mecanismo de atención del scaled dot-product?

<small>

El mecanismo de atención Scaled Dot-Product es una técnica utilizada en el modelo Transformer para **calcular la importancia relativa entre palabras de una secuencia**, tanto en la entrada como en la salida.

Este mecanismo recibe tres vectores:

- Q (Query): la palabra que está "consultando" información.
- K (Key): las palabras candidatas a ser relevantes.
- V (Value): la información que se va a recuperar si la palabra es relevante.

El funcionamiento es el siguiente:

- Se calcula la similitud entre la palabra en consulta (Query) y todas las palabras candidatas (Keys) mediante el producto punto. Esto da un valor alto si son similares.
- El resultado se divide por la raíz cuadrada de la dimensión del vector de las claves (dk), para evitar que los valores sean muy grandes y saturen la función softmax. Esta es la parte de “scaled”.
- Se convierte el resultado en una distribución de probabilidad, asignando mayor peso a las palabras más relevantes.
- Se usa esa distribución para hacer un promedio ponderado de los vectores de valor (Values), resultando en un nuevo vector que representa la información contextual para la palabra original.

</small>

#### 3. ¿Por qué se utiliza la atención de múltiples cabezales en Transformer?

<small>

El modelo Transformer utiliza atención de múltiples cabezales (multi-head attention) para que el modelo **pueda capturar diferentes tipos de relaciones entre las palabras de una secuencia de manera simultánea.**

En lugar de aplicar una única atención, el mecanismo multi-head divide los vectores de entrada (queries, keys y values) en varias subdimensiones más pequeñas y aplica el mecanismo de atención en paralelo sobre cada una. Cada una de estas "cabezas" aprende a enfocarse en distintos aspectos de la información.

Después de procesar la atención en paralelo, los resultados de todas las cabezas se concatenan y se proyectan de nuevo a la dimensión original.

</small>

#### 4. ¿Cómo se incorporan los positional encodings en el modelo Transformer?

<small>

Dado que el modelo Transformer **no utiliza estructuras secuenciales** como RNNs ni convoluciones (que procesan datos con orden implícito), necesita una forma explícita de incorporar el orden de las palabras en una secuencia. Para eso, se introducen los **positional encodings** o **codificaciones posicionales**.

Estos *positional encodings* son vectores que contienen información sobre la posición de cada palabra en la secuencia. Se **suman directamente a los vectores de embedding** de las palabras al inicio del encoder y del decoder. Esto permite que el modelo tenga acceso tanto al contenido semántico de cada palabra (embedding) como a su posición relativa o absoluta (codificación posicional).

El paper original propone usar una función sinusoidal fija:

![image.png](attachment:image.png)

Donde `pos` es la posición en la secuencia y `i` es la dimensión del vector. Esta fórmula genera patrones repetitivos que el modelo puede usar para inferir **relaciones relativas entre posiciones**, como distancias o alineaciones.

También se experimentó con **positional embeddings aprendidos**, pero los resultados fueron similares. La versión sinusoidal tiene la ventaja de **generalizar mejor a secuencias más largas** que las vistas durante el entrenamiento.

</small>

#### 5. ¿Cuáles son algunas aplicaciones de la arquitectura Transformer más allá de la machine translation?

<small>

Aunque el Transformer fue diseñado inicialmente para **traducción automática de texto**, su arquitectura ha demostrado ser altamente flexible y poderosa, y ha sido adaptada a muchas otras tareas, tanto dentro como fuera del procesamiento de lenguaje natural. Algunas aplicaciones destacadas incluyen:

#### Procesamiento de lenguaje natural (NLP):

* **Modelos de lenguaje** como BERT, GPT, T5 y RoBERTa, usados para tareas como:

  * Clasificación de texto
  * Resumen automático
  * Respuesta a preguntas
  * Detección de sentimientos
  * Chatbots y asistentes conversacionales

#### Visión por computadora:

* **Vision Transformers (ViT)** han demostrado que esta arquitectura también funciona bien en imágenes, alcanzando resultados competitivos en:

  * Clasificación de imágenes
  * Detección de objetos
  * Segmentación semántica

#### Audio y habla:

* Aplicaciones en procesamiento de audio como:

  * Reconocimiento automático de voz (ASR)
  * Síntesis de voz
  * Modelos de música generativa

#### Bioinformática y genómica:

* Modelos como AlphaFold utilizan variantes de Transformers para **predecir estructuras de proteínas** basadas en secuencias de aminoácidos.

#### Código y programación:

* Modelos como **Codex** y **CodeBERT** aplican Transformers para:

  * Generación automática de código
  * Autocompletado de funciones
  * Detección de errores o vulnerabilidades

> Con esto queda más que claro que el Transformer no solo revolucionó la traducción automática, sino que se convirtió en la base de los modelos más avanzados en **NLP, visión, audio, ciencia y programación**.
</small>

<small>



</small>