# Transformers


## 1. Introducción

* Definición de Transformers y su relevancia en el aprendizaje profundo.

Los transformadores son un tipo de arquitectura de red neuronal que transforma o cambia una secuencia de entrada en una secuencia de salida. Para ello, aprenden el contexto y rastrea las relaciones entre los componentes de la secuencia de entrada: "¿De qué color es el cielo?". El modelo transformador usa una representación matemática interna que identifica la relevancia y la relación entre las palabras color, cielo y azul. Usa esa información para generar el resultado: "El cielo es azul".
Actualmente, las organizaciones usan modelos de transformadores para todo tipo de conversiones de secuencias, desde el reconocimiento de voz hasta la traducción automática y el análisis de secuencia de proteínas.

Los modelos tempranos de aprendizaje profundo que se centraron ampliamente en las tareas de procesamiento de lenguaje natural (NLP) tenían como fin lograr que las computadoras comprendan al lenguaje humano natural. Adivinaron la palabrasiguiente en una secuencia basada en la palabra anterior.
Los primeros modelos de machine learning (ML) aplicaban una tecnología similar a una escala más amplia. Trazaban la frecuencia de relación entre diferentes pares de palabras o grupos de palabras en su conjunto de datos de entrenamiento e intentaban adivinar la siguiente palabra. Sin embargo, la tecnología primitiva no podía retener el contexto más allá de una determinada longitud de entrada. Por ejemplo, uno de los primeros modelos de ML no podía generar un párrafo significativo porque no podía retener el contexto entre la primera y la última oración de un párrafo.

Con los modelos de transformadores, puede utilizar técnicas como el aprendizaje por transferencia y la generación aumentada de recuperación (RAG). Estas técnicas permiten la personalización de los modelos existentes para aplicaciones específicas de la organización del sector. Los modelos pueden entrenarse previamente en conjuntos de datos grandes y, a continuación, ajustarse con precisión en conjuntos de datos más pequeños y específicos para tareas específicas. Este enfoque ha democratizado el uso de modelos sofisticados y ha eliminado las limitaciones de recursos en el entrenamiento de modelos grandes desde cero. Los modelos pueden funcionar bien en varios dominios y tareas para diversos casos de uso.



* Breve descripción de redes neuronales previas (MLP, RNN, LSTM)


## 2. Redes neuronales Feedforward (MLP)

* Definición de MLP  y su estructura: capas de entrada, ocultas y salida.

* Matemáticas del Feedforward: Cálculo de la salida de una red neuronal.

* Función de activación: ReLU,  Sigmoid, Tanh

* Backpropagation en MLP: ALgoritmo de retropropagación para el ajuste de pesos.

* Fórmula de retropropagación.

## 3. Redes recurrentes (RNN, LSTM)

* RNN: Estructura y uso en secuencias.

* Backpropagation Through Time (BPTT): Extensión de retropropagación para redes recurrentes.

* LSTM y GRU: Solución al problema anterior mediante puertas.

* Feedforward en RNN: Cálculo del estado oculto.

* Backpropagation en LSTM: Algoritmo para actualizar pesos a través de las puertas.

## 4. Transformers y Autoantención 

* Arquitectura Transformer: Componentes principales (atención, capas feedforward).
En transformers el codificador mapea una secuencia de entrada de representaciones de símbolos $ (x_1,..., x_n) $ a una secuencia de representaciones continuas $ z = (z_1,..., z_n) $. Dado $z$, el decodificador genera una secuencia de símbolos de salida $ (y_1,...,y_m)$ de un elemento cada vez. En cada paso, el modelo es autoregresivo, consumiendo los símbolos generados previamente como entrada adicional al generar el siguiente paso. El Transformer sigue esta arquitectura general ultilizando capas apiladas de autoatención y completamente conectadas punto a punto, tanto para el codificacor y el decodificador.
    * Encoder: El codificador está compuesto por una pila de N = 6 capas idénticas. Cada capa tiene subcapas.
    La primera capa es una mecanismo de autoatención con múltiples cabezas, la segunda es una red simple totalmente conectada en función de la posición. Se emplea una conexión residual (las cuales son enlaces adicionales que conectan algunas capas de una red neuronal con otras capas que no son directamente adyacentes), alrededor de cada una de las dos subcapas, seguida de una normalización de capas. Es decir la salida de cada subcapa es 
    $$ LayerNorm(x + sublayer(x))$$ 
    donde  $ sublayer(x) $ es una función implementada por la propia subcapa. Para facilitar estas conexiones residuales, todas las subcapas del modelo así como las capas embedding producen salidas de dimensión $d_{model} = 512$.

* Autoatención.
La función de Atención puede ser descrita como un mapeo entre de la $Query(Q)$ y el conjunto de los pares $key-value(K,V)$ a la salida, donde query, keys, values, y las salidas son todos vectores.
La salida se calcula como una suma ponderada de los values, donde el peso asignado a cada valor se calcula mediante una función de compatibilidad que es el producto punto entre la query y la key.
$$Compatibilidad = QK^T$$
Luego se normaliza usando softmax para convertirlo en una distribución de probabilidades
$$\alpha_{i,j} = softmax(\frac{QK^T}{\sqrt(d_k)}) $$ donde d_k es la dimensión de las keys y querys y se usan para estabilizar los gradientes.
Como resultado final obtenemos la siguiente expresión:
$$ Atención(Q,K,V) = softmax(\frac{QK^T}{\sqrt(d_k)})V
Es decir, cada value $v_i$ se multiplica por su peso $\alpha_{i,j}$ y  luego se suman todos los valores ponderados.
* Aplicación de Feedforward en Transformers
Además de las subcapas de atención, cada una de las capas del codificador y decodificador contiene una red feedforward  totalmente conectada que se aplica a cada posición por separado y de forma idéntica completamente conectada, que se aplica a cada posición por separado y de forma idéntica. Este consiste en dos transformaciones lineales con una activación ReLU intermedia.
$$ FFN(x) = max (0, xW_1 + b_1)W_2 + b_2 $$
Aunque las transformaciones lineales son las mismas en las distintas posiciones, utilizan parámetros diferentes de una capa a otra. Otra forma de describir esto es como dos convoluciones con tamaño de núcleo 1. La dimensionalidad de la entrada y la salida es $d_{model} =512$,  y la capa interna tiene una dimensionalidad $d_{ff} = 248$


* Backpropagation en Transformers: Cómo se aplica retropropagación en la capa de autoatención y en el feedforward.

## 5. Comparación entre Redes Neuronales y Transformers

* Comparación entre MLP, RNN y Transformers

* Ventajas de Transformers en tareas con NLP y visión

* Evolución en el uso de Feedforward: De MLP a modelos complejos como los Transformers.
 * Impacto de Backpropagation en el entrenamiendo de modelos complejos. 

## 6. Mezcla de Arquitecturas (Transformers + Otras redes)

* 