Necesito entender correctamente el mecanismo de atención de los modelos de Deep Learning denominados Transformers. Me cuesta saber exactamente cómo logra extraer conocimiento apilando las diferentes capas de atención. No soy experto matemático así que intenta simplificarlo para que alguien de unos 16 años pueda entenderlo.
Los modelos de Deep Learning llamados transformadores utilizan el mecanismo de atención para aprender a extraer conocimiento de los datos de entrada. Esto se logra mediante una red neuronal profunda que contiene varias capas de atención. Estas capas de atención se basan en la tecnología de attention que se usa para procesar datos naturales como el lenguaje. Esta tecnología le permite a la red neuronal prestar atención a las partes de los datos de entrada que son importantes para la tarea específica a realizar. Esto le permite a la red neuronal aprender a extraer información relevante de la entrada y luego usarla para crear una respuesta coherente y relevante. Es como si la red neural tuviera un cerebro que puede aprender a prestar atención a lo que es importante y descartar lo que no lo es.