# üîÑ Transformers: Arquitectura que Revolucion√≥ la IA
## Attention Is All You Need

<a href="https://colab.research.google.com/github/Jomucon21muri/Aprendizaje_automatico/blob/main/01_Sistemas_aprendizaje_automatico/05_Transformers/transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---

## üìã Resumen

Transformers han revolucionado NLP, visi√≥n computacional y ML en general mediante **mecanismos de atenci√≥n** que permiten procesamiento paralelo y captura de dependencias de largo alcance.

### üéØ Objetivos

1. **Mecanismos de Atenci√≥n**:
   - Self-Attention: $\text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V$
   - Multi-Head Attention
   - Query, Key, Value matrices

2. **Arquitectura Transformer**:
   - Encoder-Decoder structure
   - Positional Encoding
   - Feed-Forward Networks
   - Layer Normalization y Skip Connections

3. **Modelos Derivados**:
   - **BERT**: Bidirectional Encoder (clasificaci√≥n, NER, QA)
   - **GPT**: Autoregressive Decoder (generaci√≥n de texto)
   - **T5, BART**: Encoder-Decoder (traducci√≥n, resumen)
   - **Vision Transformer (ViT)**: Transformers para im√°genes

4. **Implementaci√≥n Pr√°ctica**:
   - Atenci√≥n desde cero
   - Fine-tuning de modelos pre-entrenados
   - Transfer learning con Hugging Face

### üìä Contenido

- Teor√≠a matem√°tica de atenci√≥n
- Implementaci√≥n simplificada de Transformer
- Fine-tuning con Hugging Face Transformers
- Aplicaciones: clasificaci√≥n de texto, NER, generaci√≥n

---

In [None]:
# Configuraci√≥n
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ TensorFlow:", tf.__version__)
print("‚úÖ Entorno Transformers configurado\n")

# Implementaci√≥n simplificada de Self-Attention
class SelfAttention(layers.Layer):
    def __init__(self, d_model):
        super().__init__()
        self.d_model = d_model
        self.sqrt_d = tf.sqrt(tf.cast(d_model, tf.float32))
        
    def build(self, input_shape):
        self.W_q = self.add_weight(shape=(input_shape[-1], self.d_model), initializer='glorot_uniform')
        self.W_k = self.add_weight(shape=(input_shape[-1], self.d_model), initializer='glorot_uniform')
        self.W_v = self.add_weight(shape=(input_shape[-1], self.d_model), initializer='glorot_uniform')
        
    def call(self, inputs):
        Q = tf.matmul(inputs, self.W_q)
        K = tf.matmul(inputs, self.W_k)
        V = tf.matmul(inputs, self.W_v)
        
        # Atenci√≥n: softmax(QK^T / sqrt(d_k)) V
        scores = tf.matmul(Q, K, transpose_b=True) / self.sqrt_d
        attention_weights = tf.nn.softmax(scores, axis=-1)
        output = tf.matmul(attention_weights, V)
        return output, attention_weights

print("üì¶ Clase SelfAttention implementada")

In [None]:
# Ejemplo: Visualizar Atenci√≥n en secuencia simple

# Crear secuencia de ejemplo
sequence = np.random.randn(1, 10, 64)  # (batch, seq_len, features)

# Aplicar Self-Attention
attention_layer = SelfAttention(d_model=64)
output, attention_weights = attention_layer(sequence)

print(f"Input shape: {sequence.shape}")
print(f"Output shape: {output.shape}")
print(f"Attention weights shape: {attention_weights.shape}")

# Visualizar matriz de atenci√≥n
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Attention matrix
im = ax1.imshow(attention_weights[0].numpy(), cmap='viridis', aspect='auto')
ax1.set_title('Matriz de Atenci√≥n (10x10)', fontweight='bold', fontsize=12)
ax1.set_xlabel('Key Position')
ax1.set_ylabel('Query Position')
plt.colorbar(im, ax=ax1, label='Attention Weight')

# Atenci√≥n promedio por posici√≥n
avg_attention = np.mean(attention_weights[0].numpy(), axis=0)
ax2.bar(range(10), avg_attention, color='steelblue', alpha=0.8, edgecolor='black')
ax2.set_title('Atenci√≥n Promedio por Posici√≥n', fontweight='bold', fontsize=12)
ax2.set_xlabel('Position')
ax2.set_ylabel('Average Attention')
ax2.grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

print("\nüìä Interpretaci√≥n:")
print("  ‚Ä¢ Cada celda (i,j) muestra cu√°nta atenci√≥n presta posici√≥n i a posici√≥n j")
print("  ‚Ä¢ Filas suman 1 (distribuci√≥n de probabilidad)")
print("  ‚Ä¢ Patterns diagonales indican atenci√≥n local")
print("  ‚Ä¢ Values altos fuera de diagonal = dependencias de largo alcance")

## Conclusiones

### üìö Conceptos Clave
- **Self-Attention**: Permite procesar secuencias en paralelo y capturar dependencias globales
- **Multi-Head Attention**: M√∫ltiples representaciones en diferentes subespacios
- **Positional Encoding**: Inyecta informaci√≥n de orden en el modelo
- **Encoder-Decoder**: Arquitectura para traducci√≥n y generaci√≥n condicionada

### üéØ Modelos Principales

| Modelo | Tipo | Uso Principal |
|--------|------|---------------|
| BERT | Encoder | Clasificaci√≥n, NER, QA |
| GPT | Decoder | Generaci√≥n de texto |
| T5 | Encoder-Decoder | Tareas seq2seq |
| ViT | Encoder | Clasificaci√≥n de im√°genes |

### ‚úÖ Ventajas vs RNNs
- ‚úÖ Paralelizaci√≥n completa
- ‚úÖ Dependencias de largo alcance (O(1) vs O(n))
- ‚úÖ Interpretabilidad (visualizar atenci√≥n)
- ‚úÖ Transfer learning efectivo

### üìñ Recursos
- Paper: "Attention Is All You Need" (Vaswani et al., 2017)
- **Hugging Face**: https://huggingface.co/transformers
- **The Illustrated Transformer**: https://jalammar.github.io/illustrated-transformer/

---

**üéì Siguiente**: [LLM](../06_Llm/llm.ipynb)