# Proyecto Parcial 2 - Transformers

Raúl Reyes Urbina

---

## Que son los Transormers? 

Los transformers son un tipo de arquitectura de red neuronal que transforma o cambia una secuencia de entrada en una secuencia de salida. Para ello, aprenden el contexto y rastrean las relaciones entre los componentes de la secuencia.

---

### Componentes Principales

#### 1. Encoder (Codificador)
- Procesa la secuencia de entrada.
- Consta de varias capas idénticas.
- Cada capa incluye:
  - Multi-Head Self-Attention
  - Feed-Forward Network (FFN)
  - Normalización y conexiones residuales

#### 2. Decoder (Decodificador)
- Genera la secuencia de salida.
- También tiene varias capas, con componentes adicionales:
  - Masked Multi-Head Self-Attention (para evitar ver el futuro)
  - Multi-Head Attention sobre la salida del encoder
  - Feed-Forward Network y normalización


---

### Mecanismo de Self-Attention

Permite al modelo enfocarse en diferentes partes de la secuencia al procesar cada palabra.

Fórmula base:
$$
Attention(Q, K, V) = softmax(QKᵀ / √d_k) * V
$$

- Q = Query
- K = Key
- V = Value
- d_k = dimensión del key


---

### Multi-Head Attention

- Se ejecuta la atención varias veces en paralelo (varias "cabezas").
- Cada cabeza aprende diferentes patrones/contextos.
- Las salidas se concatenan y proyectan.


---

### Feed-Forward Networks

- Red neuronal densa aplicada por token:
$$
FFN(x) = max(0, xW₁ + b₁)W₂ + b₂
$$


---

### Positional Encoding

- Como no hay recurrencia, se agregan codificaciones posicionales al embedding de cada token.
- Ejemplo con senos y cosenos:
$$
PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
$$


---

### Otras características

- **Residual connections**: ayudan a evitar el desvanecimiento del gradiente.
- **Layer Normalization**: estabiliza el entrenamiento.


---

### Ventajas

- Captura relaciones a largo plazo sin recurrencia.
- Altamente paralelizable → más rápido en entrenamiento.
- Base de modelos como BERT, GPT, T5, RoBERTa, etc.

---

### Aplicaciones en PLN

- Traducción automática
- Resumen de texto
- Generación de texto
- Chatbots
- Análisis de sentimientos


## Generacion de resumenes usando transformers

Instalamos las bilbioteca necesaria para usar transformers

In [None]:
%pip install transformers torch
%pip install tf-keras

Importamos las dependencias necesarias

In [None]:
from transformers import pipeline # La usamos para el manejo de los transofrmers
from IPython.display import display, HTML # Para mostrar el texto con saltos de linea
import sys # Para leer los archivos txt

Generamos funcion para cargar texto

In [None]:
def cargar_texto(ruta_archivo):
    with open(ruta_archivo, 'r', encoding='utf-8') as archivo:
        return archivo.read()

Esta funcion nos facilita la impresion de texto largo, en donde automaticamente usando etiquetas y estilos HTML/CSS se hace wrap y se muestra de manera ordenada

In [29]:
def print_texto(texto):
    display(HTML(f"<div style='white-space: pre-wrap; font-family: monospace'>{texto}</div>"))

Con la siguiente funcion generaremos los resumenes, a esta se le apsa como parametro el texto a resumir, establecemos un par de variables para definir el tamaño maximo de los chunks y el modelo a usar, en este caso usando Bart el tamaño de chunk maximo recomendado son 1000 caracteres, por lo que lo establecemos como max_chunk, posteriormente generamos un pipeline para resumenes usando el modelo definido, y partimos el texto en partes del tamaño de los chunks, iteramos sobre estos chunks usando el pipeline para ir resumiendo cada uno y juntarlos en un array.

In [None]:
def resumir_texto(texto):
    max_chunk = 1000
    modelo="facebook/bart-large-cnn"
    resumen_pipeline = pipeline("summarization", model=modelo)
    partes = [texto[i:i+max_chunk] for i in range(0, len(texto), max_chunk)]

    resumenes = []

    for i, parte in enumerate(partes):
        print(f"Resumiendo parte {i+1}/{len(partes)}...")
        resumen = resumen_pipeline(parte, max_length=130, min_length=30, do_sample=False)
        resumenes.append(resumen[0]['summary_text'])
    
    resumen_final = " ".join(resumenes)
    return resumen_final

Finalmente llamamos las funciones e imprimimos texto orignal y texto resumido

In [None]:
ruta_archivo = "./turing.txt"
texto_original = cargar_texto(ruta_archivo)

print_texto("\nTexto original:")
print_texto(texto_original[:500] + "...\n") 

resumen = resumir_texto(texto_original)

print("Resumen:")
print_texto(resumen)

Device set to use cpu


Resumiendo parte 1/13...
Resumiendo parte 2/13...
Resumiendo parte 3/13...
Resumiendo parte 4/13...
Resumiendo parte 5/13...
Resumiendo parte 6/13...
Resumiendo parte 7/13...
Resumiendo parte 8/13...
Resumiendo parte 9/13...
Resumiendo parte 10/13...
Resumiendo parte 11/13...
Resumiendo parte 12/13...
Resumiendo parte 13/13...
Resumen:
