# Curso NLP + Transformers

<img src="https://yaelmanuel.com/wp-content/uploads/2021/12/platzi-banner-logo-matematicas.png" width="500px">

---

# Transformers y su Relevancia en NLP

## 1) Origen y Evolución 📚

- Los Transformers fueron introducidos en el artículo **"Attention is All You Need"** ([Vaswani et al., 2017](https://arxiv.org/pdf/1706.03762)).

- Rompen con el paradigma de las RNN (Redes Neuronales Recurrentes) al usar mecanismos de atención que permiten procesar secuencias en paralelo, capturando relaciones de largo alcance de manera más eficiente.

## 2) Arquitectura y Conceptos Clave 🤖

- **Self-Attention:** Permite que cada token en una secuencia preste atención a todos los demás tokens, asignando pesos que reflejan su importancia relativa.

- **Multi-Head Attention:** Realiza múltiples atenciones en paralelo, lo que ayuda a capturar diferentes tipos de relaciones semánticas y sintácticas.

- **Encoder y Decoder:** En tareas de NLP como clasificación o NER se utiliza principalmente la parte del encoder, que transforma la entrada en representaciones contextuales.

- **Feed-Forward Layers:** Después de la atención, se aplican redes neuronales totalmente conectadas (feed-forward) para procesar la información.

## 3) Comparación con BERT 📍

**BERT** (Bidirectional Encoder Representations from Transformers):

- Utiliza únicamente la parte del encoder de la arquitectura Transformer.
- Está preentrenado en grandes cantidades de texto y permite obtener representaciones contextuales muy potentes.
- Por ejemplo, el modelo "dccuchile/bert-base-spanish-wwm-cased" es una versión de BERT adaptada al español, con 12 capas de codificación.

**DistilBERT**:
- Es una versión más ligera y rápida de BERT que retiene gran parte de su rendimiento pero con menos capas (por ejemplo, 6 en lugar de 12).
- Ideal cuando se requieren modelos más eficientes en términos computacionales.

---
## 4) Visualización de la Configuración de BERT 👀

In [1]:
!pip install transformers



In [2]:
from transformers import BertConfig, BertModel

Cargar la configuración del modelo BERT en español

In [3]:
config = BertConfig.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")
print("Número de capas de BERT:", config.num_hidden_layers)

Número de capas de BERT: 12


Cargar el modelo para visualizar su arquitectura

In [4]:
model = BertModel.from_pretrained("dccuchile/bert-base-spanish-wwm-cased", output_hidden_states=True)
print(model)

pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Some weights of BertModel were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-cased and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(31002, 768, padding_idx=1)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False

## 5) Visualización de las Capas y Hidden States 🔍

In [10]:
from transformers import BertTokenizer
import torch

Cargar tokenizer y modelo BERT en español

In [11]:
tokenizer = BertTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")
model = BertModel.from_pretrained("dccuchile/bert-base-spanish-wwm-cased", output_hidden_states=True)

Some weights of BertModel were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-cased and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Texto de ejemplo

In [12]:
text = "El producto de Samsung Galaxy S21 llegó el 12 de marzo y superó mis expectativas."
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=128)
outputs = model(**inputs)

In [8]:
print(outputs)

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[-0.3688, -0.2218, -0.6865,  ..., -0.4430,  0.2883,  0.1794],
         [-0.2616, -0.0662, -0.6243,  ..., -0.5904,  0.6507,  0.2768],
         [-0.2415, -0.2261, -0.6785,  ..., -0.1096,  0.0910,  0.5395],
         ...,
         [-1.4393, -0.1986, -0.5770,  ..., -0.5261,  0.0716,  1.0376],
         [-0.7026,  0.3509, -0.4953,  ..., -0.3322,  0.3734,  0.1284],
         [-1.2273, -0.4597, -1.0296,  ..., -0.6864,  0.9237, -0.5841]]],
       grad_fn=<NativeLayerNormBackward0>), pooler_output=tensor([[ 3.2363e-01,  4.1634e-02, -5.8326e-01,  1.3028e-01,  1.3692e-01,
         -4.5117e-02,  1.7916e-01,  2.8014e-01,  1.9296e-02, -1.7212e-01,
          5.0029e-01, -6.3768e-02,  2.4064e-01,  2.0520e-01,  3.8075e-01,
          2.4769e-01,  6.4963e-01, -1.1963e-01,  2.6767e-01, -2.7945e-01,
         -2.6577e-01, -1.6345e-02, -3.6798e-02,  4.5487e-01,  7.5780e-01,
         -4.9858e-01, -3.5859e-02,  1.4543e-01,  2.1223e-01,  2.833

Extraer los hidden states


In [9]:
hidden_states = outputs.hidden_states
print("Número de capas (incluyendo la capa de embedding):", len(hidden_states))

Número de capas (incluyendo la capa de embedding): 13


model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

Por ejemplo, si BERT base tiene 12 capas, se imprimirá 13 (1 de embedding + 12 codificadores)

## 6) Diagrama Conceptual y Pseudocódigo 🙌

Pseudocódigo del mecanismo de Self-Attention

```
Para cada token en la secuencia:
    Calcular su vector Query (Q), Key (K) y Value (V) mediante multiplicación por matrices de peso.

Para cada par de tokens (i, j):
    Calcular el puntaje de atención: score(i, j) = (Q_i · K_j) / sqrt(dim)
    
Aplicar softmax a los puntajes de cada token:
    pesos = softmax(score(i, j)) para cada j

Calcular la representación final del token:
    output_i = suma(pesos[j] * V_j) para todos los tokens j

```

Ilustra el proceso de atención: se calculan las relaciones entre tokens y se utilizan para generar representaciones contextuales.