# Curso NLP + Transformers

<img src="https://yaelmanuel.com/wp-content/uploads/2021/12/platzi-banner-logo-matematicas.png" width="500px">

---

# Transformers y su Relevancia en NLP

## 1) Origen y Evoluci√≥n üìö

- Los Transformers fueron introducidos en el art√≠culo **"Attention is All You Need"** ([Vaswani et al., 2017](https://arxiv.org/pdf/1706.03762)).

- Rompen con el paradigma de las RNN (Redes Neuronales Recurrentes) al usar mecanismos de atenci√≥n que permiten procesar secuencias en paralelo, capturando relaciones de largo alcance de manera m√°s eficiente.

## 2) Arquitectura y Conceptos Clave ü§ñ

- **Self-Attention:** Permite que cada token en una secuencia preste atenci√≥n a todos los dem√°s tokens, asignando pesos que reflejan su importancia relativa.

- **Multi-Head Attention:** Realiza m√∫ltiples atenciones en paralelo, lo que ayuda a capturar diferentes tipos de relaciones sem√°nticas y sint√°cticas.

- **Encoder y Decoder:** En tareas de NLP como clasificaci√≥n o NER se utiliza principalmente la parte del encoder, que transforma la entrada en representaciones contextuales.

- **Feed-Forward Layers:** Despu√©s de la atenci√≥n, se aplican redes neuronales totalmente conectadas (feed-forward) para procesar la informaci√≥n.

## 3) Comparaci√≥n con BERT üìç

**BERT** (Bidirectional Encoder Representations from Transformers):

- Utiliza √∫nicamente la parte del encoder de la arquitectura Transformer.
- Est√° preentrenado en grandes cantidades de texto y permite obtener representaciones contextuales muy potentes.
- Por ejemplo, el modelo "dccuchile/bert-base-spanish-wwm-cased" es una versi√≥n de BERT adaptada al espa√±ol, con 12 capas de codificaci√≥n.

**DistilBERT**:
- Es una versi√≥n m√°s ligera y r√°pida de BERT que retiene gran parte de su rendimiento pero con menos capas (por ejemplo, 6 en lugar de 12).
- Ideal cuando se requieren modelos m√°s eficientes en t√©rminos computacionales.

---
## 4) Visualizaci√≥n de la Configuraci√≥n de BERT üëÄ

In [None]:
#!pip install transformers

In [None]:
from transformers import BertConfig, BertModel

Cargar la configuraci√≥n del modelo BERT en espa√±ol

In [3]:
config = BertConfig.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")
print("N√∫mero de capas de BERT:", config.num_hidden_layers)

N√∫mero de capas de BERT: 12


Cargar el modelo para visualizar su arquitectura

In [4]:
model = BertModel.from_pretrained("dccuchile/bert-base-spanish-wwm-cased", output_hidden_states=True)
print(model)

pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of BertModel were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-cased and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(31002, 768, padding_idx=1)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False

## 5) Visualizaci√≥n de las Capas y Hidden States üîç

In [5]:
from transformers import BertTokenizer
import torch

Cargar tokenizer y modelo BERT en espa√±ol

In [6]:
tokenizer = BertTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")
model = BertModel.from_pretrained("dccuchile/bert-base-spanish-wwm-cased", output_hidden_states=True)

tokenizer_config.json:   0%|          | 0.00/364 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/134 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/480k [00:00<?, ?B/s]

Some weights of BertModel were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-cased and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Texto de ejemplo

In [7]:
text = "El producto de Samsung Galaxy S21 lleg√≥ el 12 de marzo y super√≥ mis expectativas."
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=128)
outputs = model(**inputs)

In [8]:
print(outputs)

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[-0.3688, -0.2218, -0.6865,  ..., -0.4430,  0.2883,  0.1794],
         [-0.2616, -0.0662, -0.6243,  ..., -0.5904,  0.6507,  0.2768],
         [-0.2415, -0.2261, -0.6785,  ..., -0.1096,  0.0910,  0.5395],
         ...,
         [-1.4393, -0.1986, -0.5770,  ..., -0.5261,  0.0716,  1.0376],
         [-0.7026,  0.3509, -0.4953,  ..., -0.3322,  0.3734,  0.1284],
         [-1.2273, -0.4597, -1.0296,  ..., -0.6864,  0.9237, -0.5841]]],
       grad_fn=<NativeLayerNormBackward0>), pooler_output=tensor([[-4.1123e-01, -2.7613e-01,  2.9099e-01, -2.0872e-01,  2.1553e-01,
         -2.7525e-01, -5.2433e-01,  3.7065e-01, -1.2771e-01,  1.4154e-01,
         -3.8542e-01, -4.7954e-03, -1.3376e-01,  5.0604e-01,  1.5637e-02,
         -2.1366e-01, -5.4499e-01, -4.8155e-01,  4.1917e-01, -4.8225e-01,
          3.3385e-01, -2.1357e-01,  3.3709e-01, -4.1443e-01, -2.5942e-02,
          8.2384e-01, -4.3977e-01, -5.9873e-02, -5.2989e-01, -3.277

Extraer los hidden states


In [9]:
hidden_states = outputs.hidden_states
print("N√∫mero de capas (incluyendo la capa de embedding):", len(hidden_states))

N√∫mero de capas (incluyendo la capa de embedding): 13


Por ejemplo, si BERT base tiene 12 capas, se imprimir√° 13 (1 de embedding + 12 codificadores)

## 6) Diagrama Conceptual y Pseudoc√≥digo üôå

Pseudoc√≥digo del mecanismo de Self-Attention

```
Para cada token en la secuencia:
    Calcular su vector Query (Q), Key (K) y Value (V) mediante multiplicaci√≥n por matrices de peso.

Para cada par de tokens (i, j):
    Calcular el puntaje de atenci√≥n: score(i, j) = (Q_i ¬∑ K_j) / sqrt(dim)
    
Aplicar softmax a los puntajes de cada token:
    pesos = softmax(score(i, j)) para cada j

Calcular la representaci√≥n final del token:
    output_i = suma(pesos[j] * V_j) para todos los tokens j

```

Ilustra el proceso de atenci√≥n: se calculan las relaciones entre tokens y se utilizan para generar representaciones contextuales.