In [None]:
!pip install tensor-sensor[torch]

In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import tsensor
from transformers import pipeline
from matplotlib import pyplot as plt

In [None]:
%config InlineBackend.figure_format='retina'

# Tareas pre-entrenadas en Hugging ðŸ¤— Face
- Pipelines disponibles: https://huggingface.co/transformers/main_classes/pipelines.html
- Modelos pre-entrenados: https://huggingface.co/transformers/pretrained_models.html

## Tarea: rellenar huecos (`fill-mask`)
Es una tarea que se puede entrenar de forma no supervisada: durante el entrenamiento se le pasa a la red un texto escondiÃ©ndole palabras (por defecto con p=0.15), y se le pide a la red que prediga las palabras enmascaradas. Para predecir las palabras enmascaradas, el modelo puede ver **todo** el texto, tanto el anterior a la palabra oculta como el posterior.

Al modelo entrenado con esta tarea se le llama _Masked Language Model_ (MLM). 

AdemÃ¡s de la tarea MLM, a algunos modelos, como BERT, se les entrena simultÃ¡neamente para predecir si dos fragmentos de texto son consecutivos o no _(Next Sentence Prediction)_ o NSP.

Ejemplos de arquitecturas diseÃ±adas para esta tarea: BERT, RoBERTa, DeBERTA, XLNet, etc.

Paper de BERT: https://arxiv.org/pdf/1810.04805.pdf


Diferencias BERT vs RoBERTa:
![image.png](attachment:c85eb5a2-5519-4b5a-90d9-dbad0021fa0a.png)

GLUE: Â¿quÃ© es GLUE? Â¿CÃ³mo se evalÃºan los modelos de lenguaje? https://mccormickml.com/2019/11/05/GLUE/

In [None]:
unmasker = pipeline("fill-mask", model="roberta-base")

In [None]:
unmasker.tokenizer.mask_token

In [None]:
unmasker("I don't like ball sports, I prefer <mask>")

In [None]:
unmasker("I don't like <mask> sports, I prefer swimming")

In [None]:
unmasker("It's late so I'm going to <mask>")

## Tarea: generaciÃ³n de texto (`text-generation`)
En este caso el modelo se entrena pasÃ¡ndole un texto y se le pide que prediga la siguiente palabras. TambiÃ©n se entrenar de forma no supervisada (no hay nada que etiquetar). A diferencia del modelo MLM, los modelos generativos solo pueden ver el texto que antecede a la palabra a predecir, por ello tambiÃ©n a veces se les llama modelos **autoregresivos** o **causales**.

Ejemplos de modelos: todos los GPT.

In [None]:
generator = pipeline(
    'text-generation', 
    #model='EleutherAI/gpt-neo-2.7B', # mejores resultados pero no cabe en la RAM de kaggle
    #model='EleutherAI/gpt-neo-1.3B',
    model='gpt2', # 117M parÃ¡metros
    device=0,
)

In [None]:
generator('Once upon a time there was a little girl named Little Red Riding Hood.')

In [None]:
generator("I don't like ball sports, I prefer")

In [None]:
generator("I don't like ball sports, I prefer", 
    max_length = 12,
    num_return_sequences=5,
)

In [None]:
generator("In a place of La Mancha, whose name I don't want to remember")

## Tarea: preguntas y respuestas (`question-answering`)

Le pasamos un texto y una pregunta y nos devuelve el fragmento del texto que mejor responde a la pregunta. Ejemplo:

https://twitter.com/info_libertas/status/1393321710368198662



En hugging face hay modelos entrenados con el dataset SQUAD 2.0: https://rajpurkar.github.io/SQuAD-explorer/, que contiene 100 000 preguntas con sus respuestas y 50 000 ejemplos adversarios de preguntas sin respuestas cuya finalidad es dar la opciÃ³n al modelo de no responder si no sabe la respuesta.

In [None]:
qa = pipeline(
    "question-answering", 
    'bert-large-uncased-whole-word-masking-finetuned-squad',
    device=0
)

In [None]:
text_en = r"""
The respiratory system is made up of the airways and the lungs.

The airways are a set of tubes through which air enters and leaves. 
They are the nostrils, pharynx, trachea and bronchial tubes. 
The latter branch out into increasingly thin tubes until they end up 
in millions of tiny sacs called alveoli.

The lungs are two organs formed by the branches of the bronchial 
tubes and by the alveoli.

This is how our respiratory system works:

The process of respiration consists of introducing air into the lungs, 
exchanging oxygen and carbon dioxide with the blood, and expelling air outside.

The entry of air into the lungs; The inspiration:

Beneath the lungs is a muscle called the diaphragm. When this muscle 
contracts, it widens the lungs and air enters through the airways to 
the alveoli.

The exchange of oxygen and carbon dioxide:

In the alveoli, oxygen from the air passes into the blood. 

At the same time, the carbon dioxide that we produce as waste and that 
is in the blood passes into the alveolus.

The expulsion of air to the outside; expiration:

The diaphragm relaxes, the lungs narrow, and the carbon dioxide-laden air
from the alveoli is pushed out through the airways.
"""

questions_en = [
    #"Name in an orderly manner the different airways that carbon dioxide-rich air passes through from the moment it leaves the alveolus until it is expelled outside.",
    "What are the airways that carbon dioxide-rich air passes through from the moment it leaves the alveolus until it is expelled outside in an orderly manner?",
    "Explain how gas exchange occurs between air and blood during respiration.",
    "What are the alveoli?",
    "Explain what role the diaphragm plays during inspiration.",
    "Explain what role the diaphragm plays during exhalation.",
]


In [None]:
qa(context=text_en, question=questions_en[4])

# Ejercicios
* Probar alguno de los otros pipelines disponibles en https://huggingface.co/transformers/main_classes/pipelines.html, por ejemplo:
    * `SummarizationPipeline` (para resumir textos)
    * `ConversationalPipeline`
    * `TextClassificationPipeline` (anÃ¡lisis de sentimientos)
* [Buscar](https://huggingface.co/models?filter=es&pipeline_tag=question-answering) algÃºn modelo de preguntas y respuestas pre-entrenado en **castellano** y hacer la prueba con el texto y las pregutnas en castellano (ver mÃ¡s abajo)
* Test de Turing (para hacer en parejas): Â¿puedes discriminar texto sintÃ©tico generado por ordenador del texto escrito por un humano? Una persona escoge un fragmento de texto, genera su continuaciÃ³n con GPT-x (cuanto mÃ¡s grande el modelo, mejor serÃ¡ el resultado) y le pasa a la otra: 1) el texto original, 2) la continuaciÃ³n original, 3) la continuaciÃ³n generada por GPT y debe intentar diferenciar el texto original del sintÃ©tico.

In [None]:
text_es = r"""
El aparato respiratorio estÃ¡ formado por las vÃ­as respiratorias y por los pulmones.

Las vÃ­as respiratorias son un conjunto de tubos por los que el aire entra y sale. Son las fosas nasales, la faringe, la traquea y los bronquis. Estos Ãºltimos se ramifican en tubos cada vez mÃ¡s finos hasta acabar en millones de diminutos sacos llamados alvÃ©olos.

Los pulmones son dos Ã³rganos formados por las ramificaciones de los bronquios y por los alvÃ©olos.

AsÃ­ funciona nuestro aparato respiratorio:

El proceso de la respiraciÃ³n consiste en introducir aire en los pulmones, intercambiar oxÃ­geno y diÃ³xido de carbono con la sangre y expulsar aire al exterior.

La entrada de aire en los pulmones; la inspiraciÃ³n:

Bajo los pulmones hay un mÃºsculo llamado diafragma. Cuando este mÃºsculo se contrae, ensancha los pulmones y el aire entra por las vÃ­as respiratorias hasta los alvÃ©olos.

El intercabio de oxÃ­geo y diÃ³xido de carbono:

En los alvÃ©olos, el oxÃ­geno del aire pasa a la sangre. Al mismo tiempo, el diÃ³xido de carbono que producimos como desencho y que estÃ¡ en la sange pasa al alvÃ©olo.

La expulsiÃ³n del aire al exterior; la espiraciÃ³n:

El diafragma se relaja, los pulmones se estrechan y el aire cargado de diÃ³xido de carbono de los alvÃ©olos se expulsa al exterior a traves de las vÃ­as respiratorias.
"""

questions_es = [
    "Nombra de manera ordenada las diferentes vÃ­as respiratorias que atraviesa el aire rico en diÃ³xido de carbono desde que sale del alvÃ©olo hasta que es expulsado al exterior.",
    "Explica cÃ³mo se produce el intercambio de gases entre el aire y la sangre durante la respiraciÃ³n.",
    "Â¿QuÃ© son los alvÃ©olos?",
    "Explica que papel desempeÃ±a el diafragma durante la inspiraciÃ³n.",
    "Explica quÃ© papel desempeÃ±a el diafragma durante la espiraciÃ³n.",
]

# Los modelos por dentro

## El tokenizador

In [None]:
unmasker.tokenizer

In [None]:
unmasker.tokenizer.mask_token

In [None]:
tokens = unmasker.tokenizer.encode("It's late so I'm going to <mask>")
tokens

In [None]:
unmasker.tokenizer.decode(tokens)

In [None]:
import torch

In [None]:
x = torch.LongTensor(tokens) # convertimos a tensor
x = x.reshape(1, -1) # le aÃ±adimos la dimensiÃ³n del batch
x

In [None]:
with tsensor.explain(fontname='Ubuntu Mono'): 
    x

## El modelo

In [None]:
unmasker.model

## Entrada al modelo: los embeddings
Los embeddings ([nn.Embedding](https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html)) traducen una variable categÃ³rica (ej. el `id` de una palabra) a un vector continuo. La traducciÃ³n consiste sencillamente en indexar con el `id` de cada palabra en una matriz de dimensiones `n` x `d` donde `n` es el nÃºmero de palabras del vocabulario y `d` es la dimensiÃ³n de vector.

In [None]:
embs = unmasker.model.roberta.embeddings(x)
embs

In [None]:
with tsensor.explain(fontname='Ubuntu Mono'):
    embs

El resultado de `unmasker.model.roberta.embeddings` codifica no solo las palabras sino la posiciÃ³n:

In [None]:
tokens = unmasker.tokenizer.encode("The dog ate the cat")
embs = unmasker.model.roberta.embeddings(torch.LongTensor(tokens).unsqueeze(0))
embs # <s>, The, dog, ..., the, cat, </s>

In [None]:
tokens = unmasker.tokenizer.encode("The cat ate the dog")
embs = unmasker.model.roberta.embeddings(torch.LongTensor(tokens).unsqueeze(0))
embs # <s>, The, cat, ..., the, dog, </s>

La matriz de embeddings es un **parÃ¡metro** del modelo, por lo que sus valores no estÃ¡n predefinidos (se inicializan de forma aleatoria) sino que se aprenden durante el entrenamiento en funciÃ³n de la tarea. Para un modelo MLM, podemos conjeturar que los embeddings almacenan informaciÃ³n sobre:

* Significados
* Funciones sintÃ¡cticas de la palabra (sustantivo, adverbio, preposiciÃ³n, etc.)
* Tiempo verbal
* GÃ©nero
* NÃºmero
* etc.

En el siguiente ejemplo podemos ver como, de todas las palabras de la frase, la palabra `cat` guarda mayor relaciÃ³n con `dog`.

Vamos a sacar los embeddings de las palabras (sin la codificaciÃ³n posicional):

In [None]:
embs = unmasker.model.roberta.embeddings.word_embeddings(torch.LongTensor(tokens).unsqueeze(0))
embs # <s>, The, cat, ..., the, dog, </s>

In [None]:
words = [ unmasker.tokenizer.decode(token) for token in tokens ]
words

In [None]:
fig, ax = plt.subplots(figsize=(6,6))
corr = torch.matmul(embs[0], embs[0].T).detach().numpy()
im = plt.imshow(corr)
ax.set_xticks(np.arange(len(words)))
ax.set_yticks(np.arange(len(words)))
ax.set_xticklabels(words)
ax.set_yticklabels(words)
# Loop over data dimensions and create text annotations.
for i in range(len(words)):
    for j in range(len(words)):
        text = ax.text(j, i, f'{corr[i, j]:.1f}', ha="center", va="center", color="w", fontsize=12)
fig.tight_layout()
plt.show()

## Salida del modelo

In [None]:
tokens = unmasker.tokenizer.encode("It's late so I'm going to <mask>")
x = torch.LongTensor(tokens) # convertimos a tensor
x = x.reshape(1, -1) # le aÃ±adimos la dimensiÃ³n del batch
unmasker.tokenizer.decode(x[0])

In [None]:
y = unmasker.model(x, output_hidden_states=True, output_attentions=True)
y.keys()

In [None]:
explain = lambda: tsensor.explain(fontname='Ubuntu Mono')

## Estados ocultos (salidas de las capas del transformer)
En `y.hidden_states` hay 13 tensores con las salidas de cada una de las capas intermedias del modelo: la primera son los embeddings (`y.hidden_states[0]`) y las 12 siguientes corresponden a cada una de las capas del transformer:

In [None]:
len(y.hidden_states)

In [None]:
# Los embeddings:
y.hidden_states[0]

In [None]:
# Ãšltima capa del transformer:
y.hidden_states[12]

In [None]:
# Vamos a ver quÃ© dimensiones tienen:
with explain():
    (y.hidden_states[0], y.hidden_states[12])

## Salida de la capa clasificadora
A la salida de la capa clasificadora tenemos los _logits_, que son los valores que salen de la Ãºltima capa `nn.Linear` antes de pasar por la funciÃ³n softmax:

In [None]:
with explain():
    y.logits

El valor mÃ¡ximo en la Ãºltima dimensiÃ³n indica quÃ© palabra de las 50265 del vocabulario tiene la mayor probabilidad de ir en cada una de las 11 posiciones.

In [None]:
y_tokens = y.logits.argmax(-1)[0]
y_tokens

In [None]:
unmasker.tokenizer.decode(y_tokens)

# Ejercicios
* Â¿QuÃ© probabilidad tiene asociada la palabra "bed"? (pista [torch.softmax](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html))
* Â¿CuÃ¡les son las siguientes palabras a "bed" en orden de probabilidad? (pista: [torch.topk](https://pytorch.org/docs/stable/generated/torch.topk.html))
* Â¿QuÃ© longitud tiene el vocabulario del tokenizador de BERT?
* Muestra algunas palabras del vocabulario
* Probar a tokenizar la palabra "Sunday" o "Monday". Â¿CuÃ¡ntos tokens salen? Â¿Por quÃ©? Â¿CÃ³mo funciona el tokenizador? Â¿QuÃ© pasa si se encuentra palabras que no existe? Probar con nombres propios o palabras en castellano, con tildes o con Ã±.
* 

# Soluciones

* Â¿QuÃ© probabilidad tiene asociada la palabra "bed"? (pista [torch.softmax](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html))* Â¿QuÃ© probabilidad tiene asociada la palabra "bed"? (pista [torch.softmax](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html))

In [None]:
y_probs = y.logits.softmax(-1)

In [None]:
plt.plot(y_probs[0,-2].detach().numpy())

In [None]:
y_probs[0,-2].argmax()

In [None]:
y_probs[0,-2,3267]

* Â¿CuÃ¡les son las siguientes palabras a "bed" en orden de probabilidad? (pista: [torch.topk](https://pytorch.org/docs/stable/generated/torch.topk.html))

In [None]:
y_probs[0,-2].topk(5)

In [None]:
for tok in y_probs[0,-2].topk(5).indices:
    print(unmasker.tokenizer.decode(tok))

# El mecanismo de atenciÃ³n

$$ \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}}) V $$

VÃ­deo explicativo de BERT con visualizaciones muy buenas, tambiÃ©n explica el mecanismo de atenciÃ³n: https://www.youtube.com/watch?v=-9vVhYEXeyQ

In [None]:
len(y.attentions)

In [None]:
with explain():
    y.attentions[0]

In [None]:
# Dimensiones: (batch_size, num_heads, sequence_length, sequence_length)
y.attentions[0].shape

In [None]:
# Vamos a inspeccoinar la matriz de atenciÃ³n de la primera capa (el primer 0 indexa el lote, el segundo)
y.attentions[0][0,0]

In [None]:
def plot_attention(a, words):
    a = a.detach().numpy()
    fig, ax = plt.subplots(figsize=(6,6))
    im = plt.imshow(a)
    ax.set_xticks(np.arange(len(words)))
    ax.set_yticks(np.arange(len(words)))
    ax.set_xticklabels(words)
    ax.set_yticklabels(words)
    # Loop over data dimensions and create text annotations.
    for i in range(len(words)):
        for j in range(len(words)):
            text = ax.text(j, i, f'{a[i, j]:.2f}', ha="center", va="center", color="w", fontsize=12)
    fig.tight_layout()
    plt.show()

In [None]:
words = [ unmasker.tokenizer.decode(token) for token in tokens ]
words

## Â¿Podemos visualizar el contenido de las matrices de atenciÃ³n?
Las matrices de atenciÃ³n son el resultado de $\text{softmax}(\frac{QK^T}{\sqrt{d_k}})$, nos permiten ver en quÃ© se estÃ¡ fijando el transformer para construir cada elemento de la secuencia de salida a partir de los elementos de la secuencia de entrada.

In [None]:
# cabeza 0: parece que intenta completar el significado de las contracciones
# cabeza 5: sintaxis?
# cabeza 9: se fija en la palabra siguiente
# cabeza 10: ???
# cabeza 11: se fija en la palabra anterior
plot_attention(y.attentions[0][0,10], words)