In [None]:
# Transformers installation
! pip install transformers datasets evaluate accelerate
# To install from source instead of the last release, comment the command above and uncomment the following one.
# ! pip install git+https://github.com/huggingface/transformers.git

# Perplejidad de los modelos de longitud fija

La perplejidad, perplexity en ingl칠s (PPL), es una de las m칠tricas m치s comunes para evaluar modelos de lenguaje. Antes de sumergirnos, debemos tener en cuenta que esta m칠trica se aplica espec칤ficamente a modelos de lenguaje cl치sicos (a veces llamados modelos autorregresivos o causales) y no est치 bien definida para modelos de lenguaje enmascarados como BERT (ver [resumen del modelo](https://huggingface.co/docs/transformers/main/es/model_summary)).

La perplejidad se define como la media negativa exponenciada del log-likelihood de una secuencia. Si tenemos una secuencia tokenizada $X = (x_0, x_1, \dots, x_t)$, entonces la perplejidad de $X$ es,

$$\text{PPL}(X) = \exp \left\{ {-\frac{1}{t}\sum_i^t \log p_\theta (x_i|x_{<i}) } \right\}$$

donde $\log p_\theta (x_i|x_{<i})$ es el log-likelihood del token i-칠simo condicionado a los tokens precedentes $x_{<i}$ seg칰n nuestro modelo. De manera intuitiva, se puede pensar en esto como una evaluaci칩n de la capacidad del modelo para predecir de manera uniforme entre el conjunto de tokens especificados en un corpus. Es importante destacar que el procedimiento de tokenizaci칩n tiene un impacto directo en la perplejidad de un modelo, lo cual siempre debe tenerse en cuenta al comparar diferentes modelos.

Esto tambi칠n es equivalente a la exponenciaci칩n de la entrop칤a cruzada entre los datos y las predicciones del modelo. Para obtener m치s intuici칩n sobre la perplejidad y su relaci칩n con los Bits Por Car치cter (BPC) y la compresi칩n de datos, echa un vistazo a esta [fant치stica publicaci칩n en el blog de "The Gradient"](https://thegradient.pub/understanding-evaluation-metrics-for-language-models/).

## C치lculo de PPL con modelos de longitud fija

Si no estuvi칠ramos limitados por el tama침o del contexto de un modelo, evaluar칤amos la perplejidad (PPL) del modelo auto regresivamente factorizando una secuencia y condicion치ndonos en toda la subsecuencia precedente en cada paso, como se muestra a continuaci칩n.

<img width="600" alt="Full decomposition of a sequence with unlimited context length" src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/ppl_full.gif"/>

Sin embargo, al trabajar con modelos aproximados, generalmente tenemos una restricci칩n en la cantidad de tokens que el modelo puede procesar. La versi칩n m치s grande de [GPT-2](https://huggingface.co/docs/transformers/main/es/model_doc/gpt2), por ejemplo, tiene una longitud fija de 1024 tokens, por lo que no podemos calcular $p_\theta(x_t|x_{<t})$ directamente cuando $t$ es mayor que 1024.

En cambio, la secuencia se divide t칤picamente en subsecuencias iguales al tama침o m치ximo de entrada del modelo. Si el tama침o m치ximo de entrada, de un modelo es $k$, entonces aproximamos la probabilidad de un token $x_t$ condicion치ndonos solo en los $k-1$ tokens que lo preceden en lugar de todo el contexto. Al evaluar la perplejidad del modelo en una secuencia, un enfoque tentador pero sub 칩ptimo es dividir la secuencia en fragmentos independientes y sumar los log-likelihood descompuestos de cada segmento de manera independiente.

<img width="600" alt="Suboptimal PPL not taking advantage of full available context" src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/ppl_chunked.gif"/>

Esto es r치pido de calcular, ya que la perplejidad de cada segmento se puede calcular en un solo pase hacia adelante, pero sirve como una aproximaci칩n pobre de la perplejidad completamente factorizada y generalmente dar치 como resultado una PPL m치s alta (peor) porque el modelo tendr치 menos contexto en la mayor칤a de los pasos de predicci칩n.

En cambio, la PPL de modelos de longitud fija deber칤a evaluarse con una estrategia de ventana deslizante. Esto implica deslizar repetidamente la ventana de contexto para que el modelo tenga m치s contexto al hacer cada predicci칩n.

<img width="600" alt="Sliding window PPL taking advantage of all available context" src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/ppl_sliding.gif"/>

Esta es una aproximaci칩n m치s cercana a la verdadera descomposici칩n de la probabilidad de la secuencia y generalmente dar치 como resultado una puntuaci칩n m치s favorable. La desventaja es que requiere un pase hacia adelante separado para cada token en el corpus. Un buen compromiso pr치ctico es emplear una ventana deslizante estratificada, moviendo el contexto con pasos m치s grandes en lugar de deslizarse de 1 token a la vez. Esto permite que la computaci칩n avance mucho m치s r치pido, mientras le da al modelo un contexto amplio para hacer
predicciones en cada paso.

## Ejemplo: C치lculo de la perplejidad con GPT-2 en 游뱅 Transformers

Demostremos este proceso con GPT-2.

In [None]:
from transformers import GPT2LMHeadModel, GPT2TokenizerFast

device = "cuda"
model_id = "openai-community/gpt2-large"
model = GPT2LMHeadModel.from_pretrained(model_id).to(device)
tokenizer = GPT2TokenizerFast.from_pretrained(model_id)

Carguemos el conjunto de datos WikiText-2 y evaluemos la perplejidad utilizando algunas estrategias de ventana deslizante diferentes. Dado que este conjunto de datos es peque침o y solo estamos realizando un pase hacia adelante sobre el conjunto, podemos cargar y codificar todo el conjunto de datos en la memoria.

In [None]:
from datasets import load_dataset

test = load_dataset("wikitext", "wikitext-2-raw-v1", split="test")
encodings = tokenizer("\n\n".join(test["text"]), return_tensors="pt")

Con 游뱅 Transformers, simplemente podemos pasar los `input_ids` como las `labels` a nuestro modelo, y la media negativa del log-likelihood para cada token se devuelve como la p칠rdida. Sin embargo, con nuestro enfoque de ventana deslizante, hay superposici칩n en los tokens que pasamos al modelo en cada iteraci칩n. No queremos que el log-likelihood de los tokens que estamos tratando solo como contexto se incluya en nuestra p칠rdida, por lo que podemos establecer estos objetivos en `-100` para que se ignoren. El siguiente es un ejemplo de c칩mo podr칤amos hacer esto con un paso de `512`. Esto significa que el modelo tendr치 al menos `512` tokens como contexto al calcular el log-likelihood condicional de cualquier token (siempre que haya `512` tokens precedentes disponibles para condicionar).

In [None]:
import torch
from tqdm import tqdm

max_length = model.config.n_positions
stride = 512
seq_len = encodings.input_ids.size(1)

nlls = []
prev_end_loc = 0
for begin_loc in tqdm(range(0, seq_len, stride)):
    end_loc = min(begin_loc + max_length, seq_len)
    trg_len = end_loc - prev_end_loc  # puede ser diferente del paso en el 칰ltimo bucle
    input_ids = encodings.input_ids[:, begin_loc:end_loc].to(device)
    target_ids = input_ids.clone()
    target_ids[:, :-trg_len] = -100

    with torch.no_grad():
        outputs = model(input_ids, labels=target_ids)

        # la p칠rdida se calcula utilizando CrossEntropyLoss, que promedia las etiquetas v치lidas
        # N.B. el modelo solo calcula la p칠rdida sobre trg_len - 1 etiquetas, porque desplaza las etiqueta internamente
        # a la izquierda por 1.
        neg_log_likelihood = outputs.loss

    nlls.append(neg_log_likelihood)

    prev_end_loc = end_loc
    if end_loc == seq_len:
        break

ppl = torch.exp(torch.stack(nlls).mean())

Ejecuta esto con la longitud de paso igual a la longitud m치xima de entrada es equivalente a la estrategia sub 칩ptima,
sin ventana deslizante, que discutimos anteriormente. Cuanto menor sea el paso, m치s contexto tendr치 el modelo para
realizar cada predicci칩n y, por lo general, mejor ser치 la perplejidad informada.

Cuando ejecutamos lo anterior con `stride = 1024`, es decir, sin superposici칩n, la PPL resultante es `19.44`, que es
aproximadamente la misma que la `19.93` informada en el art칤culo de GPT-2. Al utilizar `stride = 512` y, por lo tanto,
emplear nuestra estrategia de ventana deslizante, esto disminuye a `16.45`. Esto no solo es una puntuaci칩n m치s favorable, sino que se calcula de una manera m치s cercana a la verdadera descomposici칩n autorregresiva de la probabilidad de una secuencia.