**MDS7203 Modelos Generativos Profundos, Primavera 2023**

# Laboratorio 2: Modelo de lenguaje auto-regresivo

**Profesor**: Felipe Tobar, **Auxiliares**: Crist√≥bal Alc√°zar, Camilo Carvajal Reyes, **Ayudante**: Joaqu√≠n Barcel√≥.

**Fecha de entrega**: viernes 29 de septiembre 2023

**Nombre: Sebasti√°n Sanhueza**

**Instrucciones**: El presente notebook contiene enunciado e instrucciones para la realizaci√≥n del laboratorio. Usted deber√° completar los c√≥digos (en este archivo o en una copia del mismo) donde se le pida hacerlo. Usted deber√° entregar el notebook con sus respuestas, cumpliendo lo siguiente:

- Los comentarios en c√≥digo deben ser concisos pero claros. No se evaluar√°n sub-preguntas donde solo exista c√≥digo sin comentarios pertinentes.
- El c√≥digo debe ser ordenado y ejectuable. No se evaluar√°n notebooks o scripts que generen errores en su ejecuci√≥n. Se aconseja resetear la kernel y corroborar la correcta execuci√≥n de todas las celdas antes de ejecutar el entrenamiento de su modelo.
- Si bien se aconseja el uso de internet y otras herramientas para asistir su trabajo, asi como discusiones con el ED y estudiantes, el c√≥digo que entregue debe ser de su autor√≠a.

El objetivo del laboratorio ser√° implementar, desde casi cero, un modelo de lenguaje estilo GPT, i.e., basado en el uso de un bloque "decoder" de la arquitectura Transformer (como se muestra en la imagen a continuaci√≥n). Este tipo de modelos es un ejemplo de modelo auto-regresivo y que ha tenido gran relevancia en el √∫ltimo tiempo.

In [1]:
from IPython.display import Image
Image(url='https://i.stack.imgur.com/bWnx0.png')

Algunos links √∫tiles:

* [Language Models are Unsupervised Multitask Learners](https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf)
* [GPT2, original blog post](https://openai.com/research/better-language-models)

### Resumen de preguntas

- [ ] a) (0,5 ptos.) Definici√≥n de diccionarios para vocabulario

- [ ] b) (bonus) Utilizaci√≥n de embeddings previo a la normalizaci√≥n

- [ ] c) (bonus) Escalamiento por $1/\sqrt{d_k}$.

- [ ] d) (1.5 ptos.) Creaci√≥n de clase `Head`.

- [ ] e) (0.75 pto.) Implementaci√≥n de clase `FeedForward`.

- [ ] f) (0.5 ptos.) Relaci√≥n entre hiper-par√°metros n_head y head_size.

- [ ] g) (0.75 ptos.) Forward pass en `DecoderBlock`.

- [ ] h) (1 pto.) Implementaci√≥n clase `GPTLM`.

- [ ] i) (1 pto.) Training loop.

- [ ] j) (bonus) Comparar modelo con Baseline.

In [2]:
import torch
import torch.nn as nn
from torch.nn import functional as F

Caracter√≠sticas de la GPU, si es que est√° disponible.

In [3]:
!nvidia-smi

Sat Sep 30 05:13:51 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17   Driver Version: 525.105.17   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   56C    P8     9W /  70W |      0MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

## 1. Corpus üìñ

Escoja uno de los dos datasets:
- shakespeare.txt: concatenaci√≥n de obras de shakespeare, ~ 1 millon de caracteres
- cabromagico.txt: concatenaci√≥n de los libros de Harry Potter, ~ 6 millones de caracteres

Escoja en base a sus gustos y capacidades de c√≥mputo.

In [4]:
# Si usan collab, descargar dataset desde repo GAMES descomentando una de las siguientes lineas:
# !wget https://raw.githubusercontent.com/GAMES-UChile/Curso-Modelos-Generativos-Profundos/main/labs/data/shakespeare.txt
!wget https://raw.githubusercontent.com/GAMES-UChile/Curso-Modelos-Generativos-Profundos/main/labs/data/cabromagico.txt

--2023-09-30 05:13:56--  https://raw.githubusercontent.com/GAMES-UChile/Curso-Modelos-Generativos-Profundos/main/labs/data/cabromagico.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 6425820 (6.1M) [text/plain]
Saving to: ‚Äòcabromagico.txt‚Äô


2023-09-30 05:13:57 (70.6 MB/s) - ‚Äòcabromagico.txt‚Äô saved [6425820/6425820]



In [5]:
# Selecciona el corpus a su gusto
#filename = 'shakespeare.txt'
filename = 'cabromagico.txt'

with open(filename, 'r', encoding='utf-8') as file:
    text = file.read()

print(f"Tama√±o del corpus ({filename}): {len(text):,} caracteres")

Tama√±o del corpus (cabromagico.txt): 6,340,988 caracteres


In [6]:
chars = sorted(list(set(text)))
vocab_size = len(chars)
print(''.join(chars))
print(vocab_size)

	
 !"$%&'()*,-./0123456789:;<=>?ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz|}~√©‚Äì‚Äî‚Äò‚Äô‚Äú‚Äù‚Ä¶„ÄÄ„Äê„Äë‰∏ã‰∏∫‰π¶‰ª∂‰Ωú‰Ω†ÂÅöÂÖ®Âà∂Âå∫ÂùõÂ≠êÂºèÂøóÊÇ®ÊñáÊñ∞ÊúÄÊú¨Êù•Ê†ºÁîµÁöÑÁ§æÁ´ãÁ±≥Á≥ØËá™Ë¶ÅËÆ∫ËΩΩ
137


> a) (0.5 ptos.) Dada una lista de ordenada de caracteres, defina:
> - stoi: un diccionario caracter -> √≠ndice
> - itos: un diccionario √≠ndice -> caracter
> Con lo anterior, defina dos funciones encode y decode que tomen un string y una lista de √≠ndices respectivamente y devuelvan una lista de √≠ndices y un string seg√∫n corresponda.

In [7]:
# --------------------------------------------

# Diccionario tipo caracter:√≠ndice
stoi = {char:index for index,char in enumerate(chars)}

# Diccionario tipo √≠ndice:caracter
itos = {index:char for index,char in enumerate(chars)}

# encoder: toma un string, devuelve una lista de √≠ndices
encode = lambda s: [stoi[element] for element in s]

# decoder: toma una lista de √≠ndices, devuelve un string
decode = lambda l: ''.join([itos[element] for element in l])

# --------------------------------------------

In [8]:
if filename == 'shakespeare.txt':
    assert encode('hola, que tal?') == [46, 53, 50, 39, 6, 1, 55, 59, 43, 1, 58, 39, 50, 12], 'Verifica que el output entregue una lista de enteros'
    assert decode(encode('hola, que tal?')) == 'hola, que tal?', 'Debe ser un string'
elif filename == 'cabromagico.txt':
    assert encode('hola, que tal?') == [73, 80, 77, 66, 14, 4, 82, 86, 70, 4, 85, 66, 77, 33], 'Verifica que el output entregue una lista de enteros'
    assert decode(encode('hola, que tal?')) == 'hola, que tal?', 'Debe ser un string'
else:
    print('Estas usando un filename distinto para construir el corpus!\nSi estas explorando otro corpus esta bien!\nRecuerda verificar que la funcionalidad esta correcta con shakespear o cabromagico.')

Nuestro modelo no entiende el lenguaje directamente, sino que los representa como n√∫meros. Pasamos el corpus completo a su representaci√≥n de enteros, usando el `stoi` (aka _string-to-index_).

In [9]:
data = torch.tensor(encode(text), dtype=torch.long)
data.shape

torch.Size([6340988])

In [10]:
N=100
print(f"Texto con los primeros {N} caracteres:\n----------------------------------------------\n")
print(text[:N])
print("\n----------------------------------------------\nSu representaci√≥n como tensor de PyTorch...\n")
print(data[:N])

Texto con los primeros 100 caracteres:
----------------------------------------------

Harry Potter and the Sorcerer's Stone
CHAPTER ONE
THE BOY WHO LIVED
Mr. and Mrs. Dursley, of number 

----------------------------------------------
Su representaci√≥n como tensor de PyTorch...

tensor([41, 66, 83, 83, 90,  4, 49, 80, 85, 85, 70, 83,  4, 66, 79, 69,  4, 85,
        73, 70,  4, 52, 80, 83, 68, 70, 83, 70, 83, 10, 84,  4, 52, 85, 80, 79,
        70,  1, 36, 41, 34, 49, 53, 38, 51,  4, 48, 47, 38,  1, 53, 41, 38,  4,
        35, 48, 58,  4, 56, 41, 48,  4, 45, 42, 55, 38, 37,  1, 46, 83, 16,  4,
        66, 79, 69,  4, 46, 83, 84, 16,  4, 37, 86, 83, 84, 77, 70, 90, 14,  4,
        80, 71,  4, 79, 86, 78, 67, 70, 83,  4])


## 2. Separar el dataset üî® y üéì

In [11]:
n = int(0.9 * len(data))  # 90%
train_data = data[:n]
val_data = data[n:]
print(f"--> Tama√±o del corpus de entrenamiento: {len(train_data):,} ({(train_data.shape[0] / data.shape[0]):.2f}) caracteres")
print(f"--> Tama√±o del corpus de validaci√≥n: {len(val_data):,} ({(val_data.shape[0] / data.shape[0]):.2f}) caracteres")

--> Tama√±o del corpus de entrenamiento: 5,706,889 (0.90) caracteres
--> Tama√±o del corpus de validaci√≥n: 634,099 (0.10) caracteres


Sobre la m√©canica de datos y etiquetas,

* Accedemos a los datos a partir de "fragmentos contextuales"; esto es un bloque de texto en representaci√≥n n√∫merica de tama√±o `block_size`
* El modelo es semi-supervisado, es decir, b√∫scamos entrenar un modelo de tal forma que dado ${x}_{i:j}$ _tokens_, vamos a predecir el siguiente _token_ $x_{j+1}$
* Las etiquetas emergen del mismo bloque contextual moviendo la ventana con un _offset_ de 1.

Por ejemplo, dado un bloque de tama√±o 8,


In [12]:
block_size = 13
print(f"Una bloque contextual (X, Y) ser√°:\n")
print(f"X: {[x.item() for x in data[:block_size]]}")
print(f"  --> decode(X): {decode([x.item() for x in data[:block_size]])}")
print('------------------------------------')
print(f"Y: {[x.item() for x in data[1:block_size+1]]}")
print(f"  --> decode(Y): {decode([y.item() for y in data[1:block_size+1]])}")

Una bloque contextual (X, Y) ser√°:

X: [41, 66, 83, 83, 90, 4, 49, 80, 85, 85, 70, 83, 4]
  --> decode(X): Harry Potter 
------------------------------------
Y: [66, 83, 83, 90, 4, 49, 80, 85, 85, 70, 83, 4, 66]
  --> decode(Y): arry Potter a


Sin embago, dentro de cada bloque contextual ocupamos la informaci√≥n de manera autoregresiva, generando m√∫ltiple observaciones a partir de este...

In [13]:
x = train_data[:block_size]
y = train_data[1:block_size+1]
for t in range(block_size):
    context = x[:t+1]
    target = y[t]
    print(f"Cuando el input es {context} el target es: {target}")

Cuando el input es tensor([41]) el target es: 66
Cuando el input es tensor([41, 66]) el target es: 83
Cuando el input es tensor([41, 66, 83]) el target es: 83
Cuando el input es tensor([41, 66, 83, 83]) el target es: 90
Cuando el input es tensor([41, 66, 83, 83, 90]) el target es: 4
Cuando el input es tensor([41, 66, 83, 83, 90,  4]) el target es: 49
Cuando el input es tensor([41, 66, 83, 83, 90,  4, 49]) el target es: 80
Cuando el input es tensor([41, 66, 83, 83, 90,  4, 49, 80]) el target es: 85
Cuando el input es tensor([41, 66, 83, 83, 90,  4, 49, 80, 85]) el target es: 85
Cuando el input es tensor([41, 66, 83, 83, 90,  4, 49, 80, 85, 85]) el target es: 70
Cuando el input es tensor([41, 66, 83, 83, 90,  4, 49, 80, 85, 85, 70]) el target es: 83
Cuando el input es tensor([41, 66, 83, 83, 90,  4, 49, 80, 85, 85, 70, 83]) el target es: 4
Cuando el input es tensor([41, 66, 83, 83, 90,  4, 49, 80, 85, 85, 70, 83,  4]) el target es: 66


Por lo tanto, cada bloque contextual, genera un n√∫mero de observaciones igual a su tama√±o.

En t√©rminos de _batches_, podemos procesar en paralelo, m√∫ltiples bloques contextuales. Lo importante es que cada bloque contextual es independiente, y no hay computo que ocurra a nivel transversal, sino paralelo entre estos. No se mezclan las secuencias autoregresivas de cada contexto.

In [14]:
# colocar seed como su RUT
torch.manual_seed(206684402)
batch_size = 4
block_size = 8  # largo de ventana m√°ximo para considerar en la precisi√≥n
# Estos par√°metros se re-definir√°n para el entrenamiento final

def get_batch(split):
    # generate a small batch of data of inputs x and targets y
    data = train_data if split == 'train' else val_data
    ix = torch.randint(len(data) - block_size, (batch_size,))
    x = torch.stack([data[i:i+block_size] for i in ix])
    y = torch.stack([data[i+1:i+block_size+1] for i in ix])
    return x, y

xb, yb = get_batch('train')
print('inputs:')
print(xb.shape)
print(xb)
print('targets:')
print(yb.shape)
print(yb)

print('----')

for b in range(batch_size): # batch dimension
    for t in range(block_size): # time dimension
        context = xb[b, :t+1]
        target = yb[b,t]
        print(f"Cuando el input es {context.tolist()} el target: {target}")

inputs:
torch.Size([4, 8])
tensor([[  6,   4,   1,   6,  47,  80,  14,   6],
        [  4,  85,  80,  80,  33,   6,   1, 103],
        [ 71,   4,  71,  80,  86,  83,   4,  73],
        [ 73,  66,  85,  33,   6,   1,   6,  34]])
targets:
torch.Size([4, 8])
tensor([[  4,   1,   6,  47,  80,  14,   6,   4],
        [ 85,  80,  80,  33,   6,   1, 103, 103],
        [  4,  71,  80,  86,  83,   4,  73,  80],
        [ 66,  85,  33,   6,   1,   6,  34,   4]])
----
Cuando el input es [6] el target: 4
Cuando el input es [6, 4] el target: 1
Cuando el input es [6, 4, 1] el target: 6
Cuando el input es [6, 4, 1, 6] el target: 47
Cuando el input es [6, 4, 1, 6, 47] el target: 80
Cuando el input es [6, 4, 1, 6, 47, 80] el target: 14
Cuando el input es [6, 4, 1, 6, 47, 80, 14] el target: 6
Cuando el input es [6, 4, 1, 6, 47, 80, 14, 6] el target: 4
Cuando el input es [4] el target: 85
Cuando el input es [4, 85] el target: 80
Cuando el input es [4, 85, 80] el target: 80
Cuando el input es [4, 85, 80, 

Lo que recibir√° la red como _input_ ser√°:

In [15]:
xb

tensor([[  6,   4,   1,   6,  47,  80,  14,   6],
        [  4,  85,  80,  80,  33,   6,   1, 103],
        [ 71,   4,  71,  80,  86,  83,   4,  73],
        [ 73,  66,  85,  33,   6,   1,   6,  34]])

## 3. Baseline

Creamos un modelo base cl√°sico, para luego compararlo con nuestro Transformer.

In [16]:
torch.manual_seed(1337)

class BigramLanguageModel(nn.Module):

    def __init__(self, vocab_size):
        super().__init__()
        # cada token lee sucesivamente los logits para el token siguiente de una lookup table
        self.token_embedding_table = nn.Embedding(vocab_size, vocab_size)

    def forward(self, idx, targets=None):

        # idx y targets son ambos tensores de tama√±o (B,T) con elementos enteros
        logits = self.token_embedding_table(idx) # (B,T,C)

        if targets is None:
            loss = None
        else:
            B, T, C = logits.shape
            logits = logits.view(B*T, C)
            targets = targets.view(B*T)
            loss = F.cross_entropy(logits, targets)

        return logits, loss

    def generate(self, idx, max_new_tokens):
        # idx es un arreglo (B, T) de indices del contexto actual
        for _ in range(max_new_tokens):
            # obtener predicciones
            logits, loss = self(idx)
            # concentrarse en el √∫ltimo paso
            logits = logits[:, -1, :]  # se convierte en (B, C)
            # aplicamos softmax para obtener probabilidades
            probs = F.softmax(logits, dim=-1)  # (B, C)
            # samplear de la distribuci√≥n
            idx_next = torch.multinomial(probs, num_samples=1) # (B, 1)
            # agregar el √≠ndice de la muestra a la secuencia actual
            idx = torch.cat((idx, idx_next), dim=1) # (B, T+1)
        return idx

m = BigramLanguageModel(vocab_size)
logits, loss = m(xb, yb)
print(logits.shape)
print(loss)

print(decode(m.generate(idx = torch.zeros((1, 1), dtype=torch.long), max_new_tokens=100)[0].tolist()))


torch.Size([32, 137])
tensor(5.6164, grad_fn=<NllLossBackward0>)
	ÂÖ®„Äê'‰∏ãd‚ÄòÁ´ã‚ÄùÂå∫Mt‰∏∫=iag:,Êù•IqÁöÑ?Uh1‰Ω†ÁöÑxB'D<>„ÄëCPjKÊñá1ZCU‰Ω†YeÂÖ®‰∏∫\Á≥Ø'i(^l*
JhËÆ∫Á§æ2ÊÇ®ÂÅöx'}&?[^B‰π¶Z!95:[T2`ÊÇ®ntÁ§æd4Ê†ºe‰∏ã‚Äù~4HVr3?


## 4. Self-attention

En la secci√≥n anterior, vimos que cada _token_ toma una representaci√≥n vectorial llamada _embeddings_.

Nuestro corpus contiene $65$ caracteres √∫nicos con un _embedding_ asociado a cada _token_. La idea de representar el lenguaje en t√©rminos de tokens, y estos a su vez en vectores, es que podemos aprender estas representaciones vectoriales a partir de los datos. Sin embargo, la representaci√≥n es √∫nica, y muchas veces un mismo _token_ puede tener distintos significados seg√∫n su contexto. Por ejemplo:
1. "Te banco a morir!"
2. "El banco est√° abierto hasta las dos."

En ambas oraciones anteriores, el token `banco` tiene un significado distinto. Se espera entonces que la representaci√≥n de ese token sea distinta en ambos casos y eso lo logramos con la influencia de los tokens presentes en el mismo contexto.

La idea principal de _self-attention_ es utilizar la secuencia de _embeddings_ dentro de un contexto para computar un promedio ponderado a partir de estos. Dado una secuencia de _embeddings_ de _tokens_ $x_1, \dots, x_n$, el mecanismo de _self-attention_ (o auto-atenci√≥n) produce una nueva secuencia de _embeddings_ $x'_1, \dots, x'_n$, donde cada $x'_i$ es una combinaci√≥n lineal de todos los $x_j$:

$$
x'_i = \sum_{j=1}^{n} \alpha_{ij} x_{j}
$$

Los coeficientes $\alpha_{ij}$ se llaman ponderadores de atenci√≥n y est√°n normalizados tal que $\sum_{j}\alpha_{ji}=1$.

En t√©rminos sencillos, construiremos un mecanismo de comunicaci√≥n entre distintos tokens dentro del bloque de contexto, que se representar√° por una colecci√≥n de ponderadores en una matriz. Esta colecci√≥n de ponderadores la llamaremos matriz de atenci√≥n (o self-attention) y nos permitir√° v√≠a la operaci√≥n de multiplicaci√≥n de matrices, agregar distintos valores dentro de un bloque contextual en una sola cantidad. Spoiler, estos pesos ser√°n data-dependientes.

Comencemos emulando la operaci√≥n con pesos fijos, usaremos la parte triangular inferior de una matriz identidad de 3x3, la cual normalizaremos a nivel de fila.

In [17]:
# Ejemplo de juguete que ilustra como la multiplicaci√≥n matricial puede ser usada para una adici√≥n con pesos
torch.manual_seed(42)

a = torch.tril(torch.ones(3, 3))
a = a / torch.sum(a, 1, keepdim=True)
b = torch.randint(0,10,(3,2)).float()
c = a @ b

print('a=',a,'\n')
print('b=',b,'\n')
print('c=',c)

a= tensor([[1.0000, 0.0000, 0.0000],
        [0.5000, 0.5000, 0.0000],
        [0.3333, 0.3333, 0.3333]]) 

b= tensor([[2., 7.],
        [6., 4.],
        [6., 5.]]) 

c= tensor([[2.0000, 7.0000],
        [4.0000, 5.5000],
        [4.6667, 5.3333]])


Notemos que $c$ tiene en cada fila los resultados de los valores acumulados de $b$ seg√∫n los ponderadores de $a$.

El tensor $a$ se interpreta como una matriz de token-a-token y representa la interaci√≥n/influencia del token en la posici√≥n $i$ con el token de la posici√≥n $j$. Dado que nuestro modelo es autoregresivo, los tokens del presente solo pueden ser influenciados por tokens pasados, o ellos mismos. Por eso las posiciones de $a$ que cumplen esta restricci√≥n $i \leq j$, son elementos que conforman la matriz triangular inferior de $a$. El resto de las posiciones no tiene influencia sobre los tokens pasados (i.e. 0).


Vamos a crear un _batch_ con datos s√≠ntetico de tama√±o `B`, donde cada bloque contextual ser√° de largo $T$, y cada _token_ que compone el contexto se representa por $C$ dimensiones (i.e. tama√±o del _embedding_).

In [18]:
torch.manual_seed(1337)

B,T,C = 4,8,2 # batch, time, channels
x = torch.randn(B,T,C)
x.shape

torch.Size([4, 8, 2])

In [19]:
xbow = torch.zeros((B,T,C))
for b in range(B):
    for t in range(T):
        xprev = x[b,:t+1] # (t,C)
        xbow[b,t] = torch.mean(xprev, 0)

In [20]:
# Versi√≥n usando softmax
tril = torch.tril(torch.ones(T, T))
wei = torch.zeros((T,T))
wei = wei.masked_fill(tril == 0, float('-inf'))
wei = F.softmax(wei, dim=-1)
xbow3 = wei @ x
torch.allclose(xbow, xbow3)


True

In [21]:
wei

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5000, 0.5000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3333, 0.3333, 0.3333, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2500, 0.2500, 0.2500, 0.2500, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2000, 0.2000, 0.2000, 0.2000, 0.2000, 0.0000, 0.0000, 0.0000],
        [0.1667, 0.1667, 0.1667, 0.1667, 0.1667, 0.1667, 0.0000, 0.0000],
        [0.1429, 0.1429, 0.1429, 0.1429, 0.1429, 0.1429, 0.1429, 0.0000],
        [0.1250, 0.1250, 0.1250, 0.1250, 0.1250, 0.1250, 0.1250, 0.1250]])

Los ponderadores anteriores son uniformes, ahora introducimos los conceptos de _queries_ y _keys_ para ver como computar los ponderadores a partir de los datos.

* Un _query_ $q(\cdot)$ corresponde a una proyecci√≥n lineal de la representaci√≥n de _embeddings_ de un token particular. Por ejemplo, se proyecto $\mathbb{R}^{C}\rightarrow \mathbb{R}^{H}$.
* Los _keys_ es la matriz $K\in\mathbb{R}^{T\times H}$ que contiene proyecciones lineales de todos los _embeddings_ de tokens dentro del contexto, inclu√≠do el token que es el query. La proyecci√≥n lineal de los _keys_ es de igual tama√±o (i.e. $H$) que la proyecci√≥n del _query_.
* Los ponderadores para cada _query_ se obtiene a partir de qu√© tan pr√≥ximo se relaciona un token respecto al resto de los token dentro de un contexto. Por ejemplo, $q(x_i) \times K$

In [22]:
Image(url="https://sebastianraschka.com/images/blog/2023/self-attention-from-scratch/context-vector.png")

> b) (Bonus): Explique porqu√© no se utilizan directamente los _embeddings_ para computar la matriz de atenci√≥n previo a la normalizaci√≥n, i.e. `X @ X.transpose(-2,-1)`, en vez de usar las proyecciones $QK^\top$. $X$ es un tensor con dimensiones batch size (B), ventana de contexto (T), dimensiones de embedding (C).

Esto es debido a que las proyecciones permiten que el modelo aprenda representaciones m√°s significativas de los tokens de entrada y permite ajustarse a cualquier tarea, ya que se adaptan a trav√©s del entrenamiento. Esto es muy importante en tareas de procesamiento de lenguaje natural, ya que el aprender representaciones de buena manera puede tener un impacto significativo en el rendimiento del modelo, adem√°s el permitir que el modelo pueda ajustarse a cualquier tarea permite que con, por ejemplo, tareas de traducci√≥n de texto, el modelo pueda aprender a enfocarse m√°s en ciertas partes de la secuencia de entrada utilizando la informaci√≥n contextual.

Por otro lado, si se utiliza directamente los _embeddings_ se perder√°n las ventajas ofrecidas por el uso de las proyecciones, en particular no permitir√≠a que el modelo aprendiera representaciones m√°s espec√≠ficas de los datos de entrada para la atenci√≥n.

> c) (Bonus): Explique los argumentos detras de escalar por $1/\sqrt{d_k}$ referidos en el paper _[Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)_ (Vaswani 2017).

La aplicaci√≥n del escalado por $1/\sqrt{d_k}$ asegura que los vectores de peso mantengan una longitud euclidiana de magnitud similar. Esto ayuda a evitar que los pesos de atenci√≥n se vuelvan excesivamente peque√±os o grandes, lo cual puede provocar problemas de inestabilidad num√©rica o afectar a la capacidad del modelo para converger durante el entrenamiento.

In [22]:
# colocar seed como su RUT
torch.manual_seed(206684402)

B,T,C = 4,8,32  # batch, time, channels
x = torch.randn(B,T,C)

Ejemplo de aplicaci√≥n de m√≥dulo de atenci√≥n

In [23]:
head_size = 16
key = nn.Linear(C, head_size, bias=False)
query = nn.Linear(C, head_size, bias=False)
value = nn.Linear(C, head_size, bias=False)
k = key(x)  # (B, T, 16)
q = query(x)  # (B, T, 16)
wei =  q @ k.transpose(-2, -1)  # (B, T, 16) @ (B, 16, T) ---> (B, T, T)

tril = torch.tril(torch.ones(T, T))
wei = wei.masked_fill(tril == 0, float('-inf'))
wei = F.softmax(wei, dim=-1)

v = value(x)
out = wei @ v

out.shape

torch.Size([4, 8, 16])

Observaciones:
- Atenci√≥n es un **mecanismo de comunicaci√≥n**. Puede ser entendido como nodos en un grafo dirigido conect√°ndose unos con otros y agregando informaci√≥n con una suma ponderada de todos los nodos que apuntan a ellos, con pesos dependientes de los datos.
- No hay una noci√≥n de espacio. Atenci√≥n simplemente actua sobre el conjunto de vectores. Es por este motivo que se necesitan encoders posicionales.
- Cada punto dentro de un batch es, desde luego, procesado de manera independiente y nunca intractua con los otros.
- En un bloque de atenci√≥n "encoder" basta comentar la linea que hace masking con `tril`, que hace que los tokens se comuniquen todos con todos. El bloque anterior se llama "decoder" porque aplica un masking triangular y se encuentre frecuentemente en configuraciones autoregresivas.
- "auto-atenci√≥n" (_self-attention_) s√≥lo signfica que tanto _keys_ como _values_ son producidas desde la misma fuente que las _queries_. En "atenci√≥n-cruzada" (_cross-attention_), las _queries_ vienen de $x$, pero _keys_ y _values_ vienen de otra fuente externa (como puede ser un modulo encoder).
- Atenci√≥n "escalada" divide `wei` por $\frac{1}{\sqrt{head\_size}}$. Esto hace que cuando los input $Q$ y $K$ tengan varianza unitaria, `wei` tambi√©n tendr√° varianza unitaria y evitar√° la saturaci√≥n de la Softmax.

> d) (1.5 ptos.) Cree una clase `Head` que implemente un m√≥dulo de auto-atenci√≥n.

In [24]:
n_embd = 64  # dimensionalidad del input
dropout = 0.0

class Head(nn.Module):
    """ Una cabeza de auto-atenci√≥n """

    def __init__(self, head_size):
        super().__init__()
        # ------------------------

        self.head_size = head_size # Variable que define el tama√±o de la cabeza de atenci√≥n

        # Inicializaci√≥n las matrices de key, query y value respectivamente, mediante el uso de capas lineales
        self.key = nn.Linear(n_embd, head_size, bias=False)
        self.query = nn.Linear(n_embd, head_size, bias=False)
        self.value = nn.Linear(n_embd, head_size, bias=False)

        # ------------------------
        # HINT: cuando aplique tril, ocupe self.tril se define automaticamente
        # al instanciar
        self.register_buffer('tril', torch.tril(torch.ones(block_size, block_size)))

        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        # input size (batch, time-step, channels)
        # output size (batch, time-step, channels)
        B,T,C = x.shape
        # -----------------------------------------

        # Aplicaci√≥n de las matrices de pesos sobre la secuencia de entrada,
        # se generan las secuencias de key, query y values respectivamente
        k = self.key(x)  # (B,T,C)
        q = self.query(x)  # (B,T,C)
        v = self.value(x)  # (B,T,C)

        # Computar los score de atenci√≥n ("affinities")

        # Se calculan los productos punto entre querys y keys
        wei = (q @ k.transpose(-2, -1))/(self.head_size**0.5)  # (B, T, C) @ (B, C, T) -> (B, T, T)

        # Se aplica la m√°scara triangular inferior
        wei = wei.masked_fill_(self.tril == 0, float('-inf'))   # (B, T, T)

        # Se aplica la funci√≥n Softmax para obtener las probabilidades o pesos de atenci√≥n
        wei = F.softmax(wei, dim=-1)  # (B, T, T)

        # Se aplica el m√©todo de Dropout
        wei = self.dropout(wei)

        # Adici√≥n (con pesos) de las atenciones
        # Se realiza el producto entre los pesos de atenci√≥n y la secuencia de value
        out = wei @ v  # (B, T, T) @ (B, T, C) -> (B, T, C)

        # --------------------------------------

        return out

La arquitectura decoder del paper Transformer implementa varias versiones de _self-attention_ en paralelo, cada una es una "c√°beza de atenci√≥n", y estas concatenan sus resultados en un modulo conocido como `MultiHeadAttention`.

In [25]:
class MultiHeadAttention(nn.Module):
    """ M√∫ltiples cabezas de auto-atenci√≥n en paralelo """

    def __init__(self, num_heads, head_size):
        super().__init__()
        self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)])
        self.proj = nn.Linear(head_size * num_heads, n_embd)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        out = torch.cat([h(x) for h in self.heads], dim=-1)
        out = self.dropout(self.proj(out))
        return out

> e) (0.75 pto.) Implemente una clase `FeedForward` como se describe en el art√≠culo ["Attention is all you need, Vaswani et al."](https://arxiv.org/pdf/1706.03762.pdf).

In [26]:
class FeedFoward(nn.Module):
    """
        Implementar FeedForward descrita en secci√≥n:
         "3.3 Position-wise Feed-Fordward Networks", paper
         "Attention is All You Need"
        https://arxiv.org/pdf/1706.03762.pdf

        in: n_embd
        out: n_embd
    """

    def __init__(self, n_embd):
        super().__init__()
        self.net = nn.Sequential(
            # -------------------

            # La red de Feed-Forward consiste en dos transformaciones lineales
            # con una funci√≥n de activaci√≥n ReLU en medio de las dos.

            # La primera transforamci√≥n lineal aumenta el tama√±o del input en 4
            nn.Linear(n_embd, 4 * n_embd),
            nn.ReLU(),
            # La segunda transformaci√≥n lineal vuelve a la dimensionalidad original
            nn.Linear(4 * n_embd, n_embd)

            # ------------------
        )

    def forward(self, x):
        return self.net(x)


In [28]:
Image(url="http://jalammar.github.io/images/gpt2/gpt2-transformer-block-vectors-2.png")

> f) (0.5 ptos.) Explique la relaci√≥n entre los hiperpar√°metros `n_head` y `head_size` de la clase `MultiHeadAttention`. Piense en su rol dentro del bloque decoder (i.e. atenci√≥n + feedforward).

Respuesta: Al analizar la clase `MultiHeadAttention` se puede observar que la entrada se divide en `n_head`cabezas de atenci√≥n independientes, donde cada una de ellas tiene su propio conjunto de proyecciones(Q, K y V) que se aplican a la entrada original. La dimensionalidad de las proyecciones Q, K y V en cada cabeza de atenci√≥n es controlada por el hiperpar√°metro `head_size`. Por lo tanto, cada cabeza de atenci√≥n tiene una dimensi√≥n `head_size` para sus proyecciones.

Adem√°s, dentro de cada cabeza de atenci√≥n, se realiza la atenci√≥n entre las proyecciones Q, K y V y se obtienen las salidas ponderadas. Luego, las salidas de todas las cabezas de atenci√≥n se concatenan para formar una representaci√≥n combinada que tiene una dimensi√≥n total de n_head * head_size.

Por otra parte, en la capa de feedforward, la entrada es el resultado que proviene de la atenci√≥n multi-cabeza, al cual la capa de feedforward aplica transformaciones lineales y transformaciones no lineales como funciones de activaci√≥n(ReLU) para obtener las representaciones finales antes de la salida.

Ahora procederemos a armar la clase que implemente un bloque de Decoder. N√≥tese que en realidad estamos codificando texto con este bloque, pero esto corresponde a la parte "Decoder" del Transformer original, por ende guardamos esa nomenclatura. La motivaci√≥n del uso del decoder es modelar el texto de maner auto-regresiva, que es ideal para la generaci√≥n de texto.

In [29]:
Image(url='https://i.stack.imgur.com/bWnx0.png')

> g) (0.75 ptos.) Complete el paso _forward_ de la clase `DecoderBlock`. Recuerde en particula incorporar las conexiones residuales (_skip connections_).

In [27]:
class DecoderBlock(nn.Module):
    """  BloqueTransformer: COMUNICACI√ìN seguida de C√ìMPUTO """

    def __init__(self, n_embd, n_head):
        # n_embd: dimensi√≥n de embeddings, n_head: n√∫mero de cabezas de atenci√≥n
        super().__init__()
        head_size = n_embd // n_head
        self.sa = MultiHeadAttention(n_head, head_size)
        self.ffwd = FeedFoward(n_embd)
        self.ln1 = nn.LayerNorm(n_embd)
        self.ln2 = nn.LayerNorm(n_embd)

    def forward(self, x):
        # Hint: aplique las capas de normalizaci√≥n siempre antes de otra capa (Pre-LN varaint)
        # Ver: https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure
        # ---------------------

        # Aplicaci√≥n de primera capa de normalizaci√≥n antes de la atenci√≥n
        ln1_output = self.ln1(x)

        # Aplicaci√≥n de capa de atenci√≥n multi-cabeza
        sa_output = self.sa(ln1_output)

        # Conexi√≥n residual con la entrada original
        x = x + sa_output

        # Aplicaci√≥n de segunda capa de normalizaci√≥n antes de la atenci√≥n
        ln2_output = self.ln2(x)

        # Aplicaci√≥n de capa de FeedForward
        ffwd_output = self.ffwd(ln2_output)

        # Conexi√≥n residual con la salida de la capa de FeedForward
        x = x + ffwd_output

        # ----------------------

        return x

## 5. Modelo GPT: Juntando todo

> h) (1 pto.) Complete el c√≥digo de la clase `GPTLanguageModel`procesando adecuadamente el input del modelo. Complete adem√°s el m√©todo `generate` para samplear elementos que completen auto-regresivamente una secuencia.

In [28]:
class GPTLanguageModel(nn.Module):

    def __init__(self):
        super().__init__()
        # cada token lee directamente los logits para el token siguiente de una lookup table
        self.token_embedding_table = nn.Embedding(vocab_size, n_embd)
        self.position_embedding_table = nn.Embedding(block_size, n_embd)
        self.blocks = nn.Sequential(*[DecoderBlock(n_embd, n_head=n_head) for _ in range(n_layer)])
        self.ln_f = nn.LayerNorm(n_embd) # final layer norm
        self.lm_head = nn.Linear(n_embd, vocab_size)

        self.apply(self._init_weights)

    def _init_weights(self, module):
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            if module.bias is not None:
                torch.nn.init.zeros_(module.bias)
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)

    def forward(self, idx, targets=None):
        B, T = idx.shape

        # idx y targets son ambos tensores (B,T) de enteros
        tok_emb = self.token_embedding_table(idx) # (B,T,C)
        pos_emb = self.position_embedding_table(torch.arange(T, device=device)) # (T,C)

        # -----------------------------

        # Combinaci√≥n de los embeddings de token y posici√≥n
        x = tok_emb + pos_emb # (B,T,C)

        # Procesamiento de x a trav√©s de los bloques
        x = self.blocks(x)

        # Aplicamos la √∫ltima capa de normalizaci√≥n
        x = self.ln_f(x)

        # Calculo de logits
        logits = self.lm_head(x) # (B,T,vocab_size)

        # -------------------------------

        if targets is None:
            loss = None
        else:
            B, T, C = logits.shape
            logits = logits.view(B*T, C)
            targets = targets.view(B*T)
            loss = F.cross_entropy(logits, targets)

        return logits, loss

    def generate(self, idx, max_new_tokens):
        # idx es un arreglo (B, T) de √≠ndices en el contexto actual
        for _ in range(max_new_tokens):
            # restringir idx a los √∫ltimos block_size tokens
            idx_cond = idx[:, -block_size:]
            # obtener las predicciones
            logits, loss = self(idx_cond)
            # enfocarse s√≥lo en el √∫ltimo paso
            logits = logits[:, -1, :]  # se convierte en size (B, C)
            # ------------------------------------------------------------

            # Aplicaci√≥n de funci√≥n Softmax para obtener las probabilidades
            probs = F.softmax(logits, dim=-1)  # tensor de dimensionalidad (B, C)

            # Sampleo de la dsitribuci√≥n multinomial usando las probabilidades
            idx_next = torch.multinomial(probs, num_samples=1)  # tensor de √≠ndices de dim (B, 1)

            # Actualizaci√≥n del √≠ndice a la secuencia actual
            idx = torch.cat([idx, idx_next], dim=1)  # tensor resultante de dimensionalidad (B, T+1)

            # ------------------------------------------------------------

        return idx


In [29]:
# Definimos hiperpar√°metros (global variables, esto se puede hacer mucho mejor)

batch_size = 64 # cuantos secuencias de fragmentos del corpus procesaremos de manera independiente (aka B)?
block_size = 256 # cu√°l ser√° el tama√±o del bloque de contexto a considerar para predecir (aka T)?
max_iters = 8000
eval_interval = 500
learning_rate = 3e-4  # modelo de tama√±o peque√±o probar esta lr por defecto
device = 'cuda' if torch.cuda.is_available() else 'cpu'
eval_iters = 200
n_embd = 384  # se debe considerar en conjunto con n_head, seg√∫n an√°lisis en (f)
n_head = 6    # se debe considerar en conjunto con n_embd, seg√∫n an√°lisis en (f)
n_layer = 6
dropout = 0.2


model = GPTLanguageModel()
model.to(device)

# printear el n√∫mero de par√°metros del modelo
print('N√∫mero de par√°metros del modelo:', sum(p.numel() for p in model.parameters())/1e6, 'millones')

# definir el optimizador de PyTorch
optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate)

N√∫mero de par√°metros del modelo: 10.844297 millones


Definiremos una funci√≥n para generar batches de secuencias a partir de nuestro corpus de entrenamiento o validaci√≥n. Adem√°s de una funci√≥n para obtener estimaciones de la funci√≥n de costo.

In [30]:
# definimos un "DataLoader"
def get_batch(split):
    # generate a small batch of data of inputs x and targets y
    data = train_data if split == 'train' else val_data
    ix = torch.randint(len(data) - block_size, (batch_size,))
    x = torch.stack([data[i:i+block_size] for i in ix])
    y = torch.stack([data[i+1:i+block_size+1] for i in ix])
    x, y = x.to(device), y.to(device)
    return x, y


# definimos una funci√≥n para obtener estimados de nuestras
# p√©rdidas tanto en los conjuntos de train como en val
@torch.no_grad()
def estimate_loss():
    out = {}
    model.eval()
    for split in ['train', 'val']:
        losses = torch.zeros(eval_iters)
        for k in range(eval_iters):
            X, Y = get_batch(split)
            logits, loss = model(X, Y)
            losses[k] = loss.item()
        out[split] = losses.mean()
    model.train()
    return out

Primer sanity check, obtener batches con dimensiones correctas:

In [31]:
# Verifiquemos que las dimensiones sean correctas
xb, yb = get_batch('train')
xb.shape, yb.shape

(torch.Size([64, 256]), torch.Size([64, 256]))

Segundo sanity check, verificar que la data fluya correctamente por el modelo,

In [32]:
# Verifiquemos que el forwardpass del modelo no tenga problemas
model(xb)[0].shape

torch.Size([64, 256, 137])

> i) (1 pto.) Complete el bucle de entrenamiento usando comandos de `pytorch.optimize` conocidos. Ejecute el entrenamiento (se recomienda dejarlo corriendo e ir hacer algo m√°s...). Corrobore que se modelo es capaz de generar texto.

In [33]:
# colocar RUT como semilla
torch.manual_seed(206684402)

# comenzamos el training loop...
for iter in range(max_iters):

    # de vez en cuando evaluar la loss en los conjuntos de train y evaluaci√≥n
    if iter % eval_interval == 0 or iter == max_iters - 1:
        losses = estimate_loss()
        context = torch.zeros((1, 256), dtype=torch.long, device=device)
        print(f"step {iter}: train loss {losses['train']:.4f}, val loss {losses['val']:.4f}")
        print("Testing text generation:")
        print(decode(model.generate(context, max_new_tokens=100)[0].tolist()))

    # samplear un batch de datos
    xb, yb = get_batch('train')

    # evaluate the loss
    logits, loss = model(xb, yb)

    # ----------------------------------------

    # Activaci√≥n del optimizador
    # Limpieza de los gradientes acumulados
    optimizer.zero_grad()

    # Calcula los gradientes aplicando el paso backward con el resultado de la funci√≥n loss
    loss.backward()

    # Actualizaci√≥n de los par√°metros del modelo
    optimizer.step()

    # ----------------------------------------

# Se especifica la ruta y el nombre del archivo donde se quiere guardar el modelo

path = '/content/modelo_gpt.pth'

# Se guarda el modelo completo y entrenado, tanto la arquitectura como los par√°metros

torch.save(model, path)

step 0: train loss 4.9346, val loss 4.9391
Testing text generation:
																																																																																																																																																																																																																																																																ËÆ∫MtUqsq,Â≠êÂà∂7ÊúÄ^:9ÁöÑ\}Á±≥F'hEÂÖ®Á±≥Q‰ª∂ÊúÄËÆ∫]‚Äù1^Á§æGx><ËÆ∫‰∏∫,!5T`v1QÁ±≥hj-Ëá™UC\'ÂÅöY>|ÂùõÊ†º\	Ëá™‚ÄôkËÆ∫R„ÄëW;&3Nd.„ÄëËá™d‚Äô‚Äò3ÂºèÊú¨j<„ÄêÂÅöYÂøóUCCo-Â≠êl
step 500: train loss 1.5831, val loss 1.6544
Testing text generation:
																																																																																																																																																																																																																																																																UVeard.ILriykewitgle twenstaille tekor in upneesched as agre Of Pernofess
Ruckus at Harry,tilone"ll 
step 1000: train loss 1.2686, val loss 1.3673
Testing text generation:
									

## 6. Generando secuencias de texto con el modelo

In [34]:
# Se especifica la ruta y el nombre del archivo con el modelo que se quiere cargar

path = '/content/modelo_gpt.pth' # Se debe tener el archivo en el directorio indicado, si es distinta la direcci√≥n se debe editar

# Se carga el modelo completo

model = torch.load(path)

# Se establece el modo evaluaci√≥n

model.eval()

GPTLanguageModel(
  (token_embedding_table): Embedding(137, 384)
  (position_embedding_table): Embedding(256, 384)
  (blocks): Sequential(
    (0): DecoderBlock(
      (sa): MultiHeadAttention(
        (heads): ModuleList(
          (0-5): 6 x Head(
            (key): Linear(in_features=384, out_features=64, bias=False)
            (query): Linear(in_features=384, out_features=64, bias=False)
            (value): Linear(in_features=384, out_features=64, bias=False)
            (dropout): Dropout(p=0.2, inplace=False)
          )
        )
        (proj): Linear(in_features=384, out_features=384, bias=True)
        (dropout): Dropout(p=0.2, inplace=False)
      )
      (ffwd): FeedFoward(
        (net): Sequential(
          (0): Linear(in_features=384, out_features=1536, bias=True)
          (1): ReLU()
          (2): Linear(in_features=1536, out_features=384, bias=True)
        )
      )
      (ln1): LayerNorm((384,), eps=1e-05, elementwise_affine=True)
      (ln2): LayerNorm((384,), 

In [36]:
# Generar usando el modelo
context = torch.zeros((1, 256), dtype=torch.long, device=device)
print(decode(model.generate(context, max_new_tokens=500)[0].tolist()))

# Para escribir en un archivo
# open('output.txt', 'w').write(decode(m.generate(context, max_new_tokens=10000)[0].tolist()))

																																																																																																																																																																																																																																																																
802 He saideteseadis 

  

 ‚ÄúHothappenet to you. . Wouldn‚Äôve been on 
your oldest?‚Äù 

 ‚ÄúI don‚Äôt care that boy smart!‚Äù 

 Both Ron and Hermione had to look so dis-solved. 

 ‚ÄúMy Lord,‚Äù Harry heard something on the table; he was sure it was hammering 

Xenophilius Flamel, blinking his, into a bowl of your rest instead, would never a 
sound of telephone in Mr. 


Cleanen this meant arrange that everyone are. There was long them beside Scrimgeour. He learned them all around on his 
matter? Where h


In [47]:
# Prueba con prompt escrito
prompt = torch.tensor(encode("Felipe Tobar, the new Defence Against the Dark Arts teacher, presented his new spell to his students. It was called MCMC Algorithm, which was known to be an attack so powerful that no one could survive it. Even the wizard Andrew Ng couldn't fight its power"), dtype=torch.long, device=device).unsqueeze(0)
print(decode(model.generate(prompt, max_new_tokens=5000)[0].tolist()))

Felipe Tobar, the new Defence Against the Dark Arts teacher, presented his new spell to his students. It was called MCMC Algorithm, which was known to be an attack so powerful that no one could survive it. Even the wizard Andrew Ng couldn't fight its powerful.
„ÄÄ„ÄÄ"WE won't go a letter, it's good," he was hoisted him. "What was that?"
„ÄÄ„ÄÄ"What?" said Harry in a very interest. "Good thinking dark. . .
„ÄÄ„ÄÄBut then - I'll add to them -"
„ÄÄ„ÄÄ"I don't like that news," said Dumbledore. "Flee was better talk to you to King's Cross St at all the other Minister's job, that Harry is not our telling Dark as much more as I know that. You are sure ere there."
„ÄÄ„ÄÄ"About your way," said Dumbledore. "You see? Harry Potter blinks it weren't my office. Think on our Knowing Crouch is affects that. You always have Filch sayed it in Dumbledore's a fat of old, but not even if you have already the one you will tell me you that might be at the hint of a panicg in the back of you. Dumbledore will 

In [48]:
# Generamos un archivo de texto a partir del prompt
open('output.txt', 'w').write(decode(model.generate(prompt, max_new_tokens=10000)[0].tolist()))

10256

> j) (bonus) Define un training loop para el baseline (modelo bi-grama). Entr√©nelo usando un npumero similar de √©pocas y compare las losses y generaci√≥n de texto con su modelo anterior.