# Tutorial de Pytorch (basado en CS244N Stanford) 


Tendremos una introducción básica a `PyTorch` y trabajaremos en una tarea de NLP. Los siguientes recursos han sido utilizados para la confección de este notebook:

* ["Word Window Classification" tutorial notebook]((https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1204/materials/ww_classifier.ipynb) by Matt Lamm, from Winter 2020 offering of CS224N
* Official PyTorch Documentation on [Deep Learning with PyTorch: A 60 Minute Blitz](https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html) by Soumith Chintala
* PyTorch Tutorial Notebook, [Build Basic Generative Adversarial Networks (GANs) | Coursera](https://www.coursera.org/learn/build-basic-generative-adversarial-networks-gans) by Sharon Zhou, offered on Coursera


# Por favor haz una copia en to Drive 

## Introducción 
[PyTorch](https://pytorch.org/) es un framework de deep learning, una de las mas importantes junto a [TensorFlow](https://www.tensorflow.org/). La instalación puede ser realizada via Pip, como se describe [aquí](https://pytorch.org/). Empecemos importando Pytorch:

In [1]:
import torch
import torch.nn as nn

# Import pprint, module we use for making our print statements prettier
import pprint
pp = pprint.PrettyPrinter()

ModuleNotFoundError: No module named 'torch'

Listo! Empecemos

## Part 1: Tensors

Los **Tensores** son la unidad básica de Pytorch. Cada tensor es una matriz multidimensional; por ejemplo, una imagen cuadrada de 256x256 podría ser representada por un tensor `3x256x256`, donde la primera dimensión representa el color. Veamos cómo crear un tensor:


In [None]:
list_of_lists = [
  [1, 2, 3],
  [4, 5, 6],
]
print(list_of_lists)

[[1, 2, 3], [4, 5, 6]]


In [None]:
data = torch.tensor(list_of_lists)
print(data)

tensor([[1, 2, 3],
        [4, 5, 6]])


In [None]:
# Initializing a tensor
data = torch.tensor([
                     [0, 1],
                     [2, 3],
                     [4, 5]
                    ])
print(data)

tensor([[0, 1],
        [2, 3],
        [4, 5]])


Cada tensor tiene un **data type**: los principales data types que necesitarás son floats (`torch.float32`) e integers (`torch.int`). Puedes especificar el data type explícitamente cuando creas el tensor:

In [None]:
# Initializing a tensor with an explicit data type
# Notice the dots after the numbers, which specify that they're floats
data = torch.tensor([
                     [0, 1],
                     [2, 3],
                     [4, 5]
                    ], dtype=torch.float32)
print(data)

tensor([[0., 1.],
        [2., 3.],
        [4., 5.]])


In [None]:
# Initializing a tensor with an explicit data type
# Notice the dots after the numbers, which specify that they're floats
data = torch.tensor([
                     [0.11111111, 1],
                     [2, 3],
                     [4, 5]
                    ], dtype=torch.float32)
print(data)

tensor([[0.1111, 1.0000],
        [2.0000, 3.0000],
        [4.0000, 5.0000]])


In [None]:
# Initializing a tensor with an explicit data type
# Notice the dots after the numbers, which specify that they're floats
data = torch.tensor([
                     [0.11111111, 1],
                     [2, 3],
                     [4, 5]
                    ])
print(data)

tensor([[0.1111, 1.0000],
        [2.0000, 3.0000],
        [4.0000, 5.0000]])


También tenemos funciones auxiliares para crear tensores con formas y contenidos particulares:

In [None]:
zeros = torch.zeros(2, 5)  # a tensor of all zeros
print(zeros)

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])


In [None]:
ones = torch.ones(3, 4)   # a tensor of all ones
print(ones)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])


In [None]:
rr = torch.arange(1, 10) # range from [1, 10)
print(rr)

tensor([1, 2, 3, 4, 5, 6, 7, 8, 9])


In [None]:
rr + 2

tensor([ 3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
rr * 2

tensor([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
a = torch.tensor([[1, 2], [2, 3], [4, 5]])      # (3, 2)
b = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]])  # (2, 4)

print("A is", a)
print("B is", b)
print("The product is", a.matmul(b)) #(3, 4)
print("The other product is", a @ b) # +, -, *, @

A is tensor([[1, 2],
        [2, 3],
        [4, 5]])
B is tensor([[1, 2, 3, 4],
        [5, 6, 7, 8]])
The product is tensor([[11, 14, 17, 20],
        [17, 22, 27, 32],
        [29, 38, 47, 56]])
The other product is tensor([[11, 14, 17, 20],
        [17, 22, 27, 32],
        [29, 38, 47, 56]])


La **shape** de una matriz (que puede ser accedida por `.shape`) se define como las dimensiones de la matriz. Aquí tienes algunos ejemplos:

In [None]:
matr_2d = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(matr_2d.shape)
print(matr_2d)

torch.Size([2, 3])
tensor([[1, 2, 3],
        [4, 5, 6]])


In [None]:
matr_3d = torch.tensor([[[1, 2, 3, 4], [-2, 5, 6, 9]], [[5, 6, 7, 2], [8, 9, 10, 4]], [[-3, 2, 2, 1], [4, 6, 5, 9]]])
print(matr_3d)
print(matr_3d.shape)

tensor([[[ 1,  2,  3,  4],
         [-2,  5,  6,  9]],

        [[ 5,  6,  7,  2],
         [ 8,  9, 10,  4]],

        [[-3,  2,  2,  1],
         [ 4,  6,  5,  9]]])
torch.Size([3, 2, 4])


**Reshaping**  tensores  puede ser usado para hacer operaciones en batches más fáciles, pero ten cuidado de que los datos se reconfigure en el orden que esperas:

In [None]:
rr = torch.arange(1, 16)
print("The shape is currently", rr.shape)
print("The contents are currently", rr)
print()
rr = rr.view(5, 3)
print("After reshaping, the shape is currently", rr.shape)
print("The contents are currently", rr)

The shape is currently torch.Size([15])
The contents are currently tensor([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

After reshaping, the shape is currently torch.Size([5, 3])
The contents are currently tensor([[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12],
        [13, 14, 15]])


También podemos convertir tensores a  **NumPy arrays**:

In [None]:
import numpy as np

# numpy.ndarray --> torch.Tensor:
arr = np.array([[1, 0, 5]])
data = torch.tensor(arr)
print("This is a torch.tensor", data)

# torch.Tensor --> numpy.ndarray:
new_arr = data.numpy()
print("This is a np.ndarray", new_arr)

This is a torch.tensor tensor([[1, 0, 5]])
This is a np.ndarray [[1 0 5]]


Una de las razones por las cuales usamos **tensors** es para las operaciones vectorizadas: operaciones que se pueden realizar en paralelo sobre una dimensión particular de un tensor.

In [None]:
data = torch.arange(1, 36, dtype=torch.float32).reshape(5, 7)
print("Data is:", data)

# We can perform operations like *sum* over each row...
print("Taking the sum over rows:")
print(data.sum(dim=1)) #(5,)

# or over each column.
print("Taking thep sum over columns:")
print(data.sum(dim=0)) #(7,)

# Other operations are available:
print("Taking the stdev over rows:")
print(data.std(dim=1))


Data is: tensor([[ 1.,  2.,  3.,  4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11., 12., 13., 14.],
        [15., 16., 17., 18., 19., 20., 21.],
        [22., 23., 24., 25., 26., 27., 28.],
        [29., 30., 31., 32., 33., 34., 35.]])
Taking the sum over rows:
tensor([ 28.,  77., 126., 175., 224.])
Taking thep sum over columns:
tensor([ 75.,  80.,  85.,  90.,  95., 100., 105.])
Taking the stdev over rows:
tensor([2.1602, 2.1602, 2.1602, 2.1602, 2.1602])


In [None]:
data = torch.arange(1, 7, dtype=torch.float32).reshape(1, 2, 3)
print(data)
print(data.sum(dim=0).sum(dim=0))
print(data.sum(dim=0).sum(dim=0).shape)

tensor([[[1., 2., 3.],
         [4., 5., 6.]]])
tensor([5., 7., 9.])
torch.Size([3])


In [None]:
data.sum()

tensor(21.)

### Quiz

Escribe un código que cree un `torch.tensor` con el siguiente contenido:
$\begin{bmatrix} 1 & 2.2 & 9.6 \\ 4 & -7.2 & 6.3 \end{bmatrix}$

Ahora calcula el promedio de cada fila (`.mean()`) y de cada columna.

Cuál es la forma de los resultados?



**Indexing**

Puedes acceder a elementos arbitrarios de un tensor usando el operador `[]`.

In [None]:
# Initialize an example tensor
x = torch.Tensor([
                  [[1, 2], [3, 4]],
                  [[5, 6], [7, 8]],
                  [[9, 10], [11, 12]]
                 ])
x

tensor([[[ 1.,  2.],
         [ 3.,  4.]],

        [[ 5.,  6.],
         [ 7.,  8.]],

        [[ 9., 10.],
         [11., 12.]]])

In [None]:
x.shape

torch.Size([3, 2, 2])

In [None]:
# Access the 0th element, which is the first row
x[0] # Equivalent to x[0, :]

tensor([[1., 2.],
        [3., 4.]])

In [None]:
x[:, 0]

tensor([[ 1.,  2.],
        [ 5.,  6.],
        [ 9., 10.]])

También podemos indexar en múltiples dimensiones con `:`.

In [None]:
# Get the top left element of each element in our tensor
x[:, 0, 0]

tensor([1., 5., 9.])

In [None]:
x[:, :, :]

tensor([[[ 1.,  2.],
         [ 3.,  4.]],

        [[ 5.,  6.],
         [ 7.,  8.]],

        [[ 9., 10.],
         [11., 12.]]])

Podemos usar tensores para acceder a elementos arbitrarios de un tensor en cualquier dimensión.

In [None]:
# Let's access the 0th and 1st elements, each twice
# same as stacking x[0], x[0], x[1], x[1]
i = torch.tensor([0, 0, 1, 1])
x[i]

tensor([[[1., 2.],
         [3., 4.]],

        [[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]],

        [[5., 6.],
         [7., 8.]]])

In [None]:
# Let's access the 0th elements of the 1st and 2nd elements

i = torch.tensor([1, 2])
j = torch.tensor([0])
x[i, j]

tensor([[ 5.,  6.],
        [ 9., 10.]])

Podemos obtener un valor escalar de un tensor con `item()`.

In [None]:
x[0, 0, 0]

tensor(1.)

In [None]:
x[0, 0, 0].item()

1.0

### Ejercicio:
Escibe un código que cree un `torch.tensor` con el siguiente contenido:
$\begin{bmatrix} 1 & 2.2 & 9.6 \\ 4 & -7.2 & 6.3 \end{bmatrix}$

Cómo obtienes la primera columna? La primera fila?



## Autograd
Pytorch es bien conocido por su característica de diferenciación automática. Podemos llamar al método `backward()` para pedirle a `PyTorch` que calcule los gradientes, que luego se almacenan en el atributo `grad`.

In [None]:
# Create an example tensor
# requires_grad parameter tells PyTorch to store gradients
x = torch.tensor([2.], requires_grad=True)

# Print the gradient if it is calculated
# Currently None since x is a scalar
pp.pprint(x.grad)

None


In [None]:
# Calculating the gradient of y with respect to x
y = x * x * 3 # 3x^2
y.backward()
pp.pprint(x.grad) # d(y)/d(x) = d(3x^2)/d(x) = 6x = 12

tensor([12.])


Ahora corramos backprop desde un tensor diferente para ver qué pasa.

In [None]:
z = x * x * 3 # 3x^2
z.backward()
pp.pprint(x.grad)

tensor([24.])


In [None]:
x.grad = None
z = x * x * 3 # 3x^2
z.backward()
# y = x * x * 3
pp.pprint(x.grad)

tensor([12.])


In [None]:
z = x * x * 3 # 3x^2
z.backward()
# y = x * x * 3
pp.pprint(x.grad)

tensor([24.])


In [None]:
z = x * x * 3 # 3x^2
z.backward()
# y = x * x * 3
pp.pprint(x.grad)

tensor([36.])


Podemos ver que los gradientes se acumulan. Cuando ejecutamos `backward()` en un tensor, los gradientes se acumulan en el atributo `grad`. Cuando queremos calcular los gradientes de un tensor desde cero, necesitamos reiniciar los gradientes con `zero_grad()`. De lo contrario, nuestros gradientes se acumularán en cada paso de backprop.

## Neural Network Module

Hasta ahora hemos visto tensores, sus propiedades y operaciones básicas en tensores. Estos son especialmente útiles para familiarizarse si estamos construyendo las capas de nuestra red desde cero. Utilizaremos estos en la Tarea 2, pero en el futuro, utilizaremos bloques predefinidos en el módulo `torch.nn` de `PyTorch`. Luego juntaremos estos bloques para crear redes complejas. Comencemos importando este módulo con un alias para que no tengamos que escribir `torch` cada vez que lo usemos.


In [None]:
import torch.nn as nn

### **Linear Layer**
Podemos usar `nn.Linear(H_in, H_out)` para crear una capa lineal. Esto tomará una matriz de dimensiones `(N, *, H_in)` y devolverá una matriz de dimensiones `(N, *, H_out)`. El `*` denota que podría haber un número arbitrario de dimensiones en medio. La capa lineal realiza la operación `Ax+b`, donde `A` y `b` se inicializan aleatoriamente. Si no queremos que la capa lineal aprenda los parámetros de sesgo, podemos inicializar nuestra capa con `bias=False`.

In [None]:
# Create the inputs
input = torch.ones(2,3,4)
# N* H_in -> N*H_out


# Make a linear layers transforming N,*,H_in dimensinal inputs to N,*,H_out
# dimensional outputs
linear = nn.Linear(4, 2)
linear_output = linear(input)
linear_output

tensor([[[-0.8810,  0.3769],
         [-0.8810,  0.3769],
         [-0.8810,  0.3769]],

        [[-0.8810,  0.3769],
         [-0.8810,  0.3769],
         [-0.8810,  0.3769]]], grad_fn=<ViewBackward0>)

In [None]:
linear_output.shape

torch.Size([2, 3, 10, 11, 2])

In [None]:
list(linear.parameters()) # Ax + b

[Parameter containing:
 tensor([[-0.1443,  0.2130,  0.2116, -0.4267],
         [-0.3379,  0.2243,  0.3289, -0.2484]], requires_grad=True),
 Parameter containing:
 tensor([-0.4608,  0.0073], requires_grad=True)]

In [None]:
# Data of shape [batch_size, feature_dim] # 4
# [batch_size, output_dim] # 2

# linear layer of shape (feature_dim, output_dim)

### **Other Module Layers**
Hay varias capas preconfiguradas en el módulo `nn`. Algunos ejemplos comunes son `nn.Conv2d`, `nn.ConvTranspose2d`, `nn.BatchNorm1d`, `nn.BatchNorm2d`, `nn.Upsample` y `nn.MaxPool2d`, entre muchos otros. Aprenderemos más sobre estos a medida que avancemos en el curso. Por ahora, lo único importante a recordar es que podemos tratar cada una de estas capas como componentes plug and play: proporcionaremos las dimensiones requeridas y `PyTorch` se encargará de configurarlas.

### **Activation Function Layer**
We can also use the `nn` module to apply activations functions to our tensors. Activation functions are used to add non-linearity to our network. Some examples of activations functions are `nn.ReLU()`, `nn.Sigmoid()` and `nn.LeakyReLU()`. Activation functions operate on each element seperately, so the shape of the tensors we get as an output are the same as the ones we pass in.

In [None]:
linear_output

tensor([[[-0.8810,  0.3769],
         [-0.8810,  0.3769],
         [-0.8810,  0.3769]],

        [[-0.8810,  0.3769],
         [-0.8810,  0.3769],
         [-0.8810,  0.3769]]], grad_fn=<ViewBackward0>)

In [None]:
sigmoid = nn.Sigmoid()
output = sigmoid(linear_output)
output

tensor([[[0.2930, 0.5931],
         [0.2930, 0.5931],
         [0.2930, 0.5931]],

        [[0.2930, 0.5931],
         [0.2930, 0.5931],
         [0.2930, 0.5931]]], grad_fn=<SigmoidBackward0>)

### **Poniéndolo todo junto**
Hasta ahora hemos visto que podemos crear capas y pasar la salida de una como entrada de la siguiente. En lugar de crear tensores intermedios y pasarlos, podemos usar `nn.Sequentual`, que hace exactamente eso.

In [None]:
block = nn.Sequential(
    nn.Linear(4, 2),
    nn.Sigmoid()
)

input = torch.ones(2,3,4)
output = block(input)
output

tensor([[[0.6822, 0.5056],
         [0.6822, 0.5056],
         [0.6822, 0.5056]],

        [[0.6822, 0.5056],
         [0.6822, 0.5056],
         [0.6822, 0.5056]]], grad_fn=<SigmoidBackward0>)

### Custom Modules

En vez de usar modulos predefinidos, podemos construir los nuestros extendiendo la clase `nn.Module`. Por ejemplo, podemos construir un `nn.Linear` (que también extiende `nn.Module`) usando el tensor introducido anteriormente! También podemos construir nuevos modulos más complejos, como una red neuronal personalizada. Practicarás esto en la siguiente tarea.

Para crear un módulo personalizado, lo primero que debemos hacer es extender `nn.Module`. Luego podemos inicializar nuestros parámetros en la función `__init__`, comenzando con una llamada a la función `__init__` de la superclase. Todos los atributos de clase que definimos que son objetos de módulo `nn` se tratan como parámetros, que se pueden aprender durante el entrenamiento. Los tensores no son parámetros, pero se pueden convertir en parámetros si se envuelven en la clase `nn.Parameter`.

Todos los módulos que extienden `nn.Module` también deben implementar una función `forward(x)`, donde `x` es un tensor. Esta es la función que se llama cuando se pasa un parámetro a nuestro módulo, como en `model(x)`.

In [None]:
class MultilayerPerceptron(nn.Module):

  def __init__(self, input_size, hidden_size):
    # Call to the __init__ function of the super class
    super(MultilayerPerceptron, self).__init__()

    # Bookkeeping: Saving the initialization parameters
    self.input_size = input_size
    self.hidden_size = hidden_size

    # Defining of our model
    # There isn't anything specific about the naming of `self.model`. It could
    # be something arbitrary.
    self.model = nn.Sequential(
        nn.Linear(self.input_size, self.hidden_size),
        nn.ReLU(),
        nn.Linear(self.hidden_size, self.input_size),
        nn.Sigmoid()
    )

  def forward(self, x):
    output = self.model(x)
    return output

Aquí hay una forma alternativa de definir la misma clase. Puedes ver que podemos reemplazar `nn.Sequential` definiendo las capas individuales en el método `__init__` y conectándolas en el método `forward`.

In [None]:
class MultilayerPerceptron(nn.Module):

  def __init__(self, input_size, hidden_size):
    # Call to the __init__ function of the super class
    super(MultilayerPerceptron, self).__init__()

    # Bookkeeping: Saving the initialization parameters
    self.input_size = input_size
    self.hidden_size = hidden_size

    # Defining of our layers
    self.linear = nn.Linear(self.input_size, self.hidden_size)
    self.relu = nn.ReLU()
    self.linear2 = nn.Linear(self.hidden_size, self.input_size)
    self.sigmoid = nn.Sigmoid()

  def forward(self, x):
    linear = self.linear(x)
    relu = self.relu(linear)
    linear2 = self.linear2(relu)
    output = self.sigmoid(linear2)
    return output

Ahora que hemos definido 
Now that we have defined our class, we can instantiate it and see what it does.hor

In [None]:
# Make a sample input
input = torch.randn(2, 5)

# Create our model
model = MultilayerPerceptron(5, 3)

# Pass our input through our model
model(input)

tensor([[0.4621, 0.5310, 0.4358, 0.6027, 0.6664],
        [0.4217, 0.5628, 0.3208, 0.5732, 0.6326]], grad_fn=<SigmoidBackward0>)

Podemos inspeccionar los parámetros de nuestro modelo con los métodos `named_parameters()` y `parameters()`.

In [None]:
list(model.named_parameters())

[('linear.weight',
  Parameter containing:
  tensor([[-0.0359,  0.0409, -0.2182,  0.0993,  0.0216],
          [ 0.3572, -0.0213,  0.0229, -0.1651,  0.3042],
          [ 0.1404,  0.1992, -0.2556, -0.1605,  0.0395]], requires_grad=True)),
 ('linear.bias',
  Parameter containing:
  tensor([ 0.1759, -0.1290,  0.0760], requires_grad=True)),
 ('linear2.weight',
  Parameter containing:
  tensor([[ 0.2302,  0.0376, -0.4018],
          [-0.4662, -0.4792,  0.1319],
          [-0.5094,  0.3908, -0.1104],
          [ 0.3688,  0.1750, -0.3135],
          [ 0.3631,  0.3253, -0.2241]], requires_grad=True)),
 ('linear2.bias',
  Parameter containing:
  tensor([-0.1755,  0.3826, -0.4531,  0.3189,  0.5156], requires_grad=True))]

## Optimization
Hemos mostrado como se calculan los gradientes con la función `backward()`. Tener los gradientes no es suficiente para que nuestros modelos aprendan. También necesitamos saber cómo actualizar los parámetros de nuestros modelos. Aquí es donde entran los optimizadores. El módulo `torch.optim` contiene varios optimizadores que podemos usar. Algunos ejemplos populares son `optim.SGD` y `optim.Adam`. Al inicializar optimizadores, pasamos los parámetros de nuestro modelo, que se pueden acceder con `model.parameters()`, indicando a los optimizadores qué valores optimizarán. Los optimizadores también tienen un parámetro de tasa de aprendizaje (`lr`), que determina cuán grande será la actualización en cada paso. Los diferentes optimizadores tienen diferentes hiperparámetros también.


In [None]:
import torch.optim as optim

Después de definir nuestra función de optimización, podemos definir una `loss` que queremos optimizar. Podemos definir la pérdida nosotros mismos, o usar una de las funciones de pérdida predefinidas en `PyTorch`, como `nn.BCELoss()`. ¡Pongamos todo junto ahora! Empezaremos creando algunos datos ficticios.


In [None]:
# Create the y data
y = torch.ones(10, 5)

# Add some noise to our goal y to generate our x
# We want out model to predict our original data, albeit the noise
x = y + torch.randn_like(y)
x

tensor([[ 1.4604,  2.1893,  0.8026,  0.6062,  0.9302],
        [ 0.2317,  1.1250,  1.1276,  0.3870,  2.0563],
        [ 0.3060,  2.9154,  0.0979,  0.8160,  1.9484],
        [ 0.2887,  0.1449,  0.1708, -0.0307,  2.0472],
        [ 0.6013,  1.8131,  0.7032,  0.2523, -0.0232],
        [ 2.6874,  0.5569,  0.4187,  1.2088,  0.2832],
        [ 2.8989,  1.5482,  0.3915,  0.5046,  0.1376],
        [ 1.1544,  0.3065, -0.2656,  2.5511,  0.2247],
        [ 1.7423, -0.1496,  2.0271,  1.0739,  1.1934],
        [ 0.3968,  0.2009,  0.6164,  1.8774,  1.1588]])

Ahora, podemos definir nuestro modelo, optimizador y la función de pérdida.

In [None]:
# Instantiate the model
model = MultilayerPerceptron(5, 3)

# Define the optimizer
adam = optim.Adam(model.parameters(), lr=1e-1)

# Define loss using a predefined loss function
loss_function = nn.MSELoss()

# Calculate how our model is doing now
y_pred = model(x)
loss_function(y_pred, y).item()

0.18392038345336914

Veamos si  podemos lograr que nuestro modelo logre una pérdida más pequeña. Ahora que tenemos todo lo que necesitamos, podemos configurar nuestro bucle de entrenamiento.

In [None]:
# Set the number of epoch, which determines the number of training iterations
n_epoch = 10

for epoch in range(n_epoch):
  # Set the gradients to 0
  adam.zero_grad()

  # Get the model predictions
  y_pred = model(x)

  # Get the loss
  loss = loss_function(y_pred, y)

  # Print stats
  print(f"Epoch {epoch}: traing loss: {loss}")

  # Compute the gradients
  loss.backward()

  # Take a step to optimize the weights
  adam.step()


Epoch 0: traing loss: 0.18392038345336914
Epoch 1: traing loss: 0.1214178055524826
Epoch 2: traing loss: 0.0665205642580986
Epoch 3: traing loss: 0.031827643513679504
Epoch 4: traing loss: 0.012266852892935276
Epoch 5: traing loss: 0.003626907477155328
Epoch 6: traing loss: 0.000923578510992229
Epoch 7: traing loss: 0.00023057256476022303
Epoch 8: traing loss: 6.007583942846395e-05
Epoch 9: traing loss: 1.6709067494957708e-05


In [None]:
list(model.parameters())

[Parameter containing:
 tensor([[-0.3774, -0.2663, -0.2254, -0.3110, -0.0272],
         [ 1.1547,  0.4672,  0.5807,  0.3853,  0.7197],
         [ 0.5740,  1.1962,  0.7437,  0.9969,  1.0613]], requires_grad=True),
 Parameter containing:
 tensor([0.0332, 0.8876, 0.4750], requires_grad=True),
 Parameter containing:
 tensor([[ 0.3789,  0.8695,  0.9322],
         [-0.0926,  0.9584,  0.9451],
         [ 0.1741,  0.5681,  0.5995],
         [-0.5748,  1.1098,  0.6488],
         [-0.0048,  1.2007,  1.2029]], requires_grad=True),
 Parameter containing:
 tensor([0.8713, 1.1602, 0.9818, 0.8432, 0.4917], requires_grad=True)]

Puedes ver que la pérdida decrece. Veamos las predicciones de nuestro modelo y veamos si están cerca de nuestro `y` original, que era todo `1s`.

In [None]:
# See how our model performs on the training data
y_pred = model(x)
y_pred

tensor([[1.0000, 1.0000, 0.9994, 1.0000, 1.0000],
        [0.9999, 1.0000, 0.9984, 0.9998, 1.0000],
        [1.0000, 1.0000, 0.9996, 1.0000, 1.0000],
        [0.9980, 0.9989, 0.9884, 0.9975, 0.9995],
        [0.9990, 0.9994, 0.9925, 0.9985, 0.9998],
        [0.9999, 1.0000, 0.9987, 0.9999, 1.0000],
        [1.0000, 1.0000, 0.9991, 1.0000, 1.0000],
        [0.9995, 0.9997, 0.9952, 0.9993, 0.9999],
        [1.0000, 1.0000, 0.9991, 1.0000, 1.0000],
        [0.9997, 0.9998, 0.9963, 0.9994, 1.0000]], grad_fn=<SigmoidBackward0>)

In [None]:
# Create test data and check how our model performs on it
x2 = y + torch.randn_like(y)
y_pred = model(x2)
y_pred

tensor([[1.0000, 1.0000, 0.9999, 1.0000, 1.0000],
        [0.9973, 0.9985, 0.9859, 0.9976, 0.9993],
        [1.0000, 1.0000, 0.9997, 1.0000, 1.0000],
        [0.9997, 0.9998, 0.9966, 0.9991, 1.0000],
        [1.0000, 1.0000, 0.9999, 1.0000, 1.0000],
        [0.9983, 0.9990, 0.9893, 0.9971, 0.9996],
        [1.0000, 1.0000, 0.9993, 1.0000, 1.0000],
        [1.0000, 1.0000, 0.9994, 1.0000, 1.0000],
        [0.9999, 1.0000, 0.9988, 0.9999, 1.0000],
        [0.9999, 0.9999, 0.9979, 0.9998, 1.0000]], grad_fn=<SigmoidBackward0>)

Great! Looks like our model almost perfectly learned to filter out the noise from the `x` that we passed in!

## Demo: Word Window Classification

Hasta ahora, hemos aprendido los fundamentos de PyTorch y construido una red básica que resuelve una simple tarea. Ahora intentaremos resolver una tarea de NLP. Aquí están las cosas que aprenderemos:

1. Datos: crear un Dataset de tensores en batch
2. Modelado
3. Entrenamiento
4. Predicción

En esta sección, nuestro objetivo es entrenar un modelo que encuentre las palabras en una oración que correspondan a una `LOCATION`, que siempre será de longitud `1` (lo que significa que `San Fransisco` no se reconocerá como una `LOCATION`). Nuestra tarea se llama `Word Window Classification` por una razón. En lugar de permitir que nuestro modelo solo mire una palabra en cada paso hacia adelante, nos gustaría que pueda considerar el contexto de la palabra en cuestión. Es decir, para cada palabra, queremos que nuestro modelo sea consciente de las palabras circundantes. 

### Data

Preparemos el dataset. 
The very first task of any machine learning project is to set up our training set. Usually, there will be a training corpus we will be utilizing. In NLP tasks, the corpus would generally be a `.txt` or `.csv` file where each row corresponds to a sentence or a tabular datapoint. In our toy task, we will assume that we have already read our data and the corresponding labels into a `Python` list.

In [None]:
# Our raw data, which consists of sentences
corpus = [
          "We always come to Paris",
          "The professor is from Australia",
          "I live in Stanford",
          "He comes from Taiwan",
          "The capital of Turkey is Ankara"
         ]

#### Preprocesado

Para hacer nuestra tarea más facil, aplicamos algunas etapas de preprocesamiento a nuestros datos. Esto es especialmente importante cuando se trata de datos de texto. Aquí hay algunos ejemplos de preprocesamiento de texto:
* **Tokenization**: Tokenizar las oraciones en palabras. 
* **Lowercasing**: Cambiar todas las letras a minúsculas. 
* **Noise removal:** Eliminar caracteres especiales tales como la puntuación.
* **Stop words removal**: Eliminar palabras usadas comúnmente.

Los paso específicos de preprocesamiento que necesitamos dependerán de la tarea que estamos realizando. Por ejemplo, aunque es útil eliminar caracteres especiales en algunas tareas, para otras pueden ser importantes (por ejemplo, si estamos tratando con varios idiomas). Para nuestra tarea, convertiremos nuestras palabras en minúsculas y tokenizaremos.


In [None]:
# The preprocessing function we will use to generate our training examples
# Our function is a simple one, we lowercase the letters
# and then tokenize the words.
def preprocess_sentence(sentence):
  return sentence.lower().split()

# Create our training set
train_sentences = [preprocess_sentence(sent) for sent in corpus]
train_sentences

For each training example we have, we should also have a corresponding label. Recall that the goal of our model was to determine which words correspond to a `LOCATION`. That is, we want our model to output `0` for all the words that are not `LOCATION`s and `1` for the ones that are `LOCATION`s.

In [None]:
# Set of locations that appear in our corpus
locations = set(["australia", "ankara", "paris", "stanford", "taiwan", "turkey"])

# Our train labels
train_labels = [[1 if word in locations else 0 for word in sent] for sent in train_sentences]
train_labels

#### Convirtiendo palabras a embeddings

Veamos nuestros datos de entrenamiento un poco más de cerca. Cada dato que tenemos es una secuencia de palabras. Por otro lado, sabemos que los modelos de aprendizaje automático trabajan con números en vectores. ¿Cómo vamos a convertir palabras en números? Puede que estés pensando en embeddings y tienes razón!

Imagina que tenemos una tabla de búsqueda de embeddings `E`, donde cada fila corresponde a un embedding. Es decir, cada palabra en nuestro vocabulario tendría una fila de embedding correspondiente `i` en esta tabla. Siempre que queramos encontrar un embedding para una palabra, seguiremos estos pasos:
1. Encontrar el índice correspondiente `i` de la palabra en la tabla de embedding: `word->index`.
2. Indexar en la tabla de embedding y obtener el embedding: `index->embedding`.

Veamos el primer paso. Debemnos asignar todas las palabras en nuestro vocabulario a un índice correspondiente. Podemos hacerlo de la siguiente manera:
1. Encontrar todas las palabras únicas en nuestro corpus.
2. Asignar un índice a cada una.

In [None]:
# Find all the unique words in our corpus
vocabulary = set(w for s in train_sentences for w in s)
vocabulary

`vocabulary`  ahora contiene todas las palabras en nuestro corpus. Por otro lado, durante el tiempo de prueba, podemos ver palabras que no están contenidas en nuestro vocabulario. Si podemos encontrar una manera de representar las palabras desconocidas, nuestro modelo aún puede razonar sobre si son una `LOCATION`, ya que también estamos viendo las palabras vecinas para cada predicción.

Introducimos un token especial, `<unk>`, para abordar las palabras que están fuera del vocabulario. Podríamos elegir otra cadena para nuestro token desconocido si quisiéramos. El único requisito aquí es que nuestro token debe ser único: solo deberíamos estar usando este token para palabras desconocidas. También agregaremos este token especial a nuestro vocabulario.

In [None]:
# Add the unknown token to our vocabulary
vocabulary.add("<unk>")

Antes mencionames que nuestra tarea se llama `Word Window Classification` porque nuestro modelo está mirando las palabras circundantes además de la palabra dada cuando necesita hacer una predicción.

Por ejemplo consideremos la oración "Siempre venimos a París". La etiqueta de entrenamiento correspondiente para esta oración es `0, 0, 0, 0, 1` ya que solo París, la última palabra, es una `LOCATION`. En un pase (lo que significa una llamada a `forward()`), nuestro modelo intentará generar la etiqueta correcta para una palabra. Digamos que nuestro modelo está tratando de generar la etiqueta correcta `1` para `París`. Si solo permitimos que nuestro modelo vea `París`, pero nada más, perderemos la información importante de que la palabra a menudo aparece con LOCATION`s.

Word windows permite a nuestro modelo considerar las `N` palabras circundantes de cada palabra al hacer una predicción. En nuestro ejemplo anterior para `París`, si tenemos un tamaño de ventana de `1`, eso significa que nuestro modelo mirará las palabras que vienen inmediatamente antes y después de `París`, que son `a` y bueno, nada. Ahora, esto plantea otro problema. `París` está al final de nuestra oración, por lo que no hay otra palabra que la siga. Recuerda que definimos las dimensiones de entrada de nuestros modelos de `PyTorch` cuando los inicializamos. Si configuramos el tamaño de la ventana en `1`, significa que nuestro modelo aceptará `3` palabras en cada paso. No podemos hacer que nuestro modelo espere `2` palabras de vez en cuando.


La solución es introducir un token especial, como `<pad>`, que se agregará a nuestras oraciones para asegurarnos de que cada palabra tenga una ventana válida a su alrededor. Similar al token `<unk>`, podríamos elegir otra cadena para nuestro token de relleno si quisiéramos, siempre y cuando nos aseguremos de que se use para un propósito único.

In [None]:
# Add the <pad> token to our vocabulary
vocabulary.add("<pad>")

# Function that pads the given sentence
# We are introducing this function here as an example
# We will be utilizing it later in the tutorial
def pad_window(sentence, window_size, pad_token="<pad>"):
  window = [pad_token] * window_size
  return window + sentence + window

# Show padding example
window_size = 2
pad_window(train_sentences[0], window_size=window_size)

Ahora que tenemos nuestro vocabulario, asignemos un indice a cada una de nuestras palabras.

In [None]:
# We are just converting our vocabulary to a list to be able to index into it
# Sorting is not necessary, we sort to show an ordered word_to_ind dictionary
# That being said, we will see that having the index for the padding token
# be 0 is convenient as some PyTorch functions use it as a default value
# such as nn.utils.rnn.pad_sequence, which we will cover in a bit
ix_to_word = sorted(list(vocabulary))

# Creating a dictionary to find the index of a given word
word_to_ix = {word: ind for ind, word in enumerate(ix_to_word)}
word_to_ix

In [None]:
ix_to_word[1]

Listo! Ahora podemos convertir nuestras oraciones en secuencia de indices que corresponden a cada token. 

In [None]:
# Given a sentence of tokens, return the corresponding indices
def convert_token_to_indices(sentence, word_to_ix):
  indices = []
  for token in sentence:
    # Check if the token is in our vocabularly. If it is, get it's index.
    # If not, get the index for the unknown token.
    if token in word_to_ix:
      index = word_to_ix[token]
    else:
      index = word_to_ix["<unk>"]
    indices.append(index)
  return indices

# More compact version of the same function
def _convert_token_to_indices(sentence, word_to_ix):
  return [word_to_ind.get(token, word_to_ix["<unk>"]) for token in sentence]

# Show an example
example_sentence = ["we", "always", "come", "to", "kuwait"]
example_indices = convert_token_to_indices(example_sentence, word_to_ix)
restored_example = [ix_to_word[ind] for ind in example_indices]

print(f"Original sentence is: {example_sentence}")
print(f"Going from words to indices: {example_indices}")
print(f"Going from indices to words: {restored_example}")


En el ejemplo de arriba, `kuwait` aparece como `<unk>`, porque no está incluido en nuestro vocabulario. Convirtamos nuestras `train_sentences` a `example_padded_indices`.

In [None]:
# Converting our sentences to indices
example_padded_indices = [convert_token_to_indices(s, word_to_ix) for s in train_sentences]
example_padded_indices

Ahora que tenemos un índice para cada palabra de nuestro vocabulario, podemos crear una embedding table con la clase `nn.Embedding` en `PyTorch`. Se llama de la siguiente manera `nn.Embedding(num_words, embedding_dimension)` donde `num_words` es el número de palabras en nuestro vocabulario y `embedding_dimension` es la dimensión de los embeddings que queremos tener. No hay nada especial en `nn.Embedding`: es solo una clase envoltorio alrededor de un tensor de dimensión `NxE` entrenable, donde `N` es el número de palabras en nuestro vocabulario y `E` es el número de dimensiones de embedding. Esta tabla es inicialmente aleatoria, pero cambiará con el tiempo. A medida que entrenamos nuestra red, los gradientes se propagarán hacia atrás hasta la capa de embedding, y por lo tanto nuestros embeddings de palabras se actualizarán. Inicializaremos la capa de embedding que usaremos para nuestro modelo en nuestro modelo, pero estamos mostrando un ejemplo aquí.


In [None]:
# Creating an embedding table for our words
embedding_dim = 5
embeds = nn.Embedding(len(vocabulary), embedding_dim)

# Printing the parameters in our embedding table
list(embeds.parameters())

Para obtener el embedding de una palabra en nuestro vocabulario, todo lo que necesitamos hacer es crear un tensor de búsqueda. El tensor de búsqueda es solo un tensor que contiene el índice que queremos buscar. La clase `nn.Embedding` espera un tensor de índice que sea de tipo Long Tensor, por lo que debemos crear nuestro tensor en consecuencia.

In [None]:
# Get the embedding for the word Paris
index = word_to_ix["paris"]
index_tensor = torch.tensor(index, dtype=torch.long)
paris_embed = embeds(index_tensor)
paris_embed

In [None]:
# We can also get multiple embeddings at once
index_paris = word_to_ix["paris"]
index_ankara = word_to_ix["ankara"]
indices = [index_paris, index_ankara]
indices_tensor = torch.tensor(indices, dtype=torch.long)
embeddings = embeds(indices_tensor)
embeddings

Usualmente definimos una embedding layer como parte de nuestro modelo, lo que veremos en las siguientes secciones de nuestro notebook.

#### Batching Oraciones

Esperar a que el corpus de entrenamiento sea procesado completamente es costoso. Por otro lado, actualizar los parámetros después de cada ejemplo de entrenamiento hace que la pérdida sea menos estable entre actualizaciones. Para combatir estos problemas, actualizamos nuestros parámetros después de entrenar en un batch. Esto nos permite obtener una mejor estimación del gradiente del loss. En esta sección, aprenderemos a estructurar nuestros datos en lotes utilizando la clase `torch.util.data.DataLoader`.

Llamaremos a la clase `DataLoader` de la siguiente manera: `DataLoader(data, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)`. El parámetro `batch_size` determina el número de samples por batch. En cada época, iteraremos sobre todos los batches utilizando el `DataLoader`. El orden de los batches es determinista por defecto, pero podemos pedirle al `DataLoader` que mezcle los batches configurando el parámetro `shuffle` en `True`. De esta manera, nos aseguramos de que no encontramos un mal batch varias veces.

Si se proporciona, `DataLoader` pasa los batches que prepara a `collate_fn`. Podemos escribir una función personalizada para pasar al parámetro `collate_fn` para imprimir estadísticas sobre nuestro batch o realizar un procesamiento adicional. En nuestro caso, usaremos el `collate_fn` para:
1. Window pad nuestras oraciones de entrenamiento.
2. Convertir las palabras en los ejemplos de entrenamiento a índices.
3. Rellenar los ejemplos de entrenamiento para que todas las oraciones y etiquetas tengan la misma longitud. Del mismo modo, también necesitamos rellenar las etiquetas. Esto crea un problema porque al calcular la pérdida, necesitamos saber el número real de palabras en un ejemplo dado. También haremos un seguimiento de este número en la función que pasamos al parámetro `collate_fn`.

Ya que nuestra versión de `collate_fn` necesitará acceso a nuestro diccionario `word_to_ix` (para que pueda convertir palabras en índices), haremos uso de la función `partial` en `Python`, que pasa los parámetros que le damos a la función que le pasamos.

In [None]:
from torch.utils.data import DataLoader
from functools import partial

def custom_collate_fn(batch, window_size, word_to_ix):
  # Break our batch into the training examples (x) and labels (y)
  # We are turning our x and y into tensors because nn.utils.rnn.pad_sequence
  # method expects tensors. This is also useful since our model will be
  # expecting tensor inputs.
  x, y = zip(*batch)

  # Now we need to window pad our training examples. We have already defined a
  # function to handle window padding. We are including it here again so that
  # everything is in one place.
  def pad_window(sentence, window_size, pad_token="<pad>"):
    window = [pad_token] * window_size
    return window + sentence + window

  # Pad the train examples.
  x = [pad_window(s, window_size=window_size) for s in x]

  # Now we need to turn words in our training examples to indices. We are
  # copying the function defined earlier for the same reason as above.
  def convert_tokens_to_indices(sentence, word_to_ix):
    return [word_to_ix.get(token, word_to_ix["<unk>"]) for token in sentence]

  # Convert the train examples into indices.
  x = [convert_tokens_to_indices(s, word_to_ix) for s in x]

  # We will now pad the examples so that the lengths of all the example in
  # one batch are the same, making it possible to do matrix operations.
  # We set the batch_first parameter to True so that the returned matrix has
  # the batch as the first dimension.
  pad_token_ix = word_to_ix["<pad>"]

  # pad_sequence function expects the input to be a tensor, so we turn x into one
  x = [torch.LongTensor(x_i) for x_i in x]
  x_padded = nn.utils.rnn.pad_sequence(x, batch_first=True, padding_value=pad_token_ix)

  # We will also pad the labels. Before doing so, we will record the number
  # of labels so that we know how many words existed in each example.
  lengths = [len(label) for label in y]
  lenghts = torch.LongTensor(lengths)

  y = [torch.LongTensor(y_i) for y_i in y]
  y_padded = nn.utils.rnn.pad_sequence(y, batch_first=True, padding_value=0)

  # We are now ready to return our variables. The order we return our variables
  # here will match the order we read them in our training loop.
  return x_padded, y_padded, lenghts

Parece larga esta función, pero no tiene por qué serlo. Aquí esta la alternativa donde eliminamos las declaraciones de funciones y comentarios adicionales.

In [None]:
def _custom_collate_fn(batch, window_size, word_to_ix):
  # Prepare the datapoints
  x, y = zip(*batch)
  x = [pad_window(s, window_size=window_size) for s in x]
  x = [convert_tokens_to_indices(s, word_to_ix) for s in x]

  # Pad x so that all the examples in the batch have the same size
  pad_token_ix = word_to_ix["<pad>"]
  x = [torch.LongTensor(x_i) for x_i in x]
  x_padded = nn.utils.rnn.pad_sequence(x, batch_first=True, padding_value=pad_token_ix)

  # Pad y and record the length
  lengths = [len(label) for label in y]
  lenghts = torch.LongTensor(lengths)
  y = [torch.LongTensor(y_i) for y_i in y]
  y_padded = nn.utils.rnn.pad_sequence(y, batch_first=True, padding_value=0)

  return x_padded, y_padded, lenghts

Ahora podemos ver la `DataLoader` en acción.

In [None]:
# Parameters to be passed to the DataLoader
data = list(zip(train_sentences, train_labels))
batch_size = 2
shuffle = True
window_size = 2
collate_fn = partial(custom_collate_fn, window_size=window_size, word_to_ix=word_to_ix)

# Instantiate the DataLoader
loader = DataLoader(data, batch_size=batch_size, shuffle=shuffle, collate_fn=collate_fn)

# Go through one loop
counter = 0
for batched_x, batched_y, batched_lengths in loader:
  print(f"Iteration {counter}")
  print("Batched Input:")
  print(batched_x)
  print("Batched Labels:")
  print(batched_y)
  print("Batched Lengths:")
  print(batched_lengths)
  print("")
  counter += 1

Los tensores de entrada batcheados que ves arriba se pasarán a nuestro modelo. Por otro lado, comenzamos diciendo que nuestro modelo será un Window Classifier. La forma en que se formatean actualmente nuestros tensores de entrada, tenemos todas las palabras en una oración en un datapoint. Cuando pasamos esta entrada a nuestro modelo, necesita crear las ventanas para cada palabra, hacer una predicción sobre si la palabra central es una `LOCATION` o no para cada ventana, juntar las predicciones y devolverlas.

Podríamos evitar este problema si formateamos nuestros datos dividiéndolos en ventanas de antemano. En este ejemplo, veremos cómo nuestro modelo se encarga del formateo.

Dado que nuestro `window_size` es `N`, queremos que nuestro modelo haga una predicción en cada `2N+1` tokens. Es decir, si tenemos una entrada con `9` tokens y un `window_size` de `2`, queremos que nuestro modelo devuelva `5` predicciones. Esto tiene sentido porque antes de rellenarlo con `2` tokens a cada lado, nuestra entrada también tenía `5` tokens.

Podemos crear estas ventanas usando for loops, pero hay una alternativa más rápida en `PyTorch`, que es el método `unfold(dimension, size, step)`. Podemos crear las ventanas que necesitamos de la siguiente manera:

In [None]:
# Print the original tensor

print(f"Original Tensor: ")
print(batched_x)
print("")

# Create the 2 * 2 + 1 chunks
chunk = batched_x.unfold(1, window_size*2 + 1, 1)
print(f"Windows: ")
print(chunk)

### Modelado

Ahora que hemos preparado nuestros datos, estamos listos para construir nuestro modelo. Hemos aprendido a escribir clases `nn.Module` personalizadas. Haremos lo mismo aquí y pondremos todo lo que hemos aprendido hasta ahora juntos. 

In [None]:
class WordWindowClassifier(nn.Module):

  def __init__(self, hyperparameters, vocab_size, pad_ix=0):
    super(WordWindowClassifier, self).__init__()

    """ Instance variables """
    self.window_size = hyperparameters["window_size"]
    self.embed_dim = hyperparameters["embed_dim"]
    self.hidden_dim = hyperparameters["hidden_dim"]
    self.freeze_embeddings = hyperparameters["freeze_embeddings"]

    """ Embedding Layer
    Takes in a tensor containing embedding indices, and returns the
    corresponding embeddings. The output is of dim
    (number_of_indices * embedding_dim).

    If freeze_embeddings is True, set the embedding layer parameters to be
    non-trainable. This is useful if we only want the parameters other than the
    embeddings parameters to change.

    """
    self.embeds = nn.Embedding(vocab_size, self.embed_dim, padding_idx=pad_ix)
    if self.freeze_embeddings:
      self.embeds.weight.requires_grad = False

    """ Hidden Layer
    """
    full_window_size = 2 * window_size + 1
    self.hidden_layer = nn.Sequential(
      nn.Linear(full_window_size * self.embed_dim, self.hidden_dim),
      nn.Tanh()
    )

    """ Output Layer
    """
    self.output_layer = nn.Linear(self.hidden_dim, 1)

    """ Probabilities
    """
    self.probabilities = nn.Sigmoid()

  def forward(self, inputs):
    """
    Let B:= batch_size
        L:= window-padded sentence length
        D:= self.embed_dim
        S:= self.window_size
        H:= self.hidden_dim

    inputs: a (B, L) tensor of token indices
    """
    B, L = inputs.size()

    """
    Reshaping.
    Takes in a (B, L) LongTensor
    Outputs a (B, L~, S) LongTensor
    """
    # Fist, get our word windows for each word in our input.
    token_windows = inputs.unfold(1, 2 * self.window_size + 1, 1)
    _, adjusted_length, _ = token_windows.size()

    # Good idea to do internal tensor-size sanity checks, at the least in comments!
    assert token_windows.size() == (B, adjusted_length, 2 * self.window_size + 1)

    """
    Embedding.
    Takes in a torch.LongTensor of size (B, L~, S)
    Outputs a (B, L~, S, D) FloatTensor.
    """
    embedded_windows = self.embeds(token_windows)

    """
    Reshaping.
    Takes in a (B, L~, S, D) FloatTensor.
    Resizes it into a (B, L~, S*D) FloatTensor.
    -1 argument "infers" what the last dimension should be based on leftover axes.
    """
    embedded_windows = embedded_windows.view(B, adjusted_length, -1)

    """
    Layer 1.
    Takes in a (B, L~, S*D) FloatTensor.
    Resizes it into a (B, L~, H) FloatTensor
    """
    layer_1 = self.hidden_layer(embedded_windows)

    """
    Layer 2
    Takes in a (B, L~, H) FloatTensor.
    Resizes it into a (B, L~, 1) FloatTensor.
    """
    output = self.output_layer(layer_1)

    """
    Softmax.
    Takes in a (B, L~, 1) FloatTensor of unnormalized class scores.
    Outputs a (B, L~, 1) FloatTensor of (log-)normalized class scores.
    """
    output = self.probabilities(output)
    output = output.view(B, -1)

    return output

### Entrenamiento

Pongámolos todo junto. Empecemos preparando nuestros datos y inicializando nuestro modelo. Luego podemos inicializar nuestro optimizador y definir nuestra función de pérdida. Esta vez, en lugar de usar una de las funciones de pérdida predefinidas como hicimos antes, definiremos nuestra propia función de pérdida.

In [None]:
# Prepare the data
data = list(zip(train_sentences, train_labels))
batch_size = 2
shuffle = True
window_size = 2
collate_fn = partial(custom_collate_fn, window_size=window_size, word_to_ix=word_to_ix)

# Instantiate a DataLoader
loader = DataLoader(data, batch_size=batch_size, shuffle=shuffle, collate_fn=collate_fn)

# Initialize a model
# It is useful to put all the model hyperparameters in a dictionary
model_hyperparameters = {
    "batch_size": 4,
    "window_size": 2,
    "embed_dim": 25,
    "hidden_dim": 25,
    "freeze_embeddings": False,
}

vocab_size = len(word_to_ix)
model = WordWindowClassifier(model_hyperparameters, vocab_size)

# Define an optimizer
learning_rate = 0.01
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

# Define a loss function, which computes to binary cross entropy loss
def loss_function(batch_outputs, batch_labels, batch_lengths):
    # Calculate the loss for the whole batch
    bceloss = nn.BCELoss()
    loss = bceloss(batch_outputs, batch_labels.float())

    # Rescale the loss. Remember that we have used lengths to store the
    # number of words in each training example
    loss = loss / batch_lengths.sum().float()

    return loss

A diferencia de nuestro ejemplo previo, esta vez en lugar de pasar todos nuestros datos de entrenamiento al modelo de una vez en cada época, utilizaremos lotes. Por lo tanto, en cada iteración de época de entrenamiento, también iteraremos sobre los lotes.

In [None]:
# Function that will be called in every epoch
def train_epoch(loss_function, optimizer, model, loader):

  # Keep track of the total loss for the batch
  total_loss = 0
  for batch_inputs, batch_labels, batch_lengths in loader:
    # Clear the gradients
    optimizer.zero_grad()
    # Run a forward pass
    outputs = model.forward(batch_inputs)
    # Compute the batch loss
    loss = loss_function(outputs, batch_labels, batch_lengths)
    # Calculate the gradients
    loss.backward()
    # Update the parameteres
    optimizer.step()
    total_loss += loss.item()

  return total_loss


# Function containing our main training loop
def train(loss_function, optimizer, model, loader, num_epochs=10000):

  # Iterate through each epoch and call our train_epoch function
  for epoch in range(num_epochs):
    epoch_loss = train_epoch(loss_function, optimizer, model, loader)
    if epoch % 100 == 0: print(epoch_loss)

Let's start training!

In [None]:
num_epochs = 1000
train(loss_function, optimizer, model, loader, num_epochs=num_epochs)

### Predicción

Veamos como nuestro modelo se desempeña en un ejemplo de prueba.

In [None]:
# Create test sentences
test_corpus = ["She comes from Paris"]
test_sentences = [s.lower().split() for s in test_corpus]
test_labels = [[0, 0, 0, 1]]

# Create a test loader
test_data = list(zip(test_sentences, test_labels))
batch_size = 1
shuffle = False
window_size = 2
collate_fn = partial(custom_collate_fn, window_size=2, word_to_ix=word_to_ix)
test_loader = torch.utils.data.DataLoader(test_data,
                                           batch_size=1,
                                           shuffle=False,
                                           collate_fn=collate_fn)

In [None]:
for test_instance, labels, _ in test_loader:
  outputs = model.forward(test_instance)
  print(labels)
  print(outputs)