[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/juansensio/blog/blob/master/115_pt2/115_pt2.ipynb)

# Pytorch 2.0 

[Pytorch 2.0](https://pytorch.org/) ya está aquí 🎉🎉🎉 Tras varios meses en fase beta, la segunda versión de nuestro framework favorito de deep learning ya está disponible. Si ya sabes trabajar con Pytorch, este post te servirá para refrescar algunos conocimientos básicos a la vez que aprenderás sobre las novedades de Pytorch 2.0. Por otro lado, si no sabes nada de Pytorch, este post te servirá como introducción para aprender a usarlo desde cero.

> En mi canal de Yotube tengo una [lista](https://www.youtube.com/watch?v=WL50sQVdQFg&list=PLkgbkukKg_Nrk7OtpwZEdVa10LijfpyZ1) de reproducción con todos los vídeos que he grabado sobre Pytorch. Te recomiendo que le eches un vistazo si quieres aprender más sobre este framework.

## ¿Qué es Pytorch?

`Pytorch` es un framework de `redes neuronales`, un conjunto de librerías y herramientas que nos hacen la vida más fácil a la hora de diseñar, entrenar y poner en producción nuestros modelos de `Deep Learning`. Una forma sencilla de entender qué es `Pytorch` es la siguiente:

$$ Pytorch = Numpy + Autograd + GPU $$

Quizás la característica más relevante de Pytorch es su facilidad de uso. Esto es debido a que sigue una interfaz muy similar a la de `NumPy`, por lo que si estás familiarizado con esta librería no debería costarte mucho usar `Pytorch` 😁.

> Si no conces `Numpy` te recomiendo que le eches un vistazo a este [post](https://www.sensiocoders.com/blog/007_numpy).

Sin embargo, la funcionalidad más importante que `Pytorch` ofrece es la conocidad como `autograd`, la cual nos proporciona la posibilidad de calcular derivadas de manera automática con respecto a cualquier `tensor`. Esto le da a Pytorch un gran potencial para diseñar redes neuronales complejas y entrenarlas utilizando algoritmos de descenso por gradiente sin tener que calcular todas estas derivadas manualmente. Para poder llevar a cabo estas operaciones, Pytorch va construyendo de manera dinámica un `grafo computacional`. Cada vez que aplicamos una operación sobre uno o varios tensores, éstos se añaden al grafo computacional junto a la operación en concreto. De esta manera, si queremos calcular la derivada de cualquier valor con respecto a cualquier tensor, simplemente tenemos que aplicar el algoritmo de `backpropagation` (que no es más que la regla de la cadena de la derivada) en el grafo.

Para que todo esto funcione de manera eficiente, Pytorch nos d ala posibilidad de ejecutar nuestro códigp en `GPU`s. Esto es posible gracias a que Pytorch está construido sobre `CUDA`, una librería de `C++` que nos permite programar en `GPU`. Por lo tanto, si tienes una `GPU` disponible, Pytorch la utilizará sin prácticamente ningún cambio en tu código para acelerar los cálculos. Si no tienes una GPU, puedes usar servicios como [Google Colab](https://colab.research.google.com/) o [Kaggle](https://www.kaggle.com/) para ejecutar tu código en la nube.

## Instalación

El primer paso para empezar a trabajar con `Pytorch` es instalarlo. Para ello, puedes seguir las instrucciones que aparecen en la [página oficial](https://pytorch.org/). En mi caso, voy a instalarlo usando `conda` en un ordenador con Linux y con soporte `GPU`:

```bash
conda install pytorch torchvision pytorch-cuda=11.7 -c pytorch -c nvidia
```

> Si no sabes como instalar `Python` o `Conda` en tu sistema, puedes aprender a hacerlo en este [post](https://www.sensiocoders.com/blog/001_python). También te recomiendo crear un entorno virtual para tu nueva instalación, así evitarás conflictos con otros proyectos que tengas en marcha. 

En el momento de escribir este post el comando anterior instalará la versión de `Pytorch` 2.0, en el momento en el que tu lo hagas instalará la versión más reciente hasta la fecha. Para instalar versiones diferentes vista https://pytorch.org/get-started/previous-versions/.

Una vez instalado ya podrás empezar a trabajar con `Pytorch` 🎉🎉🎉

In [1]:
import torch 

torch.__version__

'2.0.0.dev20230213+cu117'

Para saber si la `GPU` está disponible, puedes ejecutar

In [3]:
torch.cuda.is_available()

True

El siguiente comando te dará información sobre tu sistema (si no funciona deberás primero instalar los drivers de `NVIDIA`).

In [5]:
!nvidia-smi

Fri Mar 17 09:21:19 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.05    Driver Version: 525.85.05    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  Off  | 00000000:17:00.0 Off |                  N/A |
|  0%   51C    P8    20W / 350W |     29MiB / 24576MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA GeForce ...  Off  | 00000000:65:00.0 Off |                  N/A |
|  0%   55C    P8    18W / 350W |      8MiB / 24576MiB |      0%      Default |
|       

## Primeros pasos

Como comentabamos antes, `Pytorch` es muy similar a `Numpy`. Si bien el objeto principal en `Numpy` es el `array`, en `Pytorch` es el `tensor`. Un `tensor` es una matriz multidimensional con un tipo de datos concreto. Por ejemplo, podemos crear un `tensor` de 2x2 con ceros de la siguiente manera

In [6]:
x = torch.zeros(2, 2)
x

tensor([[0., 0.],
        [0., 0.]])

Puedes crear tensores con valores aleatorios

In [7]:
x = torch.randn(3)
x

tensor([ 0.4138, -1.2505,  1.7116])

E incluso a partir de una lista de `Python`

In [8]:
x = torch.tensor([[1, 2, 3],[4, 5, 6]])
x

tensor([[1, 2, 3],
        [4, 5, 6]])

U otro array de `Numpy`

In [9]:
import numpy as np

a = np.array([[1, 2],[4, 5],[5, 6]])
x = torch.from_numpy(a)
x


tensor([[1, 2],
        [4, 5],
        [5, 6]])

Y como puedes esperar, prácticamente todos los conceptos que ya conocemos para trabajar con `NumPy` pueden aplicarse en `Pytorch`. Esto incluye operaciones aritméticas, indexado y troceado, iteración, vectorización y broadcasting.

In [10]:
# operaciones

x = torch.randn(3, 3)
y = torch.randn(3, 3)

x, y

(tensor([[ 0.6728,  0.9216,  0.8660],
         [ 1.0015, -0.8939, -0.5014],
         [-0.1115,  0.5152, -1.9924]]),
 tensor([[ 2.7507, -0.0587, -0.2631],
         [ 1.5583, -1.4058, -0.8143],
         [ 0.2762, -1.2231,  0.1632]]))

In [11]:
x + y

tensor([[ 3.4234,  0.8629,  0.6029],
        [ 2.5597, -2.2997, -1.3157],
        [ 0.1647, -0.7079, -1.8293]])

In [12]:
x - y

tensor([[-2.0779,  0.9804,  1.1291],
        [-0.5568,  0.5119,  0.3129],
        [-0.3877,  1.7382, -2.1556]])

In [13]:
# indexado

# primera fila

x[0]

tensor([0.6728, 0.9216, 0.8660])

In [14]:
# primera fila, primera columna

x[0, 0]

tensor(0.6728)

In [15]:
# primera columna

x[0, :]

tensor([0.6728, 0.9216, 0.8660])

In [16]:
# troceado

x[:-1, 1:]

tensor([[ 0.9216,  0.8660],
        [-0.8939, -0.5014]])

Una funcionalidad importante del objeto `tensor` que utilizaremos muy a menudo es cambiar su forma. Esto lo conseguimos con la función `view`.

In [17]:
x.shape

torch.Size([3, 3])

In [18]:
# añadimos una dimensión extra

x.view(1, 3, 3).shape

torch.Size([1, 3, 3])

In [19]:
# estiramos en una sola dimensión

x.view(9).shape

torch.Size([9])

In [20]:
# usamos -1 para asignar todos los valores restantes a una dimensión

x.view(-1).shape

torch.Size([9])

Podemos transformar un `tensor` en un `array` con la función `numpy`.

In [21]:
x.numpy()

array([[ 0.6727659 ,  0.9216496 ,  0.8660151 ],
       [ 1.0014533 , -0.89388263, -0.5014171 ],
       [-0.11146717,  0.51517314, -1.9924315 ]], dtype=float32)

Para aprender más sobre cómo funcionan estos tensores, puedes cosultar la [documentación](https://pytorch.org/docs/stable/tensors.html) y este [ejemplo](https://pytorch.org/tutorials/beginner/basics/tensorqs_tutorial.html)

### Autograd

Vamos a ver un ejemplo de `autograd` en acción para el cálculo de derivadas automáticas. Para ello, consideremos el siguiente grafo computacional sencillo:

![](https://www.tutorialspoint.com/python_deep_learning/images/computational_graph_equation2.jpg)

Tenemos tres `tensores`, $x$, $y$ y $z$, los cuales combinamos con diferente operacion para calcular $g$. ¿Cómo podemos encontrar la derivada de $g$ con respecto a cada uno de los tensores a la entrada?. Para el caso de $z$ esto es sencillo:

$$ \frac{dg}{dz} = p = x + y$$

En el caso de $x$ y $y$ es un poco más complicado, ya que tenemos que aplicar la regla de la cadena de la derivada:

$$ \frac{dg}{dx} = \frac{dg}{dp} \frac{dp}{dx} = z $$
$$ \frac{dg}{dy} = \frac{dg}{dp} \frac{dp}{dy} = z $$

Si bien en este ejemplo sencillo lo hemos podido calcular a mano, imagina tener que hacer esto en redes neuronales con miles de millones de parámetros... imposible. `Autograd` nos permite calcular estas derivadas de manera automática. 

In [22]:
x = torch.tensor(1., requires_grad=True)
y = torch.tensor(2., requires_grad=True)
p = x + y

z = torch.tensor(3., requires_grad=True)
g = p * z

Para ello marcaremos los `tensores` de los cuales queremos calcular derivadas con la función `requires_grad`. Llamado a la función `backwerd` sobre el `tensor` de salida, `autograd` calculará las derivadas de manera automática y las almacenará en el atributo `grad` de cada `tensor`.

In [23]:
g.backward()

In [24]:
z.grad # x + y

tensor(3.)

In [25]:
x.grad # z

tensor(3.)

In [26]:
y.grad # z

tensor(3.)

Como puedes ver, el `grafo computacional` es una herramienta extraordinaria para diseñar `redes neuronales` de complejidad arbitraria. Con una simple función, gracias al algoritmo de `backpropagation`, podemos calcular todas las derivadas de manera sencilla (cada nodo que representa una operación solo necesita calcular su propia derivada de manera local) y optimizar el modelo con nuestro algoritmo de gradiente preferido.

Añadiendo `autograd` encima de `NumPy`, `Pytorch` nos ofrece todo lo que necesitamos para diseñar y entrenar `redes neuronales`. Puedes aprender más sobre `autograd` [aquí](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py). Sin embargo, si queremos entrenar redes muy grandes o utilizar datasets muy grandes (o ambas), el proceso de entrenamiento será muy lento. Es aquí donde entra en juego el último elemento que hace de `Pytorch` lo que es. 

### GPU

La última pieza que nos falta explorar es la posibilidad de ejecutar nuestro código en `GPU`. Para ello, solo tenemos que crear nuestros `tensores` en la `GPU` y ejecutar las operaciones de la misma manera. ¡Super sencillo!

In [27]:
x = torch.randn(3, 3, device="cuda")
y = torch.randn(3, 3, device="cuda")

x * y

tensor([[ 0.1163,  1.3992, -0.1445],
        [ 0.1049, -0.8788,  0.1888],
        [-0.0563, -0.3175, -0.1959]], device='cuda:0')

Las siguientes son todas formas válidas de crear un `tensor` en la `GPU`

In [28]:
device = torch.device("cuda")           # device = "cuda" también sirve

x = torch.randn(3, 3, device=device)    # crea el tensor en la GPU

x = torch.randn(3, 3)
x = x.to(device)                        # mueve el tensor a la GPU (menos eficiente)
x = x.cuda()                            # mueve el tensor a la GPU (menos eficiente)    

device = "cuda:0"                       # selecciona la primera GPU, si hay más de una - "cuda:1", "cuda:2", etc.
x = torch.randn(3, 3, device=device)   
x

tensor([[ 0.0583, -0.7141,  1.2601],
        [ 0.2507,  0.3607,  1.4643],
        [-0.7026,  1.0362, -0.4796]], device='cuda:0')

Puedes copiar un tensor de la `GPU` a la `CPU` con la función `cpu`

In [29]:
device = torch.device("cpu")

x = x.cpu()
x = x.to("cpu")
x = x.to(device)

El siguiente ejemplo ilustra porque es importante ejecutar nuestro código en `GPU`. En este caso, vamos a calcular el tiempo que tarda en ejecutarse la multiplicación de dos matrices grandes.

In [32]:
# en cpu

x = torch.randn(10000,10000)
y = torch.randn(10000,10000)

%time z = x*y

CPU times: user 213 ms, sys: 177 ms, total: 391 ms
Wall time: 40.5 ms


In [33]:
# en gpu

x = torch.randn(10000,10000).cuda()
y = torch.randn(10000,10000).cuda()

%time z = x*y

CPU times: user 0 ns, sys: 17.3 ms, total: 17.3 ms
Wall time: 17.2 ms


## Redes Neuronales

Pues ahora que ya conocemos los conceptos básicos de `Pytorch` vamos a ver como podemos diseñar redes neuronales. 

### Modelos secuenciales

La forma más sencilla de definir una `red neuronal` en `Pytorch` es utilizando la clase `Sequentail`. Esta clase nos permite definir una secuencia de capas, que se aplicarán de manera secuencial (las salidas de una capa serán la entrada de la siguiente). Vamos a definir un `Perceptrón Multicapa (MLP)`.

> Puedes aprender más sobre `Perceptrones Multicapa` en este [post](https://www.sensiocoders.com/blog/023_mlp_backprop).

In [34]:
D_in, H, D_out = 784, 100, 10

model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

model

Sequential(
  (0): Linear(in_features=784, out_features=100, bias=True)
  (1): ReLU()
  (2): Linear(in_features=100, out_features=10, bias=True)
)

El modelo anterior es un `MLP` con 784 entradas, una capa oculta de 100 neuronas y 10 salidas. Para *ejectuar* el modelo, podemos llamarlo como de si una función se tratase, pasando como argumento el tensor con los *inputs*.

> La capa de tipo `Linear` espera un tensor de 2 dimensiones, en la cual la primera es la dimensión del `batch` que puedes ser arbitraria y la segunda tiene que coincidir con el número de neuronas especificado, en nuestro ejemplo 784 en la primera capa y 100 en la segunda.

In [36]:
outputs = model(torch.randn(64, 784))
outputs.shape

torch.Size([64, 10])

De la misma manera que hemos visto antes con los tensores, podemos enviar nuestro modelo a la `GPU` para acelerar las operaciones internas.

In [38]:
model.cuda()
x = torch.randn(64, 784).cuda()

outputs = model(x)
outputs.shape, outputs.device

(torch.Size([64, 10]), device(type='cuda', index=0))

### Modelos personalizados

Si bien los modelos secuenciales son útiles para definir redes neuronales sencillas, en la práctica casi siempre necesitaremos definir redes más complejas. Para ello, podemos definir nuestras propias clases que hereden de la clase `Module` de `Pytorch`. Esta clase nos permite definir modelos de manera más flexible, ya que nos permite diseñar la lógica de ejecución del modelo a nuestro gusto.

In [39]:
class Model(torch.nn.Module):
    
    # constructor
    def __init__(self, D_in=784, H=100, D_out=10):
        
        # llamamos al constructor de la clase madre
        super(Model, self).__init__()
        
        # definimos nuestras capas
        self.fc1 = torch.nn.Linear(D_in, H)
        self.relu = torch.nn.ReLU()
        self.fc2 = torch.nn.Linear(H, D_out)
        
    # lógica para calcular las salidas de la red
    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

En primer lugar, necesitamos definir una nueva clase que herede de la clase `torch.nn.Module`. Esta clase madre aportará toda la funcionalidad esencial que necesita una `red neuronal` (soporte GPU, iterar por sus parámeteros, etc). Luego, en esta clase necesitamos definir mínimos dos funciones: 

- `init`: en el constructor llamaremos al constructor de la clase madre y después definiremos todas las capas que querramos usar en la red.
- `forward`: en esta función definimos toda la lógica que aplicaremos desde que recibimos los inputs hasta que devolvemos los outputs.

En el ejemplo anterior simplemente hemos replicado la misma red (puedes conseguir el mismo efecto usando la clase `Sequential`).

In [40]:
model = Model(784, 100, 10)
outputs = model(torch.randn(64, 784))
outputs.shape

torch.Size([64, 10])

### Compilando modelos

Una de las novedades que `Pytorch 2.0` introduce es la posibilidad de `compilar` el modelo. Esto le permite *analizar* nuestro modelo para su optimización, consiguiendo así un mejor rendimiento durante el entrenamiento.

In [42]:
model_compiled = torch.compile(model) 

Puedes aprender más sobre esta funcionalidad [aquí](https://pytorch.org/get-started/pytorch-2.0/).

## Datasets

A la hora de entrenar una red neuronal, necesitamos un conjunto de datos sobre el que entrenar. Para ello, `Pytorch` nos ofrece funcionalidad para su creación e iteración de manera optimizada. Vamos a ver un ejemplo usando el conjunto de datos `MNIST`, que podemos descargar usando `Scikit-Learn`.

In [44]:
from sklearn.datasets import fetch_openml
import numpy as np


# mnist = fetch_openml('mnist_784', version=1)
# X, y = mnist["data"].values.astype(float).reshape(-1, 28, 28) / 255., mnist["target"].values.astype(int)
# np.savez_compressed("mnist.npz", X=X, y=y)

# la descarga puede tardar un rato, así que te recomiendo comentar las líneas anteriores después
# de ejecutarlas la primera vez y descomentar las siguientes para cargar los datos desde el disco

X, y = np.load("mnist.npz")["X"], np.load("mnist.npz")["y"]

X.shape, y.shape

((70000, 28, 28), (70000,))

### El `DataLoader`