# Pytorch - Introducción

In [1]:
import torch

## ¿ Qué es Pytorch ?

`Pytorch` es un framework de `redes neuronales`, un conjunto de librerías y herramientas que nos hacen la vida más fácil a la hora de diseñar, entrenar y poner en producción nuestros modelos de `Deep Learning`. Una forma sencilla de entender qué es `Pytorch` es la siguiente:

$$ Pytorch = Numpy + Autograd + GPU $$

Vamos a ver qué significa cada uno de estos términos.

## NumPy

Quizás la característica más relevante de `Pytorch` es su facilidad de uso. Esto es debido a que sigue una interfaz muy similar a la de `NumPy`, y como nosotros ya sabemos trabajar con esta librería no deberíamos tener muchos problemas para aprender a trabajar con `Pytorch` 😁.

De la misma manera que en `NumPy` el objeto principal es el `ndarray`, en `Pytorch` el objeto principal es el `tensor`. Podemos definir un tensor de manera similar a como definimos un array, incluso podemos inicializar tensores a partir de arrays.

In [2]:
# matriz de ceros, 5 filas y 3 columnas

x = torch.zeros(5, 3)
x

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [3]:
# tensor con valores aleatorios

x = torch.randn(5, 3, 2)
x

tensor([[[ 0.4085,  0.1492],
         [-0.3065, -0.3972],
         [-0.9104,  0.4946]],

        [[-1.0368, -1.8317],
         [-0.2983,  0.1285],
         [-0.2682, -1.6739]],

        [[ 0.1817, -0.4391],
         [-1.5879,  0.4627],
         [ 0.4037,  0.2123]],

        [[ 0.8303,  0.2736],
         [-1.5003,  0.7714],
         [-0.8558,  0.1547]],

        [[ 1.2789,  1.3012],
         [ 0.3494,  2.0338],
         [-1.3126, -0.1815]]])

In [4]:
# tensor a partir de lista 

x = torch.tensor([[1, 2, 3],[4, 5, 6]])
x

tensor([[1, 2, 3],
        [4, 5, 6]])

In [5]:
import numpy as np

# tensor a partir de array

a = np.array([[1, 2, 3],[4, 5, 6]])
x = torch.from_numpy(a)
x

tensor([[1, 2, 3],
        [4, 5, 6]], dtype=torch.int32)

Y como puedes esperar, prácticamente todos los conceptos que ya conocemos para trabajar con `NumPy` pueden aplicarse en `Pytorch`. Esto incluye operaciones aritméticas, indexado y troceado, iteración, vectorización y broadcasting.

In [6]:
# operaciones

x = torch.randn(3, 3)
y = torch.randn(3, 3)

x, y

(tensor([[ 0.6251,  0.2682, -0.0485],
         [ 1.7609,  0.0925,  0.1266],
         [ 0.3453, -1.6688,  0.4845]]),
 tensor([[-1.0122, -0.7118, -0.2288],
         [ 2.0132, -1.6643,  0.8877],
         [ 0.3299,  0.9017,  0.1258]]))

In [7]:
x + y

tensor([[-0.3871, -0.4436, -0.2773],
        [ 3.7740, -1.5718,  1.0144],
        [ 0.6752, -0.7671,  0.6103]])

In [8]:
x - y

tensor([[ 1.6373,  0.9800,  0.1804],
        [-0.2523,  1.7568, -0.7611],
        [ 0.0154, -2.5705,  0.3587]])

In [9]:
# indexado

# primera fila

x[0]

tensor([ 0.6251,  0.2682, -0.0485])

In [10]:
# primera fila, primera columna

x[0, 0]

tensor(0.6251)

In [11]:
# primera columna

x[0, :]

tensor([ 0.6251,  0.2682, -0.0485])

In [12]:
# troceado

x[:-1, 1:]

tensor([[ 0.2682, -0.0485],
        [ 0.0925,  0.1266]])

Una funcionalidad importante del objeto `tensor` que utilizaremos muy a menudo es cambiar su forma. Esto lo conseguimos con la función `view`.

In [13]:
x.shape

torch.Size([3, 3])

In [14]:
# añadimos una dimensión extra

x.view(1, 3, 3).shape

torch.Size([1, 3, 3])

In [15]:
# estiramos en una sola dimensión

x.view(9).shape

torch.Size([9])

In [16]:
# usamos -1 para asignar todos los valores restantes a una dimensión

x.view(-1).shape

torch.Size([9])

Podemos transformar un `tensor` en un `array` con la función `numpy`.

In [17]:
x.numpy()

array([[ 0.6251061 ,  0.26821104, -0.04845389],
       [ 1.7608535 ,  0.09249022,  0.12663704],
       [ 0.34528732, -1.6688324 ,  0.4844624 ]], dtype=float32)

Como puedes ver, un `tensor` de `Pytorch` es muy similar a un `array` de `NumPy`. Aquí hemos visto alguna de la funcionalidad más útil, puedes aprender más [aquí](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py).

## Autograd

Ya hemos visto que `Pytorch` es muy similar a `NumPy`, sin embargo su funcionalidad va más allá de una estructura de datos eficiente con la que podemos llevar a cabo operaciones (para eso ya nos basta con `NumPy`). La funcionalidad más importante que `Pytorch` añade es la conocidad como `autograd`, la cual nos proporciona la posibilidad de calcular derivadas de manera automática con respecto a cualquier `tensor`. Esto le da a `Pytorch` un gran potencial para diseñar `redes neuronales` complejas y entrenarlas utilizando algoritmos de gradientes sin tener que calcular todas estas derivadas manualmente (como hemos hecho en los posts anteriores). Para poder llevar a cabo estas operaciones, `Pytorch` va construyendo de manera dinámica un `grafo computacional`. Cada vez que aplicamos una operación sobre uno o varios tensores, éstos se añaden al `grafo computacional` junto a la operación en concreto. De esta manera, si queremos calcular la derivada de cualquier valor con respecto a cualquier tensor, simplemente tenemos que aplicar el algoritmo de `backpropagation` (que no es más que la regla de la cadena de la derivada) en el `grafo`. Vamos a ilustrarlo con un ejemplo.

In [18]:
x = torch.tensor(1., requires_grad=True)
y = torch.tensor(2., requires_grad=True)
p = x + y

z = torch.tensor(3., requires_grad=True)
g = p * z

En la celda anterior hemos definido tres `tensores`: $x$, $y$ y $z$. En primer lugar, para poder calcular derivadas con respecto a estos tensores necesitamos ponder su propiedad `requiers_grad` a `True`. Ahora, calculamos el tensor intermedio $p$ como $p = x+ y$ y luego usamos este valor para calcular el resultado final $g$ como $g = p*z$. Cada vez que aplicamos una operación sobre un tensor que tiene su propiedad `requires_grad` a `True`, `Pytorch` irá construyendo el `grafo computacional`. Para este ejemplo, el grafo tendría la siguiente forma

![](https://www.tutorialspoint.com/python_deep_learning/images/computational_graph_equation2.jpg)

Si ahora queremos calcular las derivadas de $g$ con respecto a $x$, $y$ y $z$, es tan fácil como llamar a la función `backward`.

In [19]:
g.backward()

En este punto, `Pytorch` ha aplicado el algoritmo de `backpropagation` encima del grafo computacional, calculando todas las derivadas.

$$ \frac{dg}{dz} = p $$

In [20]:
z.grad

tensor(3.)

$$ \frac{dg}{dx} = \frac{dg}{dp} \frac{dp}{dx} = z $$

In [21]:
x.grad

tensor(3.)

$$ \frac{dg}{dy} = \frac{dg}{dp} \frac{dp}{dy} = z $$

In [22]:
y.grad

tensor(3.)

Como puedes ver, el `grafo computacional` es una herramienta extraordinaria para diseñar `redes neuronales` de complejidad arbitraria. Con una simple función, gracias al algoritmo de `backpropagation`, podemos calcular todas las derivadas de manera sencilla (cada nodo que representa una operación solo necesita calcular su propia derivada de manera local) y optimizar el modelo con nuestro algoritmo de gradiente preferido.

> 💡 Sabiendo que el `perceptrón` lleva a cabo la operación $\hat{y} = f(\mathbf{w} \cdot \mathbf{x} + b)$, ¿te ves capaz de dibujar su grafo computacional?

Añadiendo `autograd` encima de `NumPy`, `Pytorch` nos ofrece todo lo que necesitamos para diseñar y entrenar `redes neuronales`. Puedes aprender más sobre `autograd` [aquí](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py). Sin embargo, si queremos entrenar redes muy grandes o utilizar datasets muy grandes (o ambas), el proceso de entrenamiento será muy lento. Es aquí donde entra en juego el último elemento que hace de `Pytorch` lo que es. 

## Gpu

In [23]:
# comprobar que podemos usar GPU

torch.cuda.is_available()

False

In [3]:
x = torch.randn(10000,10000)
y = torch.randn(10000,10000)

%time z = x*y

CPU times: user 205 ms, sys: 283 ms, total: 488 ms
Wall time: 48.3 ms


In [None]:
x = torch.randn(10000,10000).cuda()
y = torch.randn(10000,10000).cuda()

%time z = x*y

Como puedes observar, llevar a cabo operaciones con grandes tensores en una GPU en vez de la CPU puede resultar en una considerable reducción del tiempo de cálculo. Todas las siguientes maneras son válidas para copiar un tensor en una GPU

In [24]:
device = torch.device("cuda")

x = torch.randn((10000,10000), device="cuda")
x = x.cuda()
x = x.to("cuda")
x = x.to(device)

AssertionError: Torch not compiled with CUDA enabled

Y para volver a copiar un `tensor` de vuelta en la CPU

In [25]:
device = torch.device("cpu")

x = x.cpu()
x = x.to("cpu")
x = x.to(device)

Como puedes observar, simplemente definiendo los `tensores` para los pesos y los datos y copiándolos a la GPU podemos definir el `grafo computacional` de manera dinámica aplicando operaciones sobre los tensores (multiplicamos por los pesos y sumamos el *bias*). Una vez tenemos la salida del `MLP` calculamos la función de pérdida y llamando a la función `backward` `Pytorch` se encarga de calcular todas las derivadas de manera automática. Una vez tenemos los gradientes con respecto a los pesos, podemos actualizarlos.

## Resumen

En este post hemos visto una introducción a `Pytorch`, un framework de `redes neuronales` muy utilizado a día de hoy. Hemos visto que `Pytorch` es muy similar a `NumPy` y comparten gran parte de su sintaxis, lo cual es una ventaja si ya sabemos trabajar con `NumPy`. Además, añade `autograd`, la capacidad de construir de manera dinámica un `grafo computacional` de manera que en cualquier momento podemos calcular derivadas con respecto a cualquier tensor de manera automática. Por último, hemos visto como podemos ejecutar todas estas operaciones en una GPU para acelerar el proceso de entrenamiento de nuestros modelos de `Deep Learning`. Este es el núcleo de `Pytorch`.
