## Introducción a PyTorch (Parte 1)

<a target="_blank" href="https://colab.research.google.com/github/pglez82/DeepLearningWeb/blob/master/labs/notebooks/Introducci%C3%B3n%20a%20PyTorch%20(Parte%201).ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

PyTorch es un framework de aprendizaje profundo desarrollado por Facebook, de **código abierto** y con contribuciones de miles de usuarios. Es una alternativa a otros frameworks como TensorFlow o MXNet. El lenguaje de programación utilizado por este framework es Python (aunque muchas de sus partes están programas en otros lenguajes como C++). En este tutorial, vamos a aprender los fundamentos de PyTorch para que puedas utilizarlo en el resto de prácticas.



#### Primeros pasos
Lo primero consiste en ver si tenemos PyTorch instalado y conocer su versión:

In [1]:
import torch
print(torch.__version__)

2.0.1+cpu


si en la salida anterior ves **cpu** será que estás ejecutando una compilación de PyTorch solo con soporte para CPU y no GPU. Si por el contrario quieres ejecutar PyTorch en una máquina con GPU como Google Colab (o incluso tu propia máquina con GPU y Cuda instalado), la salida de este comando debería indicartelo. Ten en cuenta que la versión con GPU también soporta entrenamientos en la CPU (lo contrario no es cierto).

Un aspecto importante en los experimentos que hagamos será la reproducibilidad de resultados. Establecemos una semilla para que todos los números aleatorios generados sean los mismos ejecución tras ejecución:

In [2]:
torch.manual_seed(2032)

<torch._C.Generator at 0x7f8c4db9d110>

#### Tensores

Los tensores son la pieza clave en cualquier framework de aprendizaje profundo. Son equivalentes a los arrays de Numpy pero tienen ciertas diferencias muy importantes:

1. Los tensores **pueden moverse entre diferentes dispositivos**. Es decir, podemos tener un tensor en CPU y moverlo a la GPU y todos los cálculos realizados con este pasarán a realizarse en este dispositivo.
2. Los tensores están preparados para diferenciar sobre ellos (calcular las derivadas parciales necesarias para aplicar descenso de gradiente). 

De todas maneras, una de las principales ventajas de PyTorch es que si sabemos operar con arrays de Numpy, cambiar a hacerlo con tensores será muy sencillo. Vamos a crear nuestro primer Tensor:

In [3]:
x = torch.Tensor(3, 4)
print(x)

tensor([[ 1.1592e+31,  4.5755e-41, -2.0771e+33, -5.1642e+35],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00]])


aquí tenemos un tensor de 3x4 de números reales, inicializado alteatoriamente. Podemos mostrar su dimensión:

In [4]:
print(x.shape)

torch.Size([3, 4])


También es posible inicializar tensores con otros valores, como por ejemplo, ceros, unos o valores aleatorios entre 0 y 1:

In [5]:
print(torch.zeros(3,4))
print(torch.ones(3,4))
print(torch.rand(3,4))

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])
tensor([[0.6282, 0.7710, 0.5404, 0.5480],
        [0.0920, 0.3038, 0.9887, 0.5169],
        [0.7733, 0.7820, 0.8844, 0.8440]])


Otra manera de crear un tensor es hacerlo desde un array de numpy existente:

In [6]:
import numpy as np
np_arr = np.array([[1, 2], [3, 4]])
tensor = torch.from_numpy(np_arr)
print(tensor)
print(tensor.shape)

tensor([[1, 2],
        [3, 4]])
torch.Size([2, 2])


En este case se pude ver que como el array era de números enteros, el tensor resultante mantiene este tipo. Siempre podemos ver el **tipo de los elementos de un tensor** con la siguiente instrucción:

In [7]:
print(tensor.dtype)

torch.int64


Ten en cuenta que **el tipo es crítico** ya que nuestra red va a requerir muchísimos parámetros que al final van a ser tensores y la memoria de nuestros dispositivos es limitada. Te recomiendo el siguiente [enlace](https://pytorch.org/docs/stable/tensors.html) para conocer los diferentes tipos y saber cuando ocupa cada uno en memoria.

Además de crear tensores, muchas veces es interesante convertirlos de vuelta a Numpy. Podemos hacerlo de la siguiente manera:

In [12]:
tensor.cpu().numpy()

array([[1, 2],
       [3, 4]])

Ten en cuenta que la llamada cpu() lo que hace es mover el tensor a la cpu (si no está ya). Es importante hacer esta llamada porque para pasar el tensor a numpy tiene que estar en cpu primero.

Para mover tensores de un dispositivo a otro podemos hacerlo de la siguiente manera.

In [9]:
device = torch.device('cuda:0')
tensor.to(device)

AssertionError: Torch not compiled with CUDA enabled

obviamente para que esto funcione debemos tener PyTorch instalado con soporte para cuda. En este caso **cuda:0** indica que queremos mover el tensor a la primera GPU del sistema.

#### Operaciones con tensores

Existen multitud de operaciones que se pueden realizar con tensores. En el siguiente [enlace](https://pytorch.org/docs/stable/tensors.html#) tienes una descripción completa de todas las operaciones que se pueden realizar. Aquí vamos a describir las más básicas.

In [None]:
t1 = torch.rand(3,2)
t2 = torch.rand(3,2)
suma = t1+t2
print(t1)
print(t2)
print(suma)

tensor([[0.6985, 0.2108],
        [0.1112, 0.1474],
        [0.8116, 0.1859]])
tensor([[0.5345, 0.4596],
        [0.3705, 0.5302],
        [0.5715, 0.7342]])
tensor([[1.2330, 0.6704],
        [0.4817, 0.6776],
        [1.3831, 0.9201]])


ten en cuenta que esta operación crea un nuevo tensor en memoria. En PyTorch es posible también realizar **operaciones sobre los mismos tensores**, para no gastar espacio extra en memoria. Por ejemplo:

In [None]:
t2.add_(t1)

tensor([[1.2330, 0.6704],
        [0.4817, 0.6776],
        [1.3831, 0.9201]])

Tenemos otras operaciones disponibles pero en general, **las operaciones básicas que puedes hacer con Numpy también se pueden hacer con tensores**:

In [None]:
t1 = torch.rand(3,2)
t2 = torch.rand(3,2)
print(t1)
print(t2)
print("Resta:")
print(t1-t2)
print("Multiplicación por un escalar:")
print(t1*3)
print("Multiplicación de matrices elemento a elemento:")
print(t1*t2)
print("Multiplicación de matrices normal:")
#Importante: estamos haciendo la transpuesta de t2 para poder multiplicarlas y que coincidan las dimesiones
print(t1@t2.T)

tensor([[0.5509, 0.3334],
        [0.6467, 0.6114],
        [0.5946, 0.2229]])
tensor([[0.9496, 0.4570],
        [0.3760, 0.8771],
        [0.2750, 0.2668]])
Resta:
tensor([[-0.3988, -0.1236],
        [ 0.2707, -0.2657],
        [ 0.3196, -0.0439]])
Multiplicación por un escalar:
tensor([[1.6526, 1.0002],
        [1.9402, 1.8343],
        [1.7837, 0.6687]])
Multiplicación de matrices elemento a elemento:
tensor([[0.5231, 0.1524],
        [0.2432, 0.5363],
        [0.1635, 0.0595]])
Multiplicación de matrices normal:
tensor([[0.6755, 0.4996, 0.2404],
        [0.8936, 0.7795, 0.3410],
        [0.6665, 0.4191, 0.2230]])


#### Cambio de la forma de un tensor

En muchas ocasiones necesitamos cambiar la forma de un tensor, para luego poder operar con él correctamente. Para esto es muy adecuada la función **view**:

In [None]:
#arange crea un tensor con valores desde 0 hasta n-1
t1 = torch.arange(10)
print(t1)

#digamos que queremos una matriz de 5x2
print(t1.view(5,2))

#También podemos inferir dimensiones
print(t1.view(5,-1))

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])
tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])


es interesante entender que view devuelve un nuevo tensor pero que comparte la estructura interna con el tensor original, es decir, no estamos almacenando los datos de nuevo, sino simplemente **dándoles otra forma**.

#### Indexado
El indexado funciona de igual manera que en Numpy. Veamos algunos ejemplos:

In [None]:
t1 = torch.arange(12).view(3,4)
print(t1)

print("Solo la segunda fila (empieza a contar en cero):")
print(t1[1,:])
print("Solo la última columna:")
print(t1[:,-1])
print("Seleccionar el primer elemento de las dos primeras filas:")
print(t1[:2,0])

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
Solo la segunda fila (empieza a contar en cero):
tensor([4, 5, 6, 7])
Solo la última columna:
tensor([ 3,  7, 11])
Seleccionar el primer elemento de las dos primeras filas:
tensor([0, 4])


### Ejercicios propuestos
1. Navega por la documentación de PyTorch (https://pytorch.org/docs/stable/torch.html) y busca un par de funciones interesantes para operar con tensores que no aparezcan en este notebook.
2. Cambia el tipo de dispositivo de tu máquina en google colab y trata de ejecutar el código anterior en diferentes dispositivos. Usa el atributo del tensor `device` para conocer en que dispositivo se encuentra.
3. Intenta realizar una operación con dos tensores que se encuentren en dispositivos diferentes. ¿Qué sucede en este caso?