In [1]:
import torch

# Introducción a Pytorch

A continuación se dará una breve introducción al framework [Pytorch](https://pytorch.org/tutorials/) que nos va a servir a nosotros para estudiar y crear modelos utilizados en *machine Learning* y *deep learning*. Se supone para el tutorial que se tienen los conocimientos básicos de teoría de aprendizaje y decisión, y que se conocen los algoritmos básicos como regresión por cuadrados mínimos, regresión logística, etc.

## Tensores y GPUs

A diferencia de otros frameworks conocidos como *Tensorflow*, la idea de trabajar con *Pytorch* es utilizar una librería numérica (como Numpy) sobre una o más GPUs. Tan simple como eso. Es decir, este módulo intenta que no haya que pensar en el grafo computacional que está siendo ejecutado detrás de escena, en el cálculo de gradientes o en otras cosas como estas. Como regla general: Pytorch es Numpy + GPUs.

De esta manera, puedo definir y manipular tensores con instrucciones simples:

In [2]:
x1 = torch.tensor([1,2,3]) # Tensor de tamaño 3
x2 = torch.zeros(3,3) # Tensor de tamaño 3x3
x3 = torch.rand(3) * x1 # Producto componente a componente de dos tensores de tamaño 3

print(x1)
print(x2)
print(x3)

tensor([1, 2, 3])
tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
tensor([0.8500, 1.0369, 0.0511])


En [este](https://pytorch.org/docs/stable/torch.html) link se encuentran las opciones para construir tensores y las operaciones numéricas para realizar entre ellos. Otras funcionalidades muy utilizadas en la práctica son:

Operaciones de construcción:
* `torch.zeros(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False)`
* `torch.ones(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False)`
* `torch.from_numpy(ndarray)`

Operaciones de manipulación:
* `torch.squeeze(input, dim=None, out=None)`
* `torch.transpose(input, dim0, dim1)`

Operaciones de sampleo:
* `torch.randn(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False)`
* `torch.randint(*size, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False)`

Operaciones matemáticas y de reducción:
* `torch.exp(input, out=None)`
* `torch.logsumexp(input, out=None)`
* `torch.argmax(input)`

Operaciones propias de la clase `torch.Tensor`:
* `torch.Tensor.view(*shape)`
* `torch.Tensor.size()`

In [None]:
# Mostrar algún ejemplo chiquitito

Ahora bien, en todas las operaciones anteriores la creación y manipulación de los tensores se hizo sobre la CPU, dado que es el dispositivo predeterminado en Pytorch. Es posible (una vez [instalado CUDA](https://docs.nvidia.com/cuda/index.html) apropiadamente) crear y manipular tensores en la GPU, lo cual acelera el proceso enormemente.

In [2]:
import time

def test_speed(device_name,rep=1):
    device = torch.device(device_name)
    tic1 = time.time()
    x = torch.randn(1024,10000,device=device)
    w = torch.randn(10000,30000,device=device)
    tic2 = time.time()
    for i in range(rep):
        y = torch.matmul(x,w)
    tic3 = time.time()
    print('Dispositivo: {}. Cantidad de repeticiones: {}. Duración: {:.2f}ms + {:.2f}ms = {:.2f}ms'\
          .format(device_name,rep,(tic2-tic1)*1e3,(tic3-tic2)*1e3,(tic3-tic1)*1e3))

test_speed('cpu',1)
test_speed('cpu',100)
test_speed('cuda',1)
test_speed('cuda',100)

Dispositivo: cpu. Cantidad de repeticiones: 1. Duración: 1514.93ms + 943.54ms = 2458.47ms
Dispositivo: cpu. Cantidad de repeticiones: 100. Duración: 1607.23ms + 103207.04ms = 104814.27ms
Dispositivo: cuda. Cantidad de repeticiones: 1. Duración: 2088.54ms + 151.04ms = 2239.59ms
Dispositivo: cuda. Cantidad de repeticiones: 100. Duración: 0.20ms + 0.81ms = 1.01ms


Notemos, en primer lugar, que el tiempo de creación de tensores en CPU es más o menos cada vez que se llama a la función `test_speed()`, mientras que para la GPU hay una diferencia abismal. Por otra parte, en la CPU, el tiempo que tarda en realizar 100 repeticiones de la misma cuenta es aproximadamente 100 veces el tiempo que tarda en realizar 1 vez la cuenta. Por otra parte, en la GPU no hay una relación tan directa... de hecho, es más rápido hacer 100 repeticiones que 1 sola! Esto no es así siempre, pero es evidente que el paralelismo de la GPU se encarga de alinealizar la complejidad algorítmica :)

Por otra parte, hay que tener cuidado con la creación de tensores en la GPU, puesto que a veces es mayor el *overhead* para la GPU que para la CPU.

## Diferenciación automática

Además de poder realizar operaciones en GPUs, Pytorch permite armar funciones tensoriales y calcular gradientes de manera automática. Con esto, es posible crear todo tipo de modelos y aplicar algún algoritmo de gradiente descendiente para estimar sus parámetros. 

### Grafos computacionales

Un grafo computacional no es más que un conjunto de funciones tensoriales representadas por medio de nodos y de flechas que ingresan (entradas) y que salen (salidas) de él. A su vez, estas funciones se conectan entre sí mediante sus entradas y sus salidas para formar un grafo, que a su vez tendrá una entrada y una salida global. De esta manera, un grafo no es más que una función tensorial compuesta. 

Por ejemplo, supongamos que definimos un modelo de regresión logística con una entrada $\mathbf{x}$ y un conjunto de parámetros $\{ \mathbf{w}, b \}$:

$$
h_{\mathbf{w},b}(\mathbf{x}) = \sigma(\mathbf{w}^T \mathbf{x} + b)
$$

La salida del modelo es un número escalar entre 0 y 1, que representa la probabilidad de que $\mathbf{x}$ pertenezca a la clase 1. Además, podemos definir el costo de un conjunto de muestras $\{ \mathbf{x}_i, y_i\}_{i=1}^N$ cuando se utilizaron los parámetros $\mathbf{w}$ y $b$ para calcular la salida. Supongamos, a modo de ejemplo, que el costo está definido en este caso por la cross entropy para dos clases:

$$
\begin{align*}
loss(\mathbf{w},b) &= \sum_{i=1}^N y_i \log\left(\sigma(\mathbf{w}^T \mathbf{x}+b)\right) + (1-y_i) \log\left(1-\sigma(\mathbf{w}^T \mathbf{x}+b)\right)\\
&=\sum_{i=1}^N y_i \log\left(h_{\mathbf{w},b}(\mathbf{x})\right) + (1-y_i) \log\left(1-h_{\mathbf{w},b}(\mathbf{x})\right)
\end{align*}
$$

De esta manera, puede definirse un grafo computacional con la siguiente estructura:

![alt text](Imagen del grafo para logistic regression con cross-entropy)

### Backpropagation

La ventaja de pensar al cómputo de la cross-entropy mediante un grafo como el que se mostró anteriormente es que es posible obtener una forma de calcular automáticamente el gradiente de la función $loss(\mathbf{w},b)$ con respecto a las variables $\mathbf{w}$ y $b$. Esto se utilizará posteriormente para encontrar los parámetros del modelo que hacen mínimo al costo.

**Continuar desde acá...**

fuentes:

* [Tutorial básico](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html)
* [Tutorial de Justin Johnson](https://pytorch.org/tutorials/beginner/pytorch_with_examples.html)
* [Tutorial un poco más avanzado](https://pytorch.org/docs/stable/notes/autograd.html)
* También puede ser que haya algo útil [acá](https://pytorch.org/docs/stable/index.html) y [acá](https://pytorch.org/tutorials/beginner/nn_tutorial.html)
* [Explicación de Manning](https://www.youtube.com/watch?v=yLYHDSv-288&feature=youtu.be) (muy buena!!) minuto 45, diapositiva 42 de la lecture 4.

In [14]:
d = 5       # Dimensión del espacio de las muestras
N = 100     # Cantidad de muestras

x = torch.randn(N,d)   # Muestras de entrada
y = torch.randint(1,(N,1)) # Muestras de salida

w = torch.randn(d,1,requires_grad=True) # Parámetros
b = torch.randn(1,1,requires_grad=True)

u_1 = torch.matmul(x,w) + b   # Función 1 del grafo
u_2 = torch.sigmoid(u_1)      # Función 2 del grafo

loss = (y * torch.log(u_2) + (1-y) * torch.log(1-u_2)).sum() # Costo de las muestras
print(w.grad)
print(b.grad)
loss.backward()
print(w.grad)
print(b.grad)


None
None
tensor([[-20.9590],
        [-13.3563],
        [-20.9906],
        [ -1.8482],
        [ 13.0636]])
tensor([[-62.4839]])
