<a href="https://colab.research.google.com/github/bereml/iap/blob/master/libretas/1b_pytorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a PyTorch

Curso: [Introducción al Aprendizaje Profundo](http://turing.iimas.unam.mx/~ricardoml/course/iap/). Profesores: [Bere](https://turing.iimas.unam.mx/~bereml/) y [Ricardo](https://turing.iimas.unam.mx/~ricardoml/) Montalvo Lezama.

---
---

[PyTorch](https://pytorch.org/) es una biblioteca de software de código abierto para la implementación sencilla y eficiente de redes neuronales profundas. El desarrollador original de la biblioteca es [Soumith Chintala](https://www.youtube.com/watch?v=vkzr1xu-8Nk).

<center><img src="https://pytorch.org/assets/images/pytorch-logo.png" width="300" align="center"/></center>
<div style="text-align: center">https://pytorch.org</div>

In [1]:
import torch

---
## 1 Tensores

Un tensor de PyTorch es una arreglo multidimensional, la idea es similar a una arreglo de numpy pero con la diferencia de que se alojan en GPU y pueden rastrean las operaciones que los generaron. Se representan con la clase `torch.Tensor` y y pueden ser booleanos, enteros o flotantes.

<center><img src="https://miro.medium.com/max/1000/1*8jdzMrA33Leu3j3F6A8a3w.png" width="600" align="center"/></center>
<div style="text-align: center">https://medium.com/@anoorasfatima/10-most-common-maths-operation-with-pytorchs-tensor-70a491d8cafd</div>

### 1.1 A partir de datos

In [2]:
# tensor 0 dimensional = escalar 
s = torch.tensor(True)
print(s.shape, s.dtype)
print(s)

torch.Size([]) torch.bool
tensor(True)


In [3]:
# tensor 1 dimensional = vector 
v = torch.tensor([1, 2])
print(v.shape, v.dtype)
print(v)

torch.Size([2]) torch.int64
tensor([1, 2])


In [4]:
# tensor 2 dimensional = matriz 
m = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
print(m.shape, m.dtype)
print(m)

torch.Size([2, 2]) torch.float32
tensor([[1., 2.],
        [3., 4.]])


### 1.2 Como secuencias

In [5]:
# similar a range de python
torch.arange(8, dtype=torch.float64)

tensor([0., 1., 2., 3., 4., 5., 6., 7.], dtype=torch.float64)

In [6]:
# vector de 0s
torch.zeros(8)

tensor([0., 0., 0., 0., 0., 0., 0., 0.])

In [7]:
# matriz de 1s
torch.ones([2, 4])

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.]])

### 1.3 A partir de otros tensores

In [8]:
# tensor de 1s con la misma forma que v
torch.zeros_like(v)

tensor([0, 0])

In [9]:
# tensor de 0s con la misma forma que v
torch.ones_like(m)

tensor([[1., 1.],
        [1., 1.]])

### 1.4 Muestreando distribuciones

In [10]:
# matriz con distribución uniforme en [0,1)
torch.rand(5)

tensor([0.9484, 0.9245, 0.7906, 0.6874, 0.8189])

In [11]:
# vector con distibución normal unitaria
torch.normal(0, 1, size=(2, 3))

tensor([[-0.4836,  0.7351, -0.6186],
        [-0.3961, -2.2901, -1.4151]])

#### 1.5 De numpy y de vuelta

In [12]:
import numpy as np

a = np.random.randn(2, 2)
t = torch.from_numpy(a)
n = t.numpy()
type(t), type(n)

(torch.Tensor, numpy.ndarray)

---
## 2 Formas y vistas

In [13]:
x = torch.arange(12)
print(x.shape)
print(x)

torch.Size([12])
tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])


In [14]:
v1 = x.view(2, 6)
print(v1.shape)
print(v1)

torch.Size([2, 6])
tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])


In [15]:
v2 = x.view(3, 4)
print(v2.shape)
print(v2)

torch.Size([3, 4])
tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


In [16]:
v3 = x.view(4, -1)
print(v3.shape)
print(v3)

torch.Size([4, 3])
tensor([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]])


In [17]:
# agregar dimensión
v4 = x.unsqueeze(0)
print(v4.shape)
print(v4)

torch.Size([1, 12])
tensor([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]])


In [18]:
# eliminar dimensión
v5 = v4.squeeze()
print(v5.shape)
print(v5)

torch.Size([12])
tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])


---
## 3 Lectura y escritura

In [19]:
x = torch.arange(20).reshape(4, 5)
x

tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])

In [20]:
# acceder a un elemento
x[0, 0], x[-1, -1]

(tensor(0), tensor(19))

In [21]:
# acceder una fila
x[0], x[-1]

(tensor([0, 1, 2, 3, 4]), tensor([15, 16, 17, 18, 19]))

In [22]:
# acceder una columna
x[:, 0], x[:, -1]

(tensor([ 0,  5, 10, 15]), tensor([ 4,  9, 14, 19]))

In [23]:
# rebanada de columnas
x[1:3]

tensor([[ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]])

In [24]:
# rebanada de filas
x[:, 1:-1]

tensor([[ 1,  2,  3],
        [ 6,  7,  8],
        [11, 12, 13],
        [16, 17, 18]])

In [25]:
# rebanada de filas y columnas
x[1:3, 1:-1]

tensor([[ 6,  7,  8],
        [11, 12, 13]])

---
## 4 Funciones

### 4.1 Operaciones aritméticas

In [26]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])

print("Suma:", x + y)
print("Resta:", x - y)
print("División:", x / y)
print("Multiplicación:", x * y)
print("Potencia:", x ** y)

Suma: tensor([ 3.,  4.,  6., 10.])
Resta: tensor([-1.,  0.,  2.,  6.])
División: tensor([0.5000, 1.0000, 2.0000, 4.0000])
Multiplicación: tensor([ 2.,  4.,  8., 16.])
Potencia: tensor([ 1.,  4., 16., 64.])


### 4.2 Álgebra lineal

In [27]:
u = torch.arange(4, dtype=torch.float32)
v = torch.ones(4, dtype=torch.float32)
w = torch.arange(12, dtype=torch.float32).view([3, 4])
print(u)
print(v)
print(w)

tensor([0., 1., 2., 3.])
tensor([1., 1., 1., 1.])
tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])


In [28]:
# producto escalar
10 * u 

tensor([ 0., 10., 20., 30.])

In [29]:
# producto punto
torch.dot(u, v)

tensor(6.)

In [30]:
# producto de matrices
# w @ u
torch.matmul(w, u)

tensor([14., 38., 62.])

In [31]:
# suma de Einstein
torch.einsum('ij,j->i', w, u)

tensor([14., 38., 62.])

In [32]:
# transpuesta
w.T

tensor([[ 0.,  4.,  8.],
        [ 1.,  5.,  9.],
        [ 2.,  6., 10.],
        [ 3.,  7., 11.]])

### 4.3 Concatenación y apilado

In [33]:
u = torch.arange(12).reshape(3, 4)
v = torch.arange(12, 24).reshape(3, 4)

In [34]:
# concatenación en filas
torch.cat((u, v), dim=0)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]])

In [35]:
# concatenación en columnas
torch.cat((u, v), dim=1)

tensor([[ 0,  1,  2,  3, 12, 13, 14, 15],
        [ 4,  5,  6,  7, 16, 17, 18, 19],
        [ 8,  9, 10, 11, 20, 21, 22, 23]])

In [36]:
torch.stack([u, v], dim=0)

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

In [37]:
torch.stack([u, v], dim=1)

tensor([[[ 0,  1,  2,  3],
         [12, 13, 14, 15]],

        [[ 4,  5,  6,  7],
         [16, 17, 18, 19]],

        [[ 8,  9, 10, 11],
         [20, 21, 22, 23]]])

### 4.4 Reducción

In [38]:
x = torch.arange(12, dtype=torch.float32).reshape(3, 4)
x

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [39]:
x.sum()

tensor(66.)

In [40]:
# reducir filas
x.sum(dim=0)

tensor([12., 15., 18., 21.])

In [41]:
# reducir columnas
x.sum(dim=1)

tensor([ 6., 22., 38.])

In [42]:
x.mean(), x.mean(dim=0),  x.mean(dim=1)

(tensor(5.5000), tensor([4., 5., 6., 7.]), tensor([1.5000, 5.5000, 9.5000]))

In [43]:
# máximo del tensor
x.max()

tensor(11.)

In [44]:
# máximo de filas
x.max(dim=0)

torch.return_types.max(
values=tensor([ 8.,  9., 10., 11.]),
indices=tensor([2, 2, 2, 2]))

In [45]:
# máximo de columnas
x.max(dim=1)

torch.return_types.max(
values=tensor([ 3.,  7., 11.]),
indices=tensor([3, 3, 3]))

### 4.5 Difusión

La difusión es un mecanismo que se utiliza para realizar operaciones entre tensores cuando poseen formas diferentes.

In [46]:
a = torch.arange(3).view(3, 1)
a

tensor([[0],
        [1],
        [2]])

In [47]:
b = torch.arange(2).view(1, 2)
b

tensor([[0, 1]])

In [48]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

---
## 5 Diferenciación automática

La [diferenciación automática](https://es.wikipedia.org/wiki/Diferenciaci%C3%B3n_autom%C3%A1tica) es un método para la evaluación de derivadas de una función expresada como un programa de computación usualamente conocido como gráfica de cómputo.

<center><img src="https://raw.githubusercontent.com/bereml/iap/master/fig/autodiff.png" width="800" align="center"/></center>

<div style="text-align: center">Fuente: Automatic Differentiation in Machine Learning: a Survey, Baydin et. al, 2018.</div>

&nbsp;

PyTorch permite realizar autodiferenciación manteniendo un arbol de expresiones (gráfica de cómputo) que se ensambla de forma automática conforme se definen las expresiones en el programa. 

Por ejemplo, consideremos la funcion $f(x, y) = 2 x^{3} + 3 y^{2} + c$ respecto a dos variables independientes $x$ y $y$. Al codificar esta función con tensores, podemos pensar de forma simplificada que Pytorch ensambla (al vuelo y de forma implícita) la siguiente gráfica de cómputo.

<center><img src="https://raw.githubusercontent.com/bereml/iap/master/fig/autodiff_example.svg" width="800" align="center"/></center>

&nbsp;

En esta gráfica de cómputo $x$ y $y$ son tensores hoja, mientras que $f$ es un tensor interno (no hoja). Para crear la gráfica de cómputo los tensores están equipados con los siguientes atributos:

* `.grad`: escalar flotante que almacena la evaluación de la derivada,
* `.requires_grad` bandera booleana que indica si tensor 
* `.grad_fn` es la derivada $f'$ respecto a los tensores padre en la gráfica de computo.

Por defecto, PyTorch únicamente computa derivadas para tensores hoja que fueron creados con la bandera `requires_grad=True`. Los tensores interno son lo únicos que contienen un `.grad_fn` valido.

Para observar como funciona esto, definamos $f(\cdot)$ y derivemos de forma automática con respecto a $x$ y $y$ para obtener $f'_x(2, 3) = 6(2)^2 = 24$, $f'_y(2, 3) = 6(3) = 18$. Primero, definamos tensores con las variables $x$ y $y$ e inspeccionemos sus atributos usados para la autodiferenciación.

In [49]:
# creamos el tensor con rastreo de gradiente activado
x =  torch.tensor(2.0, requires_grad=True)
x, x.grad, x.requires_grad, x.grad_fn

(tensor(2., requires_grad=True), None, True, None)

In [50]:
# creamos el tensor con rastreo de gradiente activado
y =  torch.tensor(3.0, requires_grad=True)
y, y.grad, x.requires_grad

(tensor(3., requires_grad=True), None, True)

In [51]:
# creamos el tensor sin rastreo de gradiente
c =  torch.tensor(1.0)
c, c.grad, c.requires_grad

(tensor(1.), None, False)

Ahora definamos la función $f(\cdot)$ e inspeccionemos sus atributos.

In [52]:
f = 2 * (x ** 3) + 3 * (y ** 2) + c
f, f.grad, f.requires_grad, f.grad_fn

  f, f.grad, f.requires_grad, f.grad_fn


(tensor(44., grad_fn=<AddBackward0>),
 None,
 True,
 <AddBackward0 at 0x7fce1a02ba60>)

PyTorch nos indica con una advertencia ya que $f$ es un tensor interno y su atributo `.grad` no será usado durante la diferenciación automática.

Ahora, computemos las derivadas $f'_x(2, 3)$ y $f'_y(2, 3)$ con el método `backward()`.

In [53]:
f.backward()

Finalmente, inspeccionemos el resultado.

In [54]:
x.grad, y.grad, c.grad, f.grad

  x.grad, y.grad, c.grad, f.grad


(tensor(24.), tensor(18.), None, None)

### Participación A

Define una función con tres variables independientes, calcula sus derivadas de forma manual y verifica con PyTorch.

## Referencias

[Tutorial de autodiferenciación en PyTorch](https://pytorch.org/docs/stable/autograd.html).