# Introducción a Pytorch

Es un framework para crear redes neuronales usando un _grafo dinamico_ (creado en tiempo de ejecución), a diferencia de _tensorflow_ donde el grafo es estático, lo cual implica crear el grafo computacional inicialmente para despues compilarlo.

La sintaxis para crear vectores, matrices y tensores es muy parecida a la de la biblioteca __numpy__. La ventaja respecto a numpy es que en pytorch se pueden realizar las operaciones tensoriales en una _GPU_, lo cual proporciona mayor velocidad.

In [1]:
!pip install torch torchvision

Collecting torch
[?25l  Downloading https://files.pythonhosted.org/packages/ac/23/a4b5c189dd624411ec84613b717594a00480282b949e3448d189c4aa4e47/torch-1.1.0-cp37-cp37m-manylinux1_x86_64.whl (676.9MB)
[K    100% |████████████████████████████████| 676.9MB 55kB/s eta 0:00:011 1% |▍                               | 8.8MB 1.3MB/s eta 0:08:35    14% |████▊                           | 98.9MB 2.7MB/s eta 0:03:37    14% |████▊                           | 100.3MB 2.2MB/s eta 0:04:24    15% |█████                           | 105.5MB 2.4MB/s eta 0:03:58    19% |██████                          | 128.8MB 2.5MB/s eta 0:03:38    19% |██████▏                         | 130.6MB 1.5MB/s eta 0:06:07    22% |███████▎                        | 153.7MB 1.6MB/s eta 0:05:24    24% |███████▊                        | 163.4MB 2.2MB/s eta 0:03:58    24% |███████▊                        | 164.1MB 1.9MB/s eta 0:04:27    25% |████████▎                       | 174.6MB 2.1MB/s eta 0:03:59    27% |████████▉                

In [2]:
import torch

## Tensores

Los tensores son una generalizacion de las matrices, donde la dimension puede ser arbitraria. A las siguientes estructuras se les considera como un tensor:

* Escalar (Tensor orden 0)
* Vector (Tensor orden 1)
* Matriz (Tensor orden 2)
* Arreglo n-dimensional (Tensor orden n)

Como se crean los tensores?

__Forma 1__

La forma mas sencilla de crear un tensor es pasando como argumento a la funcion _torch.tensor()_ una lista de numeros con la dimension que sea deseada.

In [17]:
# Escalar
tensor0 = torch.tensor(2)
# Vector 
tensor1 = torch.tensor([1, 2, 3])
# Matriz
tensor2 = torch.tensor([[1, 2, 3], [4, 5, 6]])
# Tensor 
tensor3 = torch.tensor([[[1, 2], [3, 4], [5, 6]]])

print("Tensor orden 0\n", tensor0)
print("\nTensor orden 1\n", tensor1)
print("\nTensor orden 2\n", tensor2)
print("\nTensor orden 3\n", tensor3)

Tensor orden 0
 tensor(2)

Tensor orden 1
 tensor([1, 2, 3])

Tensor orden 2
 tensor([[1, 2, 3],
        [4, 5, 6]])

Tensor orden 3
 tensor([[[1, 2],
         [3, 4],
         [5, 6]]])


__Forma 2__ 

Tambien es posible crear tensores con numeros aleatorios, especificando la dimension.

In [28]:
# Tensor aleatorio (distribucion normal)
torch.randn((3, 3, 2))

tensor([[[-0.8163,  1.5270],
         [-0.0556,  0.3132],
         [-0.1403,  0.1503]],

        [[ 0.0087, -2.0099],
         [-1.4215,  0.3611],
         [-0.8454,  0.4412]],

        [[-0.9886, -1.1823],
         [ 0.7727, -0.5316],
         [-0.3817, -0.4101]]])

In [46]:
# Tensor de enteros aleatorio 
min_num = -5
max_num = 5
torch.randint(min_num, max_num, (3, 3))

tensor([[-5,  0,  3],
        [ 0, -1, -4],
        [ 1,  1, -5]])

In [49]:
# Tensor sin inicializar
torch.empty(2, 3)

tensor([[-2.5178e+29,  3.0831e-41, -2.5188e+29],
        [ 3.0831e-41,  1.1210e-43,  0.0000e+00]])

In [53]:
# Tensor de ceros
torch.zeros(2, 2)

tensor([[0., 0.],
        [0., 0.]])

In [60]:
# Tensor de unos
torch.ones(2, 2)

tensor([[1., 1.],
        [1., 1.]])

Adicionalmente, tambien es posible indicar el __tipo de dato__ que almacena el tensor.
Entre los tipos de dato se encuentran:

1. torch.float
2. torch.float16
3. torch.float32
4. torch.float64
5. torch.int
6. torch.int8
7. torch.int16
8. torch.int32
9. torch.int64
10. torch.double (igual a torch.float64)
11. torch.long (igual a torch.int64)

Y la lista continua... 

In [55]:
# Tensor aleatorio con numeros float64
torch.randn((3, 3), dtype=torch.float64)

tensor([[ 0.7312,  0.1150, -0.4521],
        [ 1.1894, -0.9336, -1.1414],
        [ 0.1048, -1.1643,  0.5482]], dtype=torch.float64)

### Atributos de los tensores

Los tensores tienen los siguientes atributos:

* size
* shape

Ambos nos dan la misma informacion (dimension del tensor) como veremos a continuacion.

In [70]:
x = torch.randn((4, 3, 2))

print(x)
print(x.size())
print(x.shape)

tensor([[[-0.0814,  0.2720],
         [-0.6867, -0.5991],
         [-1.1772, -0.2239]],

        [[-0.7774, -0.0799],
         [ 1.1914, -0.2238],
         [ 0.4884, -0.6486]],

        [[-0.3703, -0.8940],
         [ 0.2936, -1.6881],
         [ 0.0290,  1.0288]],

        [[ 0.2434, -1.8130],
         [-0.2106,  0.1639],
         [ 1.3722,  0.9080]]])
torch.Size([4, 3, 2])
torch.Size([4, 3, 2])


Para acceder a los elementos de un tensor se realiza de la siguiente manera:

In [84]:
# Acceder a la matriz con indice 0
print(x[0], end="\n\n")

# Acceder a al escalar en la fila 2 columna 0 de la matrix con indice 0
print(x[0, 2, 0], end="\n\n")

# Acceder a la fila 2 de la matrix con indice 0
print(x[0, 2, :], end="\n\n")

# Acceder a la columna 1 de la matriz con indice 0
print(x[0, :, 0], end="\n\n")

tensor([[-0.0814,  0.2720],
        [-0.6867, -0.5991],
        [-1.1772, -0.2239]])

tensor(-1.1772)

tensor([-1.1772, -0.2239])

tensor([-0.0814, -0.6867, -1.1772])



### Operaciones con tensores

Las operaciones que se pueden realizar con tensores son de dos tipos: _unarias_ y _binarias_.


__Unarias__

* Transpuesta
* Traza
* Rango
* Exponenciacion
* Logaritmo 
* Etc

__Binarias__

* Suma
* Multiplicacion
* Division

Para algunas de estas operaciones existen 2 o mas posibles formas de ejecutarlas pero es mas conveniente usar la forma:

    torch.operacion(tensor1, tensor2)

Esto es debido a que el codigo asi es mas entendible.

In [102]:
x = torch.randn((2, 3))
y = torch.randn((2, 3))

print("Tensor x:\n", x)
print("Tensor y:\n", y)

Tensor x:
 tensor([[ 0.4824,  0.3570, -1.0425],
        [ 0.5805, -1.6540, -0.5782]])
Tensor y:
 tensor([[-0.5272,  0.2653,  0.5429],
        [-0.0039, -1.9772, -1.2429]])


__Unarias__

In [104]:
# Transpuesta
torch.t(x)

tensor([[ 0.4824,  0.5805],
        [ 0.3570, -1.6540],
        [-1.0425, -0.5782]])

In [105]:
# Exponenciacion
torch.exp(x)

tensor([[1.6199, 1.4290, 0.3526],
        [1.7869, 0.1913, 0.5609]])

In [106]:
# Traza
torch.trace(x)

tensor(-1.1716)

In [110]:
# Logaritmo natural
torch.log(x)

tensor([[-0.7291, -1.0300,     nan],
        [-0.5439,     nan,     nan]])

In [113]:
# Suma de elementos
torch.sum(x)

tensor(-1.8548)

In [114]:
# Maximo elemento
torch.max(x)

tensor(0.5805)

In [115]:
# Minimo elemento
torch.min(x)

tensor(-1.6540)

In [117]:
# Obtener elementos de la diagonal principal
torch.diag(x)

tensor([ 0.4824, -1.6540])

In [124]:
# "Aplanar" el tensor en un vector 
torch.flatten(x)

tensor([ 0.4824,  0.3570, -1.0425,  0.5805, -1.6540, -0.5782])

In [130]:
# Inversa del tensor (debe ser cuadrado) 
z = torch.randn((2, 2, 2))

print(z, end="\n\n")
print(torch.inverse(z))

tensor([[[-0.0048,  0.3574],
         [ 0.1494, -0.5444]],

        [[ 0.8425, -0.6865],
         [-0.1043, -0.5195]]])

tensor([[[10.7200,  7.0390],
         [ 2.9419,  0.0948]],

        [[ 1.0201, -1.3480],
         [-0.2048, -1.6542]]])


__Binarias__

In [94]:
# Suma 
torch.add(x, y)

tensor([[-1.6054, -0.1419,  0.4690],
        [ 0.2520, -2.1024,  3.5347]])

In [122]:
# Multiplicacion matricial
torch.matmul(x, torch.t(y))

tensor([[-0.7256,  0.5880],
        [-1.0587,  3.9867]])

In [123]:
# Multiplicacion (elemento a elemento)
x * y

tensor([[-2.5431e-01,  9.4701e-02, -5.6597e-01],
        [-2.2447e-03,  3.2703e+00,  7.1868e-01]])

## Calculo del gradiente de un tensor: Autograd

En Pytorch el paquete _autograd_ proporciona la diferenciación de los tensores de forma automática para todas las operaciones que se pueden realizar con ellos.

Los tensores a los cuales se les calcula el gradiente son aquellos que tienen el atributo __requires_grad__ como verdadero. Una vez activado ese atributo, pytorch se encarga de registrar las operaciones que se realizan sobre el tensor para calcular el gradiente con la función __backward()__.

El gradiente una vez calculado se almacena como el atributo __.grad__ del tensor.

Es importante mencionar también que los tensores tiene el atributo __.grad_fn__ el cual hace referencia a la función con la cual fueron creados, ejemplo: 

    z = torch.log(x) 
    
La funcion asociada al tensor z es torch.log().

Para los tensores que son creados manualmente por el programador tienen ese atributo como nulo (None).

__Ejemplo__

En el siguiente ejemplo realizamos creamos un tensor $x$ al cual se le realizan las operaciones:

$y_i = x_i + 2$

$z_i = 3y_i^2$

$o = \frac{1}{N}\sum_i z_i$

Posteriormente se calcula el gradiente.

In [167]:
'''
    Como es un tensor definido por el programador no tiene el atributo grad_fn.
    Los siguientes tensores, producto de las operaciones al tensor original x si
    tienen este atributo.
'''

x = torch.tensor([[1., 2.], [3., 4.]], requires_grad=True)
x

tensor([[1., 2.],
        [3., 4.]], requires_grad=True)

In [160]:
y = torch.add(x, 2)
y

tensor([[3., 4.],
        [5., 6.]], grad_fn=<AddBackward0>)

In [161]:
z = torch.pow(y, 2) * 3
z

tensor([[ 27.,  48.],
        [ 75., 108.]], grad_fn=<MulBackward0>)

In [162]:
o = z.mean()
o 

tensor(64.5000, grad_fn=<MeanBackward0>)

__Cálculo del gradiente__

Con la funcion __.backward(torch.tensor(N))__ donde N es la dimension del tensor de salida _out_. 

In [163]:
o.backward(torch.tensor(1.))

In [164]:
print(x.grad)

tensor([[4.5000, 6.0000],
        [7.5000, 9.0000]])


    El calculo del gradiente se puede expresar en forma matemática como:

$$\frac{\partial{o}}{\partial{x_i}} = \frac{\partial{o}}{\partial{z_i}}\frac{\partial{z_i}}{\partial{y_i}}\frac{\partial{y_i}}{\partial{x_i}}$$

$$ \frac{\partial{o}}{\partial{z_i}} =  \frac{1}{N}$$

$$ \frac{\partial{z_i}}{\partial{y_i}} =  6y_i$$

$$ \frac{\partial{y_i}}{\partial{x_i}} =  1$$

    Al multiplicar estos terminos:

$$ \frac{\partial{o}}{\partial{x_i}} = \frac{6}{N} y_i $$ 

    Teniendo en cuenta que el tensor x es el siguiente y que el valor de N = 4
    
$$ x = \begin{bmatrix}1 & 2\\3 & 4\end{bmatrix}$$

    Calculamos para cada valor de x:

$$ \frac{\partial{o}}{\partial{x_1}} = \frac{6}{4} * 3 = 4.5$$ 

$$ \frac{\partial{o}}{\partial{x_2}} = \frac{6}{4} * 4 = 6.0$$ 

$$ \frac{\partial{o}}{\partial{x_3}} = \frac{6}{4} * 5 = 7.5$$ 

$$ \frac{\partial{o}}{\partial{x_4}} = \frac{6}{4} * 6 = 9.0$$ 

    Asi se obtiene el gradiente de x:
    
$$ \nabla_X{O} = \begin{bmatrix} 4.5 & 6.0\\7.5 & 9.0\end{bmatrix}$$

    El cual como se puede observar, es el resultado que obtuvimos con pytorch.