## Básico de PyTorch

### Instalar PyTorch (solo si es necesario)

In [0]:
# http://pytorch.org/
from os import path
from wheel.pep425tags import get_abbr_impl, get_impl_ver, get_abi_tag
platform = '{}{}-{}'.format(get_abbr_impl(), get_impl_ver(), get_abi_tag())

accelerator = 'cu80' if path.exists('/opt/bin/nvidia-smi') else 'cpu'

!pip install -q http://download.pytorch.org/whl/{accelerator}/torch-0.3.0.post4-{platform}-linux_x86_64.whl torchvision

### Importar PyTorch

In [0]:
import torch

torch.manual_seed(57)
torch.cuda.manual_seed(57)

### Manejo de tensores

In [3]:
## Creación de tensores, inicializados en 1 o en random
a = torch.ones(2,3)
b = torch.randn(3,5)
c = torch.randn(2,3)

print("a = {}".format(a))
print("b = {}".format(b))
print("c = {}".format(c))

a = 
 1  1  1
 1  1  1
[torch.FloatTensor of size 2x3]

b = 
 0.1446 -0.1165  0.6929 -0.9161  0.7318
 0.3884  0.9109 -0.3629  0.0863  1.6861
 0.6063  0.2161  0.1916  0.7942 -0.9371
[torch.FloatTensor of size 3x5]

c = 
-0.5658  0.1868  0.4321
 1.3346  0.7961  0.9092
[torch.FloatTensor of size 2x3]



In [4]:
## Multiplicación de matrices 
d = torch.mm(a,b)
print("a*b = {}".format(d))


## multiplicacion elemento a elemento a_{i,i} * c{i,i}
e = torch.mul(a,c)
print("a*c = {}".format(e))

a*b = 
 1.1392  1.0105  0.5216 -0.0356  1.4807
 1.1392  1.0105  0.5216 -0.0356  1.4807
[torch.FloatTensor of size 2x5]

a*c = 
-0.5658  0.1868  0.4321
 1.3346  0.7961  0.9092
[torch.FloatTensor of size 2x3]



In [5]:
f = torch.randn(2,5)
g = torch.add(d, f)

print("a*b  + f = {}".format(g))

a*b  + f = 
 2.7658  1.3548  1.3687 -0.1158  1.9829
 0.8710  1.7225  1.1051 -0.3464  1.9967
[torch.FloatTensor of size 2x5]



In [6]:
## redimensionar tensores

x = torch.randn(4, 4)
print("x = {}".format(x))
y = x.view(16)
print("y = {}",format(y))
z = x.view(-1, 8)
print("z = {}".format(z))
z = x.view(2, 8)
print("z = {}".format(z))

x = 
-0.6526  0.7559 -0.6901 -0.8667
 0.0225 -0.5043  0.3971 -1.5045
 0.3958  1.0055  2.0187 -0.4948
 2.1201 -0.7088  0.3814  0.2125
[torch.FloatTensor of size 4x4]

y = {} 
-0.6526
 0.7559
-0.6901
-0.8667
 0.0225
-0.5043
 0.3971
-1.5045
 0.3958
 1.0055
 2.0187
-0.4948
 2.1201
-0.7088
 0.3814
 0.2125
[torch.FloatTensor of size 16]

z = 
-0.6526  0.7559 -0.6901 -0.8667  0.0225 -0.5043  0.3971 -1.5045
 0.3958  1.0055  2.0187 -0.4948  2.1201 -0.7088  0.3814  0.2125
[torch.FloatTensor of size 2x8]

z = 
-0.6526  0.7559 -0.6901 -0.8667  0.0225 -0.5043  0.3971 -1.5045
 0.3958  1.0055  2.0187 -0.4948  2.1201 -0.7088  0.3814  0.2125
[torch.FloatTensor of size 2x8]



In [7]:
## Manejar tensores en GPU 

x = torch.randn(2,3)
y = torch.randn(2,3)

print("x = {}".format(x))
print("y = {}".format(y))

if torch.cuda.is_available():
    x = x.cuda()
    y = y.cuda()
    z = x + y
    print("z = {}".format(z))

x = 
-0.1002  1.7392  0.6348
-0.3628 -0.7499  0.4106
[torch.FloatTensor of size 2x3]

y = 
-0.3185  1.1092  0.2141
 0.1234  1.6272 -0.1193
[torch.FloatTensor of size 2x3]

z = 
-0.4187  2.8484  0.8489
-0.2394  0.8773  0.2913
[torch.cuda.FloatTensor of size 2x3 (GPU 0)]



### Broadcasting en PyTorch y Numpy

In [2]:
import numpy as np

x = np.arange(4)
print("x = {}".format(x))
xx = x.reshape(4,1)
print("xx = {}".format(xx))
y = np.ones(5)
print("y = {}".format(y))
z = np.ones((3,4))
print("z = {}".format(z))

x = [0 1 2 3]
xx = [[0]
 [1]
 [2]
 [3]]
y = [1. 1. 1. 1. 1.]
z = [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


El tensor "xx" es un tensor de $4 \times 1$ y le sumaremos el tensor "y" de $ 1 \times 4$.
$$ yy = \left[
 \begin{matrix}
  0\\
  1\\
  2\\
  3
 \end{matrix}
\right] + \left[\begin{matrix}
  1 & 1 & 1 & 1
 \end{matrix}
\right] 
$$

La operación hace "match" la ultima dimension del primer tensor con la primera dimensión del segundo tensor. Por lo tanto, a cada fila de "xx" le sumará el tensor "y", resultando una matriz de $ 4 \times 4$

$$
yy = \left[\begin{matrix}
  1 & 1 & 1 & 1 \\
  2 & 2 & 2 & 2 \\
  3 & 3 & 3 & 3 \\
  4 & 4 & 4 & 4
 \end{matrix}
\right] 
$$

Por lo tanto, se debe tener cuidado al operar con tensores de distintas dimensiones, para que efectivamente hagan lo que queremos.

In [7]:
yy = xx + y
print("yy = {}".format(yy))

yy = [[1. 1. 1. 1. 1.]
 [2. 2. 2. 2. 2.]
 [3. 3. 3. 3. 3.]
 [4. 4. 4. 4. 4.]]


Otro ejemplo, sumamos z de dimension $3 \times 4$ con x que tiene $1 \times 4$
$$ zz = \left[
 \begin{matrix}
  1 & 1 &1 & 1\\
  1 & 1 &1 & 1\\
  1 & 1 &1 & 1
 \end{matrix}
\right] + \left[\begin{matrix}
  0 & 1 & 2 & 3
 \end{matrix}
\right] 
$$

La operación hace "match" la ultima dimension del primer tensor con la segunda dimensión del segundo tensor. Por lo tanto, a cada fila de "z" le sumará el tensor "x", resultando una matriz de $ 3 \times 4$

$$
yy = \left[\begin{matrix}
  1 & 2 & 3 & 4 \\
  1 & 2 & 3 & 4 \\
  1 & 2 & 3 & 4
 \end{matrix}
\right] 
$$

Por lo tanto, se debe tener cuidado al operar con tensores de distintas dimensiones, para que efectivamente hagan lo que queremos.

In [9]:
zz = z + x
print("zz = {}".format(zz))

zz = [[1. 2. 3. 4.]
 [1. 2. 3. 4.]
 [1. 2. 3. 4.]]


## Algunas funciones de activación


### Leaky ReLU

La función de activación Leaky rectified linear unit (Leaky ReLU) se define como :

$$ f(x) =
\left\{
	\begin{array}{ll}
		x  & \mbox{if } x \geq 0 \\
		\alpha \cdot x & \mbox{if } x < 0
	\end{array}
\right. 
$$

Por lo tanto su derivada será:
$$ \frac{d\,f}{dx}(x) =
\left\{
	\begin{array}{ll}
		1  & \mbox{if } x \geq 0 \\
		\alpha & \mbox{if } x < 0
	\end{array}
\right. 
$$


In [0]:
def leaky_RELU(x, alpha, gradient = False):
  y = torch.ones_like(x)
  ### YOUR CODE ###
  
  if gradient:
    ## Implementación del gradiente
    y[x < 0]  = alpha
    ## fin implementacion del gradiente
    return y
  
  ## Implementación de la función de activación
  y = x
  y[y < 0] = alpha * y[y < 0]
  
  #####
  return y

In [9]:
x = torch.randn(1,5)
print("x = {}".format(x))
leaky_relu = leaky_RELU(x, 0.1, gradient = False)
print("leaky_relu(x, 0.1) = {}".format(leaky_relu))

x = 
 1.0270  0.6056 -0.7636 -0.3127 -0.2151
[torch.FloatTensor of size 1x5]

leaky_relu(x, 0.1) = 
 1.0270  0.6056 -0.0764 -0.0313 -0.0215
[torch.FloatTensor of size 1x5]



### Sigmoide


La función de activación sigmoide se define como:

$$f(x) = \sigma(x) = \frac{1}{1 + e^{-x}} $$

Por lo tanto, su derivada es:

$$\frac{d\,\sigma}{dx}(x) = \frac{e^{-x}}{(1 + e^{-x})^2}  = \left(\frac{1}{1 + e^{-x}}\right)\cdot \left(\frac{e^{-x}}{1 + e^{-x}}\right) = \sigma(x)\cdot (1-\sigma(x))$$

In [0]:
def sigmoid(x, gradient = False):
  y = torch.ones_like(x)
  ### YOUR CODE
  if gradient:
    ## Implementación del gradiente
    y = torch.reciprocal(1 + torch.exp(-x))
    y = torch.mul(y, 1 - y)
    ## fin implementacion del gradiente
    return y
  
  ## Implementación de la función de activación
  y = torch.reciprocal(1 + torch.exp(-x))
  
  #####
  return y

In [11]:
x = torch.randn(1,5)
print("x = {}".format(x))
sigmoide = sigmoid(x, gradient = False)
print("sigmoid(x) = {}".format(sigmoide))

x = 
-0.4804 -0.1292  0.9810 -0.4116  0.2853
[torch.FloatTensor of size 1x5]

sigmoid(x) = 
 0.3822  0.4677  0.7273  0.3985  0.5708
[torch.FloatTensor of size 1x5]



### Checkeo de los gradientes

In [0]:
def numericalGradient(costFunc, matrix_x, epsilon = 1e-4):
  
  dim = matrix_x.size()
  
  numgrad = torch.zeros((dim[0],dim[1]))
  perturb = torch.zeros((dim[0],dim[1]))
  
  for i in range(dim[0]):
    for j in range(dim[1]):
      perturb[i][j] = epsilon
      loss1 = costFunc(matrix_x - perturb)
      loss2 = costFunc(matrix_x + perturb)
      numgrad[i][j] = (loss2 - loss1)[i][j] / (2*epsilon)
      perturb[i][j] = 0
    
  return numgrad

In [13]:
## Checkeamos el gradiente de Leaky ReLU

x = torch.randn(1,5)
print("tensor", x)
grad_lrelu =  leaky_RELU(x, 0.1, gradient = True)

print("Gradiente leaky Relu analítico", grad_lrelu)

def cost_func(x):
  return leaky_RELU(x, alpha = 0.1, gradient = False)


grad_lrelu_num = numericalGradient(cost_func, x, epsilon = 1e-4)
print("Gradiente leaky Relu numérico", grad_lrelu_num)

tensor 
-0.5501  0.9171  0.4935  0.4099 -0.8548
[torch.FloatTensor of size 1x5]

Gradiente leaky Relu analítico 
 0.1000  1.0000  1.0000  1.0000  0.1000
[torch.FloatTensor of size 1x5]

Gradiente leaky Relu numérico 
 0.1000  1.0002  0.9999  0.9999  0.1000
[torch.FloatTensor of size 1x5]



In [14]:
## Checkeamos el gradiente de Sigmoid

x = torch.randn(1,5)
print("tensor", x)
grad_sig =  sigmoid(x, gradient = True)

print("Gradiente Sigmoide analítico", grad_sig)

def cost_func(x):
  return sigmoid(x, gradient = False)


grad_sig_num = numericalGradient(cost_func, x, epsilon = 1e-4)
print("Gradiente Sigmoide numérico", grad_sig_num)

tensor 
-1.5052  0.8440  0.3435  0.5427  0.1490
[torch.FloatTensor of size 1x5]

Gradiente Sigmoide analítico 
 0.1487  0.2103  0.2428  0.2325  0.2486
[torch.FloatTensor of size 1x5]

Gradiente Sigmoide numérico 
 0.1487  0.2104  0.2429  0.2325  0.2488
[torch.FloatTensor of size 1x5]



### Checkeando tiempo de computo

In [0]:
import torch
import time

size_matrix = 10000
x = torch.randn((size_matrix, size_matrix))
y = torch.randn((size_matrix, size_matrix))

In [18]:
## Tiempo que tarda multiplicar matrices en CPU
inicio= time.clock()

z = torch.mm(x,y)

final = time.clock() - inicio
print("tiempo total = {}".format(final))

tiempo total = 25.86118599999999


In [19]:
## Tiempo que tarda multiplicar matrices en GPU
inicio= time.clock()


z = torch.mm(x.cuda(),y.cuda())

final = time.clock() - inicio
print("tiempo total = {}".format(final))

tiempo total = 0.1170020000000136
