# Colab
Google Colab es una herramienta de investigación para la enseñanza e investigación de Machine Learning. Es un entorno de **Jupyter notebook** que no requiere configuración para su uso. Colab ofrece un servicio gratuito de **GPU en la nube** alojado por Google para alentar la colaboración en el campo de Machine Learning, sin preocuparse por los requisitos de hardware. Colab fue lanzado al público por Google en octubre de 2017.

## GPU
En Colab, obtendrá **12 horas de tiempo de ejecución**, pero la sesión se desconectará si está inactivo durante más de 60 minutos. Esto significa que por cada 12 horas, el disco, la RAM, la memoria caché de la CPU y los datos que se encuentran en nuestra máquina virtual asignada se **borrarán**.

Para habilitar el uso del acelerador de hardware GPU, solo es necesario ir a **Runtime -> Change runtime type -> Hardware accelerator -> GPU**

In [0]:
!nvidia-smi

Tue Aug 13 20:20:15 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   47C    P8    15W /  70W |      0MiB / 15079MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|  No ru

In [0]:
!nvidia-smi --query-gpu=memory.total,memory.used,memory.free --format=csv

memory.total [MiB], memory.used [MiB], memory.free [MiB]
15079 MiB, 0 MiB, 15079 MiB


## RAM

In [0]:
!free -h

              total        used        free      shared  buff/cache   available
Mem:            12G        403M         10G        920K        1.9G         12G
Swap:            0B          0B          0B


## Almacenamiento

In [0]:
!df -h --total | grep Filesystem
!df -h --total | grep total

Filesystem      Size  Used Avail Use% Mounted on
total           755G   69G  668G  10% -


## Google Drive

In [0]:
from google.colab import drive
drive.mount('/content/drive')

## Clonando repo

In [0]:
import os

if not os.path.exists('/content/cc6204-DeepLearning-DCCUChile'):
  !git clone https://github.com/jorgeperezrojas/cc6204-DeepLearning-DCCUChile.git

Cloning into 'cc6204-DeepLearning-DCCUChile'...
remote: Enumerating objects: 11, done.[K
remote: Counting objects:   9% (1/11)[Kremote: Counting objects:  18% (2/11)[Kremote: Counting objects:  27% (3/11)[Kremote: Counting objects:  36% (4/11)[Kremote: Counting objects:  45% (5/11)[Kremote: Counting objects:  54% (6/11)[Kremote: Counting objects:  63% (7/11)[Kremote: Counting objects:  72% (8/11)[Kremote: Counting objects:  81% (9/11)[Kremote: Counting objects:  90% (10/11)[Kremote: Counting objects: 100% (11/11)[Kremote: Counting objects: 100% (11/11), done.[K
remote: Compressing objects: 100% (9/9), done.[K
remote: Total 5693 (delta 0), reused 11 (delta 0), pack-reused 5682[K
Receiving objects: 100% (5693/5693), 7.19 MiB | 10.23 MiB/s, done.
Resolving deltas: 100% (2740/2740), done.


In [0]:
!ls

cc6204-DeepLearning-DCCUChile  sample_data


# Pytorch
Provee 2 caracteristicas fundamentales:
1. n-dimensional Tensor, similar a Numpy pero pueden almacenarce en GPUs
2. diferenciación automática para el entrenamiento de Redes Neuronales

## Instalación
Pytorch se encuentra instalado en la máquina virtual de Colab. Pero si desea correr este notebook en otro entorno, puede que necesite instalarlo. En https://pytorch.org/ puede encontrar una guía completa.


In [0]:
# uncomment if you need to install last version of torch with CUDA
#!pip3 install torch torchvision

# uncomment if you need to install last version of torch without CUDA
#!pip3 install torch==1.2.0+cpu torchvision==0.4.0+cpu -f https://download.pytorch.org/whl/torch_stable.html

## Importar PyTorch y otros paquetes
Primero, importaremos las bibliotecas requeridas. Recuerde que torch, numpy y matplotlib están preinstalados en la máquina virtual de Colab.

In [0]:
import torch
import numpy as np
import matplotlib.pyplot as plt

In [0]:
torch.__version__

'1.1.0'

## Tensor
Las operaciones basadas en Numpy no están optimizadas para utilizar GPU y acelerar sus cálculos numéricos. Para las redes neuronales profundas modernas, las GPU a menudo proporcionan aceleraciones de 50x o más. Entonces, desafortunadamente, numpy no será suficiente para el aprendizaje profundo moderno. Aquí es donde Pytorch introduce el concepto de Tensor. Un tensor de Pytorch es conceptualmente idéntico a una matriz numpy n-dimensional. Con la diferencia de que los tensores de PyTorch pueden utilizar GPU para acelerar sus cálculos numéricos.

En PyTorch el tipo de tensor predeterminado es **float** definido como **torch.FloatTensor**. Podemos crear tensores utilizando las **funciones incorporadas** dentro del paquete.

In [0]:
## creating a tensor of 3 rows and 2 columns consisting of ones
a = torch.ones(3,2)

## creating a tensor of 3 rows and 2 columns consisting of zeros
b = torch.zeros(3,2)

print('a=\n{}'.format(a))
print('b=\n{}'.format(b))

a=
tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])
b=
tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])


Podemos crear los tensores **a partir de listas de Python o sequencias** mediante el constructor `torch.tensor()`

In [0]:
a = torch.tensor([[1., -1.], [-1., 1.]])
b = torch.tensor(np.array([[1, 2, 3], [4, 5, 6]]))

print('a=\n{}'.format(a))
print('b=\n{}'.format(b))

a=
tensor([[ 1., -1.],
        [-1.,  1.]])
b=
tensor([[1, 2, 3],
        [4, 5, 6]])


Inicialización **aleatoria**

In [0]:
#to increase the reproducibility, we often set the random seed to a specific value first.
torch.manual_seed(2)

#generating tensor randomly from uniform distribution on the interval [0, 1)
a = torch.rand(3, 2) 

#generating tensor randomly from standar normal distribution (mean 0 and variance 1)
b = torch.randn(3, 3)

print('a=\n{}'.format(a))
print('b=\n{}'.format(b))

a=
tensor([[0.6147, 0.3810],
        [0.6371, 0.4745],
        [0.7136, 0.6190]])
b=
tensor([[-2.1409, -0.5534, -0.5000],
        [-0.0815, -0.1633,  1.5277],
        [-0.4023,  0.0972, -0.5682]])


## PyTorch <--> numpy
Convertir un tensor de PyTorch a `ndarray` de numpy puede ser conveniente algunas veces. Mediante el uso de `.numpy()` sobre un tensor podemos convertir facilmente el tensor a `ndarray`.

In [0]:
x = torch.linspace(0, 1, steps = 5)  # creating a tensor using linspace
print(x)
x_np = x.numpy()  # convert tensor to numpy
print(type(x), type(x_np))  # check the types 

tensor([0.0000, 0.2500, 0.5000, 0.7500, 1.0000])
<class 'torch.Tensor'> <class 'numpy.ndarray'>


Para convertir de `ndarray` a `tensor`, podemos usar `.from_numpy()`

In [0]:
x = np.random.randn(5)  # generate a random numpy array
print(x)
x_pt = torch.from_numpy(x)  # convert numpy array to a tensor
print(type(x), type(x_pt)) 

[-0.87881851 -0.61338628  0.66181552  0.92286251 -1.3474736 ]
<class 'numpy.ndarray'> <class 'torch.Tensor'>


## CUDA
Para verificar cuántas GPU compatibles con CUDA están conectadas a la máquina, puede usar el fragmento de código a continuación. Si está ejecutando el código en Colab obtendrá `1`, eso significa que la máquina virtual Colab está conectada a una GPU. `torch.cuda` se usa para configurar y ejecutar operaciones CUDA.

In [0]:
if torch.cuda.is_available():
  print(torch.cuda.device_count())
  print(torch.cuda.get_device_name(0))  # name of the first GPU Card connected to the machine

1
Tesla T4


Lo importante a tener en cuenta es que podemos referenciar esta tarjeta GPU compatible con CUDA desde una variable y usarla para cualquier operación de Pytorch. Todos los tensores CUDA que asigne se crearán en ese dispositivo. El dispositivo GPU seleccionado se puede cambiar con un administrador de contexto `torch.cuda.device`.

In [0]:
# Assign cuda GPU located at location '0' to a variable
cuda0 = torch.device('cuda:0')

# Performing the addition on GPU
a = torch.ones(3, 2, device=cuda0)  # creating a tensor 'a' on GPU 0
b = torch.ones(3, 2, device=cuda0)  # creating a tensor 'b' on GPU 0
# b = torch.ones(3, 2)  # creating a tensor 'b' on GPU 0
c = a + b + 5
print(c)

tensor([[7., 7.],
        [7., 7.],
        [7., 7.]], device='cuda:0')


Si desea mover el resultado a la CPU, solo tiene que hacer `.cpu()`

In [0]:
c = c.cpu()
print(c)
c = c.cuda()
print(c)

tensor([[7., 7.],
        [7., 7.],
        [7., 7.]])
tensor([[7., 7.],
        [7., 7.],
        [7., 7.]], device='cuda:0')


### Checkeando tiempo de computo

In [0]:
import time

size_matrix = 10000
x = torch.randn((size_matrix, size_matrix))
y = torch.randn((size_matrix, size_matrix))

# CPU
print('mm in CPU...')
start = time.clock()
z = torch.mm(x,y)
total_time = time.clock() - start
print('CPU time = {}'.format(total_time))

# GPU
print('mm in GPU...')
start = time.clock()
z = torch.mm(x.cuda(),y.cuda())
total_time = time.clock() - start
print('GPU time = {}'.format(total_time))

mm in CPU...
CPU time = 26.897794000000005
mm in GPU...
GPU time = 0.17126500000000533


## Operaciones simples

### Slicing
Podemos hacer slice sobre los tensores de PyTorch de la misma forma que con los `ndarray`

In [0]:
# create a tensor
x = torch.tensor([[1, 2], 
                 [3, 4], 
                 [5, 6]])

print(x[:, -1]) # every elements in dim 0, only last element in dim 1
print(x[0, :])  # only first elements in dim 0, every elements in dim 1
print(x[1, 1])  # take the 2nd element in dim 0 and 2nd element in dim 1. Create another tensor

tensor([2, 4, 6])
tensor([1, 2])
tensor(4)


### Reshape 
Cambiar el shape de un tensor

In [0]:
# get size of tensor
x_size = x.size()
print('size of x: {}'.format(x_size))

x_dim1 = x.size(1)
print('size of dim 1: {}'.format(x_dim1))

# reshape
y = x.view(2, 3)
print('y=\n{}'.format(y))

# transpose
y = x.transpose(0, 1)
print('y=\n{}'.format(y))

size of x: torch.Size([3, 2])
size of dim 1: 2
y=
tensor([[1, 2, 3],
        [4, 5, 6]])
y=
tensor([[1, 3, 5],
        [2, 4, 6]])


#### Uso de `-1` al redimensionar los tensores
`-1` indica que la dimension se deducirá de las dimensiones anteriores. En el fragmento de código a continuación `x.view(-1, 18)` dará como resultado un tensor de forma 2x18 porque hemos establecido el tamaño de la segunda dimensión a 18. Pytorch **inferirá el tamaño** de la primera dimiensión de modo que sea capaz de acomodar todos los valores presentes en el tensor.


In [0]:
x = torch.randn(6, 6)
y1 = x.view(-1, 18)
y2 = x.view(2, 6, -1)
# y2 = x.view(2, 5, -1)  # Error because shape '[2, 5, -1]' is invalid for input of size 36

print("x = \n{}".format(x))
print("y1 =\n{}".format(y1.size()))
print("y2 =\n{}".format(y2.size()))

x = 
tensor([[ 1.1842, -0.2227, -0.7212, -0.3555, -1.3593, -0.0171],
        [ 1.5292,  0.9322, -0.6437,  0.3107,  1.3783, -2.0232],
        [ 0.1904, -1.0397,  0.2672, -0.1197,  1.1307, -0.3734],
        [ 1.0807, -1.1145,  1.0233,  0.1579,  0.2713, -1.3069],
        [ 0.8160, -2.2577,  0.8149,  0.0805,  0.9032,  0.7585],
        [ 1.2038, -1.6814, -0.8208,  0.0831, -0.1917, -0.9243]])
y1 =
torch.Size([2, 18])
y2 =
torch.Size([2, 6, 3])


## Operaciones


In [0]:
# create three tensors
x = torch.ones(3, 2)
y = torch.ones(3, 2)

# Pytorch does not allow any type of computation between different types of data
# y1 = torch.LongTensor(3, 2)
# print(x.dtype, y1.dtype)
# z = x + y1  # error

# change the type of tensor
# y1 = y1.type(torch.FloatTensor)
# print(x.dtype, y1.dtype)
# z = x + y1  # correct

# adding two tensors (element-wise)
z1 = x + y            # method 1
z2 = torch.add(x, y)  # method 2
print('add=\n{}'.format(z1), 'ok' if torch.all(z1 == z2) else 'wrong')

# subtracting two tensors (element-wise)
z1 = x - y            # method 1
z2 = torch.sub(x, y)  # method 2
print('sub=\n{}'.format(z1), 'ok' if torch.all(z1 == z2) else 'wrong')

# multiplying two tensors (element-wise)
z1 = (x + 1) * (y + 2)        # method 1
z2 = torch.mul(x + 1, y + 2)  # method 2
print('mul=\n{}'.format(z1), 'ok' if torch.all(z1 == z2) else 'wrong')

# matrix multiplication
z1 = x @ y.view(2, 3)           # method 1
z2 = torch.mm(x, y.view(2, 3))  # method 2
print('mm=\n{}'.format(z1), 'ok' if torch.all(z1 == z2) else 'wrong')

# dot product, the result is a scalar
z1 = torch.Tensor([4, 2]) @ torch.Tensor([3, 1])           # method 1
z2 = torch.dot(torch.Tensor([4, 2]), torch.Tensor([3, 1])) # method 2
print('dot= {}'.format(z1), 'ok' if torch.all(z1 == z2) else 'wrong')

add=
tensor([[2., 2.],
        [2., 2.],
        [2., 2.]]) ok
sub=
tensor([[0., 0.],
        [0., 0.],
        [0., 0.]]) ok
mul=
tensor([[6., 6.],
        [6., 6.],
        [6., 6.]]) ok
mm=
tensor([[2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.]]) ok
dot= 14.0 ok


### Inplace
En Pytorch, todas las operaciones en el tensor que operan in-place tendrán un `_` como posfijo. Por ejemplo, `add` es la versión out-of-place y `add_` es la versión in-place.

In [0]:
y.add_(x)  # tensor y added with x and result will be stored in y

tensor([[2., 2.],
        [2., 2.],
        [2., 2.]])

## Broadcasting en PyTorch

Muchas operaciones en PyTorch soportan [NumPy Broadcasting Semantics](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#module-numpy.doc.broadcasting).

Si una operación PyTorch admite la broadcast, sus argumentos (tensores) se pueden expandir automáticamente para que sean del mismo tamaño (**sin hacer copias de los datos**). *No es más que una forma de hacer operaciones punto a punto sobre tensores que no necesariamente tienen las mismas dimensiones.*

Dos tensores son "broadcastable" si:
1. Cada tensor tiene al menos una dimensión.
2. Al iterar sobre los tamaños de las dimensiones (comenzando en la dimensión final), sus tamaños deben ser iguales, uno de ellos es `1` o uno de ellos no existe.

Si dos tensores son "broadcastable" las dimensiones del tensor resultado se determina mediante:
1. Si el número de dimensiones no es igual, se antepone `1` a las dimensiones del tensor con menos dimensiones para que tengan la misma longitud.
2. Luego, para cada tamaño de dimensión, el tamaño de dimensión resultante es el máximo de los tamaños en esa dimensión.

In [0]:
x = torch.rand(3)
z = x + 4  # sum the scalar to each element
print('z= {}'.format(z))

x = torch.randn(5,7,3)
y = torch.randn(5,7,3)
z = x + y  # same shapes are always broadcastable
print('z= {}'.format(z.size()))

x = torch.randn(5,3,4,1)
y = torch.randn(  3,1,1)
z = x + y
print('z= {}'.format(z.size()))
# x and y are broadcastable.
# 1st trailing dimension: both have size 1
# 2nd trailing dimension: y has size 1
# 3rd trailing dimension: x size == y size
# 4th trailing dimension: y dimension doesn't exist

x = torch.rand(1,10)
y = torch.rand(10,1)
z = x + y
print('z= {}'.format(z.size()))

# NOT broadcastables examples:

# x = torch.randn(3,2)
# y = torch.randn(  3)
# z = x + y  # Error in the 1st trailing dimension 2 != 3

# x = torch.empty((0,))
# y = torch.empty(2,2)
# z = x + y  # Error because x does not have at least 1 dimension

# x=torch.empty(5,2,4,1)
# y=torch.empty(  3,1,1)
# z = x + y  # Error because in the 3rd trailing dimension 2 != 3

z= tensor([4.3393, 4.6648, 4.4774])
z= torch.Size([5, 7, 3])
z= torch.Size([5, 3, 4, 1])
z= torch.Size([10, 10])


RuntimeError: ignored

**Hay que tener cuidado**

## Definiendo los parámetros de la red

In [0]:
import torch.nn as nn
import torch.nn.functional as F

class MyModule(nn.Module):
    def __init__(self, in_size, h_size, out_size, levels):
        super(MyModule, self).__init__()
        self.__in = nn.Parameter(torch.rand(in_size, h_size))
        self.__hiddens = nn.ParameterList([nn.Parameter(torch.rand(h_size, h_size)) for i in range(levels)])
        self.__out = nn.Parameter(torch.rand(h_size, out_size))

    def forward(self, x):
        h = x.mm(self.__in)
        
        # ParameterList can act as an iterable, or be indexed using ints
        for hidden in self.__hiddens:
            h = h.mm(hidden)
      
        y = torch.sigmoid(h.mm(self.__out))
        return y
      
net = MyModule(in_size=128, h_size=200, out_size=1, levels=5)
print(net)
print('Count of parameters: {}'.format(len(list(net.parameters()))))

x = torch.ones(1, 128)
print(net(x))

MyModule(
  (_MyModule__hiddens): ParameterList(
      (0): Parameter containing: [torch.FloatTensor of size 200x200]
      (1): Parameter containing: [torch.FloatTensor of size 200x200]
      (2): Parameter containing: [torch.FloatTensor of size 200x200]
      (3): Parameter containing: [torch.FloatTensor of size 200x200]
      (4): Parameter containing: [torch.FloatTensor of size 200x200]
  )
)
Count of parameters: 7
tensor([[1.]], grad_fn=<SigmoidBackward>)


## Dataset, DataLoader y btachs
`Dataset` es una clase abstracta que representa un conjunto de datos.

Todos los conjuntos de datos que representan un mapa de key->target deben ser subclases de `Dataset`. Todas las subclases deben sobrescribir `__getitem__()`, lo que permite recuperar una muestra de datos para un k determinado. Las subclases también podrían sobrescribir opcionalmente `__len__()`, que se espera que devuelva el tamaño del conjunto de datos.

In [0]:
import torch.utils.data as data

class MyDataset(data.Dataset):
  def __init__(self, vectors, targets):
    self.vectors = vectors
    self.targets = targets
    
  def __getitem__(self, index):
    return vectors[index], targets[index]
  
  def __len__(self):
    return len(vectors)

# generate random data
import random
odds = list(range(0, 10000, 2))
evens = list(range(1, 10000, 2))
vectors = [torch.FloatTensor([random.sample(odds if i%2==0 else evens, 128)]) for i in range(1000)]
targets = [i%2==0 for i in range(1000)]

# create Dataset
dataset = MyDataset(vectors, targets)

# define data loader by batchs
loader = data.DataLoader(dataset, batch_size=100, shuffle=True)

# define net model
net = MyModule(128, 200, 1, 2)

# itering over batchs
for i, (x, y) in enumerate(loader):
  # (batch_size x 1 x 128) -> (batch_size x 128)
  x = x.view(-1, 128)
  
  # compute predictions
  prediction = net(x)
  
  print('iter {}: {}'.format(i, prediction.size()))
  
  # here you are going to compute accuracy, loss and update weights
  # ...

iter 0: torch.Size([100, 1])
iter 1: torch.Size([100, 1])
iter 2: torch.Size([100, 1])
iter 3: torch.Size([100, 1])
iter 4: torch.Size([100, 1])
iter 5: torch.Size([100, 1])
iter 6: torch.Size([100, 1])
iter 7: torch.Size([100, 1])
iter 8: torch.Size([100, 1])
iter 9: torch.Size([100, 1])


## Diferenciación
La función de activación Leaky rectified linear unit (Leaky ReLU) se define como :

$$ f(x) =
\left\{
	\begin{array}{ll}
		x  & \mbox{if } x \geq 0 \\
		\alpha \cdot x & \mbox{if } x < 0
	\end{array}
\right. 
$$

Por lo tanto su derivada será:
$$ \frac{d\,f}{dx}(x) =
\left\{
	\begin{array}{ll}
		1  & \mbox{if } x \geq 0 \\
		\alpha & \mbox{if } x < 0
	\end{array}
\right. 
$$

In [0]:
def leaky_relu(x, alpha, gradient = False):
  if gradient:
    y = torch.ones_like(x)
    y[x < 0]  = alpha
    return y
  
  y = x
  y[y < 0] = alpha * y[y < 0]
  
  return y

x = torch.randn(1,5)
print("x = {}".format(x))

leaky_relu = leaky_relu(x, 0.1, gradient=True)
print("leaky_relu(x, 0.1) = {}".format(leaky_relu))

x = tensor([[-0.7398, -0.1336, -1.9105, -0.9299,  0.5905]])
leaky_relu(x, 0.1) = tensor([[0.1000, 0.1000, 0.1000, 0.1000, 1.0000]])


## Diferenciación automática
El paquete `autograd` nos brinda la capacidad de realizar diferenciación automática o cálculo automático de gradiente para todas las operaciones en tensores. Es un define-by-run framework, lo que significa que nuestro back-propagation queda definido por cómo se ejecuta nuestro código.

Veamos cómo realizar una diferenciación automática mediante un ejemplo simple. Primero, creamos un tensor con el parámetro `require_grad` establecido en `True` porque queremos rastrear todas las operaciones que se realizan en ese tensor.

In [0]:
# create a tensor with requires_grad = True
x = torch.ones([3,2], requires_grad=True)
print(x)

# perform a simple tensor addition operation
y = x + 5  # tensor addition
print(y)  # check the result

# perform more operations on y and create a new tensor z
z = y*y + 1
print(z)

t = torch.sum(z)  # adding all the values in z
print(t)

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]], requires_grad=True)
tensor([[6., 6.],
        [6., 6.],
        [6., 6.]], grad_fn=<AddBackward0>)
tensor([[37., 37.],
        [37., 37.],
        [37., 37.]], grad_fn=<AddBackward0>)
tensor(222., grad_fn=<SumBackward0>)


### Backpropagation

In [0]:
t.backward() #peform backpropagation but pytorch will not print any output.

# print gradients d(t)/dx
print(x.grad)

tensor([[12., 12.],
        [12., 12.],
        [12., 12.]])


## SGD
El Descenso de Gradiente, o Descenso de Gradiente Estocástico, es un algoritmo de optimización para actualizar los parámetros del modelo de aprendizaje automático. Hay muchos otros algoritmos de actualización (a saber, optimizadores), pero SGD es más simple y fácil de implementar.

Para este optimizador necesitamos una tasa de aprendizaje, generalmente un pequeño número flotante. Esta será una constante (al menos en SGD) que reflejará cuán abruptamente estaremos actualizando los parámetros de red. Cuanto más grande es, cuanto más cambiamos en cada iteración, más pequeño, más sutil es el cambio.

In [0]:
# Lets set the learning rate to 0.5
lr = 0.01

# We generate 2 random tensors. One 1x2 and another 2x1
x = torch.randn(1,2, dtype=torch.float)
y = torch.randn(2,1)

# we need to explicitly tell pytorch that we want this tensor to hace its gradients calculated
y.requires_grad_()
print(f"Our tensor before the update:\n {y}")

# Multiply the input tensor with our middle tensor
z = x @ y
print("\nThe output: {}".format(z))

# calculate the gradients
z.backward()

# this is just an indicator to pytorch to not listen to the following operations
# if we dont use this, the gradient could change unexpectedly
with torch.no_grad():
    y -= y.grad * lr  # update the tensor with the learning rate and its gradient
    y.grad.zero_()  # set the gradient to zero, we dont want this to accumulate
    
print(f"\nOur tensor after the update:\n {y}")

Our tensor before the update:
 tensor([[ 1.8459],
        [-0.8448]], requires_grad=True)

The output: tensor([[-5.2080]], grad_fn=<MmBackward>)

Our tensor after the update:
 tensor([[ 1.8707],
        [-0.8523]], requires_grad=True)


# Referencias
* Pytorch documentation: https://pytorch.org/docs/stable/index.html
* A tutorial on how autograd works: https://towardsdatascience.com/pytorch-autograd-understanding-the-heart-of-pytorchs-magic-2686cd94ec95