<a href="https://colab.research.google.com/github/mlaricobar/Deep-Learning-Course/blob/master/NOT01_Introducci%C3%B3n_a_Pytorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pytorch

## 1. Acerca de Pytorch

Bienvenidos! En este módulo aprenderás a cómo usar Pytorch para poder construir modelos de Deep Learning. Pytorch fue lanzado a inicios del 2017 y ha tenido un gran impacto en la comunidad del Deep Learning. Fue desarrollado como un proyecto **open source** por el equipo de investigación de [Facebook AI](https://research.fb.com/category/facebook-ai-research/), pero que está siendo adoptada  por equipos de todo el mundo en la industria y en lo académico. 

Pytorch es considerado el mejor framework para aprender Deep Learning y es muy cómodo trabajar en general. Al final de este módulo, crearemos nuestro propio modelo de Deep Learning para clasificar imágenes de perros y gatos.

**Pytorch** se comporta de muchas maneras como los arreglos que has visto en Numpy. Estos arreglos de Numpy, después de todo, son sólo **tensors**. Pytorch toma estos tensores y hace que sea sencillo moverlos a las GPUs para el procesamiento más rápido que se necesita al entrenar redes neuronales. También proporciona un módulo que calcula automáticamente los gradientes (para el backpropagation) y otro módulo específicamente para la construcción de redes neuronales. En general, Pytorch termina siendo más coherente con Python y el stack Numpy/Scipy en comparación con Tensorflow y otros marcos.

### Redes Neuronales

Deep Learning se basa en las redes neuronales artificiales que han existido de alguna forma desde finales de 1950. Las redes se construyen a partir de partes individuales que se aproximan a las neuronas, típicamente llamadas **unidades** o simplemente **neuronas**. Cada unidad tiene algún número de entradas ponderadas. Estas entradas ponderadas se suman (una combinación lineal) y luego se pasan a través de una función de activación para obtener la salida de la unidad.

![texto alternativo](https://github.com/mikolarico/course-images/blob/master/simple_neuron.png?raw=true)

Matemáticamente se ve de esta forma:

$$
\begin{align}
y &= f(w_1 x_1 + w_2 x_2 + b) \\
y &= f\left(\sum_i w_i x_i +b \right)
\end{align}
$$

A continuación se muestra el producto escalar de los vectores: 

$$
h = \begin{bmatrix}
x_1 \, x_2 \cdots  x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_1 \\
           w_2 \\
           \vdots \\
           w_n
\end{bmatrix}
$$

## 2. Tensors

Resulta que los cálculos de las redes neuronales son sólo un grupo de operaciones de algebra lineal sobre tensores, una generalización de las matrices. Por ejemplo, un vector es un tensor unidimensional, una matriz es un tensor bidimensional, una matriz con tres índices es un tensor tridimensional (por ejemplo las imágenes en color RGB). La estructura de datos fundamental para las redes neuronales son los tensores y Pytorch (así como casi todos los demás frameworks de Deep Learning) se basa en ellos.

![texto alternativo](https://github.com/mikolarico/course-images/blob/master/tensor_examples.png?raw=true)

Ya con lo básico cubierto, es hora de explorar cómo podemos usar Pytorch para construir una simple red neuronal.

In [0]:
# Primero importamos la librería de Pytorch
import torch

In [0]:
def activation(x):
  """ Función de activación Sigmoide
  
      Argumentos
      ------------
      x: torch.Tensor
  """
  return 1 / (1 + torch.exp(-x))

In [0]:
### Generaremos algunos datos
torch.manual_seed(7) # Establecemos el valor de la semilla para replicar los resultados

# Features son 3 variables aleatorias con distribución normal
features = torch.randn((1, 5))

# Pesos para nuestros datos, variables normales aleatorias nuevamente
weights = torch.randn_like(features)

# y el sesgo
bias = torch.randn((1, 1))

In [10]:
features

tensor([[-0.1468,  0.7861,  0.9468, -1.1143,  1.6908]])

In [11]:
weights

tensor([[-0.8948, -0.3556,  1.2324,  0.1382, -1.6822]])

In [12]:
bias

tensor([[0.3177]])

En las líneas anteriores, se generaron datos que podemos usar para obtener la salida de nuestra simple red. Todo es aleatorio por ahora, en el futuro comenzaremos a usar datos normales. Iremos paso a paso en cada línea:

`features = torch.randn((1, 5))` crea un tensor con dimensiones `(1, 5)`, una fila y 5 columnas, que contiene valores distribuidos aleatoriamente según la distribución normal con una media de cero y una desviación estándar de uno.

`weights = torch.randn_like(features)` crea otro tensor con las mismas dimensiones que `features`, nuevamente contiene los valores de una distribución normal.

Finalmente `bias = torch.randn((1, 1))` crea un único valor a partir de una distribución normal.

Los tensores de Pytorch se pueden sumar, multiplicar, restar, etc, al igual que los arreglos de Numpy. En general, utilizarás Pytorch de la misma forma que con las matrices de Numpy. Vienen con algunos buenos beneficios, como la aceleración de GPY, que veremos más adelante. Por ahora, use los datos generados para calcular la salida de esta simple red de una sola capa.

> **Ejercicio**: Calcule la salida de la red con las variables de entrada `features`, pesos `weights` y sesgo `bias`. Similar a Numpy, Pytorch tiene una función [`torch.sum()`](https://pytorch.org/docs/stable/torch.html#torch.sum) así como el método `.sum()` en los tensores, para sumarlos. Use la función `activation` definida anteriormente como la función de activación.





In [13]:
## Calcular la salida de la red usando los tensores de pesos y sesgo
y = activation(torch.sum(features * weights) +  bias)
y

tensor([[0.1595]])

In [14]:
y = activation((features * weights).sum() +  bias)
y

tensor([[0.1595]])

Puedes hacer la multiplicación y la suma en la misma operación usando una multiplicación de matrices. En general, queremos usar las multiplicaciones de matrices, ya que son más eficientes y aceleradas al usar librerías modernas y cálculo de alto rendimiento en las GPUs.

Aquí, queremos hacer una multiplicación matricial de las características y los pesos. Para esto podemos usar [`torch.mm()`](https://pytorch.org/docs/stable/torch.html#torch.mm) o [`torch.matmul()`](https://pytorch.org/docs/stable/torch.html#torch.matmul) que es algo más complicado y soporta el broadcasting. Si intentamos hacerlo con `features` y `weight` como están, obtendremos un error

```python
>> torch.mm(features, weights)

---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-13-15d592eb5279> in <module>()
----> 1 torch.mm(features, weights)

RuntimeError: size mismatch, m1: [1 x 5], m2: [1 x 5] at /Users/soumith/minicondabuild3/conda-bld/pytorch_1524590658547/work/aten/src/TH/generic/THTensorMath.c:2033
```

Cuando construyas redes neuronales en cualquier framework, verás esto a menudo. Muy a menudo. Lo que sucede aquí es que nuestros tensores no tienen las dimensiones correctas para realizar una multiplicación de matrices. Recuerde que para las multiplicaciones matriciales, el número de columnas en el primer tensor debe ser igual al número de filas en el segundo tensor. Tanto `features` como `weights` tienen la misma dimensión, `(1, 5)`. Esto significa que necesitamos cambiar la forma de `weights` para que la multiplicación de matrices funcione.

**Nota:** Para ver la forma de un tensor llamado `tensor`, use `tensor.shape`. Si te encuentras construyendo redes neuronales, a menudo utilizarás este método.

Hay algunas opciones aquí: [`weights.reshape()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.reshape), [`weights.resize_()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.resize_), y [`weights.view()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.view).

* `weight.reshape(a, b)` devolverá un nuevo tensor con los mismos datos que `weights` pero con tamaño `(a, b)` a veces, y algunas veces un clon, ya que copia los datos a otra parte de memoria.
* `weights.resize_(a, b)` devuelve el mismo tensor con una forma diferente. Sin embargo, si la nueva forma produce menos elementos que el tensor original, algunos elementos se eliminarán del tensor (pero no de la memoria). Si la nueva forma produce más elementos que el tensor original, los nuevos elementos se quedarán sin inicializar en la memoria. Aquí debo señalar que el subrayado al final del método denota que este método se realizar **en el lugar**. Aquí hay un hilo de foro para [leer más sobre las operaciones en el lugar](https://discuss.pytorch.org/t/what-is-in-place-operation/16244) en Pytorch.
* `weight.view(a, b)` devolverá un nuevo tensor con los mismos datos que `weights` pero con tamaño `(a, b)`.

Usualmente uso `.view()`, pero cualquiera de los tres métodos funcionará para esto. Entonces, ahora podemos cambiar la forma de `weights`  para tener cinco filas y una columna usando `weights.view(5, 1)`.

> **Ejercicio**: Calcule la salida de nuestra pequeña red usando la multiplicación de matrices.



In [22]:
features

tensor([[-0.1468,  0.7861,  0.9468, -1.1143,  1.6908]])

In [23]:
weights.shape

torch.Size([1, 5])

In [24]:
weights.view(5, 1)

tensor([[-0.8948],
        [-0.3556],
        [ 1.2324],
        [ 0.1382],
        [-1.6822]])

In [25]:
## Calcula la salida de esta red usando la multiplicación de matrices
y = activation(torch.mm(features, weights.view(5, 1)) + bias)
y

tensor([[0.1595]])

In [26]:
## Calcula la salida de esta red usando la multiplicación de matrices
y = activation(torch.matmul(features, weights.view(5, 1)) + bias)
y

tensor([[0.1595]])

### Stack them up!

Así es como se puede calcular la salida para una sola neurona. El poder real de este algoritmo sucede cuando comienza a apilar estas unidades individuales en capas y estas  capas en una red de neuronas. La salida de una capa de neuronas se convierte en la entrada para la siguiente capa. Con múltiples unidades de entrada y unidades de salida, ahora necesitamos expresar los pesos como una matriz.

![texto alternativo](https://github.com/mikolarico/course-images/blob/master/multilayer_diagram_weights.png?raw=true)

La primera capa que se muestra en la parte inferior son las entradas, comprensiblemente llamadas **capa de entrada**. La capa intermedia se llama **capa oculta**, y la capa final es la **capa de salida**. Podemos expresar esta red matemáticamente de nuevo con matrices y usar la multiplicación de matrices para obtener combinaciones lineales para cada unidad en una sola operación. Por ejemplo, la capa oculta ($h_1$ y $h_2$) se puede calcular:


$$
\vec{h} = [h_1 \, h_2] = 
\begin{bmatrix}
x_1 \, x_2 \cdots \, x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_{11} & w_{12} \\
           w_{21} &w_{22} \\
           \vdots &\vdots \\
           w_{n1} &w_{n2}
\end{bmatrix}
$$

La salida para esta pequeña red se encuentra al tratar la capa oculta como entradas para la unidad de salida. La salida de la red se expresa simplemente como

$$
y =  f_2 \! \left(\, f_1 \! \left(\vec{x} \, \mathbf{W_1}\right) \mathbf{W_2} \right)
$$

In [0]:
### Generaremos algunos datos
torch.manual_seed(7) # Establecemos el valor de la semilla para replicar los resultados

# Features son 3 variables aleatorias con distribución normal
features = torch.randn((1, 3))

# Definimos el tamaño de cada capa en nuestra red
n_input = features.shape[1]     # Número de unidades de entrada, debe coincidir con el número de variables de entrada
n_hidden = 2                    # Número de unidades ocultas
n_output = 1                    # Número de unidades de salida

# Pesos para las entradas hacia la capa oculta
W1 = torch.randn(n_input, n_hidden)

# Pesos para la capa oculta hacia la capa de salida
W2 = torch.randn(n_hidden, n_output)

# y el sesgo para las capas oculta y la de salida
B1 = torch.randn((1, n_hidden))
B2 = torch.randn((1, n_output))

> **Ejercicio:** Calcule la salida para esta red de múltiples capas utilizando los pesos `W1` y `W2`, y los sesgos `B1` y `B2`.

In [29]:
features

tensor([[-0.1468,  0.7861,  0.9468]])

In [30]:
W1

tensor([[-1.1143,  1.6908],
        [-0.8948, -0.3556],
        [ 1.2324,  0.1382]])

In [34]:
# Escribe aquí tu solución
activation(torch.matmul(activation(torch.matmul(features, W1) + B1), W2) + B2)

tensor([[0.3171]])

El número de unidades ocultas es un parámetro de la red, a menudo llamado un **hiperparámetro** para diferenciarlo de los parámetros `weights` y `biases`. Como veremos más adelante, cuando hablemos sobre la formación de una red neuronal, cuantas más unidades ocultas tenga una red y cuantas más capas, mejor podrá aprender de los datos y hacer predicciones precisas. 

## 3. Autograd

## 4. Construcción de una Red Neuronal

## 5. Transfer Learning