# Introducción al aprendizaje profundo (Deep learning) con PyTorch

<p style='text-align: justify;'> En este notebook, se le presentará 
<a href="http://pytorch.org/" title="PyTorch">PyTorch</a>
, un framework para construir y entrenar redes neuronales. PyTorch en muchos sentidos se comporta como los array y matrices de Numpy. Estos arrays y matrices Numpy, después de todo, son solo 
<a href="https://towardsdatascience.com/quick-ml-concepts-tensors-eb1330d7760f" title="Tensores">Tensores</a>. 
PyTorch toma estos tensores y simplifica el envio de datos a las GPU para el procesamiento más rápido necesario al entrenar redes neuronales. También proporciona un módulo que calcula automáticamente los gradientes (¡para backpropagation!) Y otro módulo específicamente para construir redes neuronales (Neural Networks). En conjunto, PyTorch termina siendo más afin con Python y Numpy/Scipy stack en comparación con TensorFlow y otros frameworks. </p>


## Redes Neuronales - Neural Networks

<p style='text-align: justify;'> 
El aprendizaje profundo (Deep Learning) se basa en redes neuronales artificiales que han existido de alguna forma desde finales de la década de 1950. Las redes se construyen a partir de partes individuales que se aproximan a las neuronas, normalmente llamadas unidades o simplemente "neuronas". Cada unidad tiene una cierta cantidad de entradas ponderadas. Estas entradas ponderadas se suman (una combinación lineal) y luego se pasan a través de una función de activación para obtener la salida de la unidad.
</p>


<img src="assets/simple_neuron.png" width=400px>

Matemáticamente esto se ve así:

$$
\begin{align}
y &= f(w_1 x_1 + w_2 x_2 + b) \\
y &= f\left(\sum_i w_i x_i +b \right)
\end{align}
$$
Con vectores, este es el producto-punto interno de dos vectores:

$$
h = \begin{bmatrix}
x_1 \, x_2 \cdots  x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_1 \\
           w_2 \\
           \vdots \\
           w_n
\end{bmatrix}
$$

## Tensors

<p style='text-align: justify;'> 
Los cálculos de redes neuronales son solo un montón de operaciones de álgebra lineal en *tensores*, una generalización de matrices. Un vector es un tensor unidimensional, una matriz es un tensor bidimensional, una matriz con tres índices es un tensor tridimensional (imágenes en color RGB, por ejemplo). La estructura de datos fundamental para las redes neuronales son los tensores y PyTorch (así como casi todos los demás marcos de aprendizaje profundo) se basa en tensores.
</p>

<img src="assets/tensor_examples.svg" width=600px>

Con los conceptos básicos cubiertos, es hora de explorar cómo podemos usar PyTorch para construir una red neuronal simple.

In [1]:
# primero, importamos PyTorch
import torch

In [2]:
# creamos la funcion de activacion
def activation(x):
    """ Sigmoid activation function 
    
        Arguments
        ---------
        x: torch.Tensor
    """
    return 1/(1+torch.exp(-x))

In [3]:
### creamos algunos datos
torch.manual_seed(7) # Asignamos un valor aleatorio para que el analosis se torne predecible

# Features son 5 variables aleatorias normales
features = torch.randn((1, 5))
# pesos verdaderos para los datos usando de nuevo variables aleatorias
weights = torch.randn_like(features)
# se defina el sesgo
bias = torch.randn((1, 1))

In [4]:
features

tensor([[-0.1468,  0.7861,  0.9468, -1.1143,  1.6908]])

Arriba generamos datos que podemos usar para obtener el resultado de nuestra red simple. Todo esto es simplemente aleatorio por ahora, en el futuro comenzaremos a usar datos normales. Pasando por cada línea relevante:


`features = torch.randn((1, 5))` creamos un tensor con forma `(1, 5)`, una fila y cinco columnas, que contiene valores distribuidos aleatoriamente de acuerdo con la distribución normal con una media de cero y una desviación estándar de uno. 

`weights = torch.randn_like(features)` creamos otro tensor con la misma forma que `features`, nuevamente conteniendo valores de una distribución normal.

por ultimo, `bias = torch.randn((1, 1))` crea un valor único a partir de una distribución normal.

Los tensores de PyTorch se pueden sumar, multiplicar, restar, etc., al igual que las matrices Numpy. En general, usaremos tensores PyTorch de la misma manera que usariamos matrices en Numpy. Sin embargo, vienen con algunos beneficios interesantes, como la aceleración de la GPU, que veremos más adelante. Por ahora, utilicemos los datos generados para calcular la salida de esta simple red de una sola capa.

> ** Ejercicio **: Calcule la salida de la red con las características de entrada "features", ponderaciones "weights" y sesgo "bias". Similar a Numpy, PyTorch tiene un [`torch.sum()`](https://pytorch.org/docs/stable/torch.html#torch.sum) función, así como un método `.sum ()` sobre tensores, para tomar sumas. Utilice la función "activación" definida anteriormente como función de activación.

In [5]:
## Calculemos la salida de esta red usando las caracteristicas(features), los pesos(weights) y el el sesgo(bias) del tensor.

print(torch.sum(features))
print(torch.sum(weights))
print(torch.sum(bias))
print()
print(activation(features.sum()))
print(activation(weights.sum()))
print(activation(bias.sum()))
print()

tensor(2.1626)
tensor(-1.5621)
tensor(0.3177)

tensor(0.8968)
tensor(0.1733)
tensor(0.5788)



In [6]:
## Solucion
y = activation(torch.sum(features * weights) + bias)
y = activation((features * weights).sum() + bias)

In [7]:
bias.shape

torch.Size([1, 1])

In [8]:
## Solution

y = activation(torch.mm(features, weights.view(5,1)) + bias)

Podemos hacer la multiplicación y la suma en la misma operación usando una multiplicación de matrices. En general, se busca usar multiplicaciones de matrices, ya que son más eficientes y aceleradas al usar bibliotecas modernas y computación de alto rendimiento en GPU.

Aquí, queremos hacer una multiplicación matricial de las características y los pesos. Para esto podemos usar [`torch.mm()`](https://pytorch.org/docs/stable/torch.html#torch.mm) or [`torch.matmul()`](https://pytorch.org/docs/stable/torch.html#torch.matmul) que es algo más complicado y soporta la radiodifusión. Si nosotros intentamos hacerlo con `features` y` weights` tal como están, obtendremos un error
```python
>> torch.mm(features, weights)

---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-13-15d592eb5279> in <module>()
----> 1 torch.mm(features, weights)

RuntimeError: size mismatch, m1: [1 x 5], m2: [1 x 5] at /Users/soumith/minicondabuild3/conda-bld/pytorch_1524590658547/work/aten/src/TH/generic/THTensorMath.c:2033
```

A medida que construye redes neuronales en cualquier marco, verá esto a menudo. Muy a menudo. Lo que sucede aquí es que nuestros tensores no tienen las formas correctas para realizar una multiplicación de matrices. Recuerde que para las multiplicaciones de matrices, el número de columnas en el primer tensor debe ser igual al número de filas en la segunda columna. Tanto las "características" como los "pesos" tienen la misma forma, "(1, 5)". Esto significa que debemos cambiar la forma de los "pesos" para que funcione la multiplicación de matrices.

** Nota: ** Para ver la forma de un tensor llamado `tensor`, usa` tensor.shape`. Si está creando redes neuronales, utilizará este método con frecuencia.

Aquí hay algunas opciones: [`weights.reshape()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.reshape), [`weights.resize_()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.resize_), y [`weights.view()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.view).

* `weights.reshape(a, b)` devolverá un nuevo tensor con los mismos datos que "pesos" con tamaño "(a, b)" a veces, ya veces un clon, ya que copia los datos a otra parte de la memoria.
* `weights.resize_(a, b)` devuelve el mismo tensor con una forma diferente. Sin embargo, si la nueva forma da como resultado menos elementos que el tensor original, algunos elementos se eliminarán del tensor (pero no de la memoria). Si la nueva forma da como resultado más elementos que el tensor original, los elementos nuevos no se inicializarán en la memoria. Aquí debo señalar que el guión bajo al final del método denota que este método se realiza ** en el lugar **. Aquí hay un gran hilo del foro de [read more about in-place operations](https://discuss.pytorch.org/t/what-is-in-place-operation/16244) en PyTorch.
* `weights.view(a, b)` devolverá un nuevo tensor con los mismos datos que "weights" con tamaño "(a, b)".

Normalmente ese `.view()`, pero cualquiera de los tres métodos funcionará para esto. Entonces, ahora podemos cambiar la forma de "weights" para tener cinco filas y una columna con algo como "weights.view(5, 1)".

> ** Ejercicio **: Calcula la salida de nuestra pequeña red usando la multiplicación de matrices.

In [9]:
## Calculate the output of this network using matrix multiplication
features
weights = weights.view(5,1)
activation(torch.mm(features, weights) + bias)

tensor([[ 0.1595]])

### Stack them up!

Así es como se puede calcular la salida de una sola neurona. El verdadero poder de este algoritmo ocurre cuando comienzas a apilar estas unidades individuales en capas y pilas de capas, en una red de neuronas. La salida de una capa de neuronas se convierte en la entrada para la siguiente capa. Con múltiples unidades de entrada y unidades de salida, ahora necesitamos expresar los pesos como una matriz.

<img src='assets/multilayer_diagram_weights.png' width=450px>

La primera capa que se muestra en la parte inferior aquí son las entradas, se conoce como ** capa de entrada **. La capa intermedia se llama ** capa oculta ** y la capa final (a la derecha) es la ** capa de salida **. Podemos expresar esta red matemáticamente con matrices nuevamente y usar la multiplicación de matrices para obtener combinaciones lineales para cada unidad en una operación. Por ejemplo, la capa oculta ($h_1 $ y $h_2 $ aquí) se puede calcular

$$
\vec{h} = [h_1 \, h_2] = 
\begin{bmatrix}
x_1 \, x_2 \cdots \, x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_{11} & w_{12} \\
           w_{21} &w_{22} \\
           \vdots &\vdots \\
           w_{n1} &w_{n2}
\end{bmatrix}
$$

La salida para esta pequeña red se encuentra tratando la capa oculta como entradas para la unidad de salida. La salida de la red se expresa simplemente

$$
y =  f_2 \! \left(\, f_1 \! \left(\vec{x} \, \mathbf{W_1}\right) \mathbf{W_2} \right)
$$

In [10]:
### Generamos datos
torch.manual_seed(7) # Asignamos un valor aleatorio para que el analosis se torne predecible

# Features son 3 variables aleatorias normales
features = torch.randn((1, 3))

# Define los valores de cada capa in la red
n_input = features.shape[1]     # Number of input units, must match number of input features
n_hidden = 2                    # Number of hidden units 
n_output = 1                    # Number of output units

# Pesos para las entradas de la capa oculta
W1 = torch.randn(n_input, n_hidden)
# Pesos de la capa oculta a la capa de salida
W2 = torch.randn(n_hidden, n_output)

# definimos los términos de sesgo para capas ocultas y de salida
B1 = torch.randn((1, n_hidden))
B2 = torch.randn((1, n_output))

> **Exercise:** Calculate the output for this multi-layer network using the weights `W1` & `W2`, and the biases, `B1` & `B2`. 

In [11]:
## Your solution here
#calculate firts hidden layer
x = activation(torch.mm(features, W1) + B1)
#calculate lastone hidden layer
activation(torch.mm(x,W2) + B2)

tensor([[ 0.3171]])

Si hizo esto correctamente, debería ver la salida `tensor ([[0.3171]])`.

El número de unidades ocultas es un parámetro de la red, a menudo llamado ** hiperparámetro ** para diferenciarlo de los parámetros de ponderaciones y sesgos. Como verá más adelante, cuando analicemos el entrenamiento de una red neuronal, cuantas más unidades ocultas tenga una red y más capas, mejor podrá aprender de los datos y hacer predicciones precisas.

## Numpy to Torch and back

Sección de bonificación especial! PyTorch tiene una gran característica para convertir entre matrices Numpy y tensores Torch. Para crear un tensor a partir de una matriz Numpy, use `torch.from_numpy()`. Para convertir un tensor en una matriz Numpy, use el método `.numpy ()`.

In [12]:
import numpy as np
a = np.random.rand(4,3)
a

array([[ 0.67074982,  0.90466332,  0.46128531],
       [ 0.51230911,  0.18835729,  0.43471674],
       [ 0.22338983,  0.76382028,  0.67405823],
       [ 0.82932055,  0.65622593,  0.0371518 ]])

In [13]:
b = torch.from_numpy(a)
b

tensor([[ 0.6707,  0.9047,  0.4613],
        [ 0.5123,  0.1884,  0.4347],
        [ 0.2234,  0.7638,  0.6741],
        [ 0.8293,  0.6562,  0.0372]], dtype=torch.float64)

In [14]:
b.numpy()

array([[ 0.67074982,  0.90466332,  0.46128531],
       [ 0.51230911,  0.18835729,  0.43471674],
       [ 0.22338983,  0.76382028,  0.67405823],
       [ 0.82932055,  0.65622593,  0.0371518 ]])

La memoria se comparte entre la matriz Numpy y el tensor Torch, por lo que si cambia los valores en el lugar de un objeto, el otro también cambiará.

In [15]:
# Multiply PyTorch Tensor by 2, in place
b.mul_(4)

tensor([[ 2.6830,  3.6187,  1.8451],
        [ 2.0492,  0.7534,  1.7389],
        [ 0.8936,  3.0553,  2.6962],
        [ 3.3173,  2.6249,  0.1486]], dtype=torch.float64)

In [16]:
# Numpy array matches new values from Tensor
a

array([[ 2.6829993 ,  3.61865328,  1.84514124],
       [ 2.04923646,  0.75342916,  1.73886697],
       [ 0.89355934,  3.05528112,  2.69623291],
       [ 3.31728218,  2.62490371,  0.1486072 ]])