# REDES NEURONALES #

## 1. INTRODUCCION ##

En esta sesión vamos a trabajar sobre redes neuronales. Primero veremos la teoria de una red neuronal y como construir y entrenar una red neuronal desde cero para luego pasar a estudiar redes de convolución. 

Los temas de esta sesión son los siguientes:
1. **Repasar la teoría de redes neuronales:**
    1. _Capas de una red y Función de activación_. 
    2. _Función objetivo (Loss Function)_.
    3. _Backpropagation y optimización_.
2. **Construir una red neuronal de una sola capa**
3. **Construir una red neuronal de multiples capas**
4. **Redes de convolución**

**Los ejercicios practicos de esta sección están basados en el curso:**  
[Machine Learning Practical (MLP)](http://www.inf.ed.ac.uk/teaching/courses/mlp/index-2018.html) University of Edinburgh
    

## 2. RED NEURONAL ##

### 2.1 TEORÍA

### 2.1 PERCEPTRON

<img src="files/images/perceptron.png" style="width: 600px;" align="left">

### 2.1.2 MULTILAYER PERCEPTRON

<img src="files/images/mlp.png" style="width: 600px;" align="left">

Dado un vector $ x $ de entrada a una red neuronal como la de la imagen:
- Para cada neurona en la red se realiza un producto escalar de vectores ($w_{1n}^Tx$) al cual se le aplica una función no lineal $f$ (función de activación). El resultado de cada neurona es $f(w_{1n}^Tx)$.
- Si se realiza esta operación para cada neurona se puede definir la salidad de la primera capa como $h=f(W_1x)$
- La capa de salidad de la red (la vamos a denominar $y$) va a quedar definida por la ecuación $y=f(w_2^Tf(W_1x))$

### 2.1.3 FUNCIONES DE ACTIVACIÓN

#### _SIGMOID_

<img src="files/images/sigmoid.png" style="width: 600px;" align="left">

# $f(x) = \frac{1}{1 + e^{-x} }$

Credit: Wikipedia

#### _RECTIFIED LINEAR UNIT (RELU)_

## $ y = max(0,a) $

<img src="files/images/relu1.png" style="width: 450px;" align="left">
<img src="files/images/relu2.png" style="width: 450px;" align="rigth">

#### _SOFTMAX_

<img src="files/images/softmax.png" style="width: 600px;" align="center">

### 2.1.4 FUNCIONES DE ERROR ###

#### _REGRESIÓN_ ####

Para un problema de regresion existen varias funciones de error que se pueden utilizar. Una de las funciones más comunes a optimizar es el _Mean Squared Error_ (MSE).

El objetivo de un problema de regression es dado unos dataos de entrada $\left\lbrace \boldsymbol{x}^{(n)}\right\rbrace_{n=1}^N$ producir valores a la salida de la red $\left\lbrace \boldsymbol{y}^{(n)}\right\rbrace_{n=1}^N$ que sean lo más cercanos posibles a  $\left\lbrace \boldsymbol{t}^{(n)}\right\rbrace_{n=1}^N$. La medida que se utiliza para medir que tan cercanos son los valores es una decisión de diseño del problema. 

Una medida de error muy cómun es el cuadrado de la  distancia euclidiana. Esta se calcula haciendo la sumatoria de las diferencias cuadráticas entre las salidas esperadas y la salida de la red. Por otro lado es común multiplicar la salida por $\frac{1}{2}$ dado que esto genera una expresión más simple a la hora de calcular el gradiente. El error para el ejemplo de entrenamiento número $n^{\textrm{th}}$ es:

$$
    E^{(n)} = \frac{1}{2} \sum_{k=1}^K \left\lbrace \left( y^{(n)}_k - t^{(n)}_k \right)^2 \right\rbrace.
$$

El error general se calcula como el promedio del error para todas las muestras de entrenamiento.

$$
    \bar{E} = \frac{1}{N} \sum_{n=1}^N \left\lbrace E^{(n)} \right\rbrace. 
$$


## 2.2 IMPLEMENTACION: RED DE UNA SOLA CAPA (SINGLE LAYER NETWORK)##

#### Para poder optimizar una red correctamente hay que poder calcular los siguientes términos:
1. Salida de la red en función de una entrada.
2. La función objetivo a optimizar a la salidad de la red.
3. El gradiente de la función objectivo  (_Loss Function_)  en función de los parámetros de la red.

In [8]:
import numpy as np
seed = 27092016 
rng = np.random.RandomState(seed)

### 2.2.1 _FORWARD PROPAGATION_ ##

In [6]:
def fprop(inputs, weights, biases):
    """Forward propagates activations through the layer transformation.

    For inputs `x`, outputs `y`, weights `W` and biases `b` the layer
    corresponds to `y = W x + b`.

    Args:
        inputs: Array of layer inputs of shape (batch_size, input_dim).
        weights: Array of weight parameters of shape 
            (output_dim, input_dim).
        biases: Array of bias parameters of shape (output_dim, ).

    Returns:
        outputs: Array of layer outputs of shape (batch_size, output_dim).
    """
    raise NotImplementedError('Delete this raise statement and write your code here instead.')

### 2.2.1 _VERIFICAR RESULTADOS_ ###  

In [None]:
inputs = np.array([[0., -1., 2.], [-6., 3., 1.]])
weights = np.array([[2., -3., -1.], [-5., 7., 2.]])
biases = np.array([5., -3.])
true_outputs = np.array([[6., -6.], [-17., 50.]])

if not np.allclose(fprop(inputs, weights, biases), true_outputs):
    print('Wrong outputs computed.')
else:
    print('All outputs correct!')

### 2.2.2 _FUNCIÓN DE ERROR_

In [16]:
def error(outputs, targets):
    """Calculates error function given a batch of outputs and targets.

    Args:
        outputs: Array of model outputs of shape (batch_size, output_dim).
        targets: Array of target outputs of shape (batch_size, output_dim).

    Returns:
        Scalar error function value.
    """
    raise NotImplementedError('Delete this raise statement and write your code here instead.')
    
def error_grad(outputs, targets):
    """Calculates gradient of error function with respect to model outputs.

    Args:
        outputs: Array of model outputs of shape (batch_size, output_dim).
        targets: Array of target outputs of shape (batch_size, output_dim).

    Returns:
        Gradient of error function with respect to outputs.
        This will be an array of shape (batch_size, output_dim).
    """
    raise NotImplementedError('Delete this raise clause and write your code here instead.')

### 2.2.2 _VERIFICAR RESULTADOS_

In [None]:
outputs = np.array([[1., 2.], [-1., 0.], [6., -5.], [-1., 1.]])
targets = np.array([[0., 1.], [3., -2.], [7., -3.], [1., -2.]])
true_error = 5.
true_error_grad = np.array([[0.25, 0.25], [-1., 0.5], [-0.25, -0.5], [-0.5, 0.75]])

if not error(outputs, targets) == true_error:
    print('Error calculated incorrectly.')
elif not np.allclose(error_grad(outputs, targets), true_error_grad):
    print('Error gradient calculated incorrectly.')
else:
    print('Error function and gradient computed correctly!')