# Retropropagación a un paso

La retropropagación nos brinda un mecanismo para entrenar redes de más de una capa. Su funcionamiento traslada el error en la predicción hacia atŕas usando la derivada parcial de dicho error con respecto de cada uno de los pesos. Es decir,

$$
		\frac{\partial E}{\partial w_{ho}} = \frac{\partial E}{\partial h_o} \frac{\partial h_o}{\partial w_{ho}}  =   \frac{\partial E}{\partial h_o} y_h
$$

En este primer programa implementaremos el algoritmo de retropropagación para determinar los incrementos que debe tener cada capa de la red. En un siguiente ejercicio realizaremos todo el proceso de retropropagación.

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/irvingvasquez/cv2course_intro_nn/blob/master/06_retropropagacion_base.ipynb)

@juan1rving

In [1]:
#importamos paquetes
import numpy as np

In [2]:
# definimos funciones útiles

def sigmoid_prime(x):
    return sigmoid(x)*(1-sigmoid(x))

def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1 / (1 + np.exp(-x))


In [3]:
# Definamos una arquitectura de red 3x2x1

x = np.array([0.5, 0.1, -0.2])
target = 0.6
learnrate = 0.5

weights_input_hidden = np.array([[0.5, -0.6],
                                 [0.1, -0.2],
                                 [0.1, 0.7]])

weights_hidden_output = np.array([0.1, -0.3])

## Pase frontal

Definimos el comportamiento de la red en el pase frontal.

$$
\hat{y} = f(WX)
$$

In [4]:
hidden_layer_input = np.dot(x, weights_input_hidden)
hidden_layer_output = sigmoid(hidden_layer_input)

output_layer_in = np.dot(hidden_layer_output, weights_hidden_output)
output = sigmoid(output_layer_in)
print(output)

0.48497343084992534


## Pase hacia atrás

Calcula el cambio que deben de tener los pesos de acuerdo al error. Recordemos que para la capa de salida el término de error que se aplica es:

$$
\delta_o = (y-\hat{y})f'(h)
$$

Y para la capa oculta: 

$$
\delta_h = \delta_o w_{h,o} f'(h_h)
$$

este último término de error es diferente para cada neurona con índice $h$ de la capa oculta. Es decir tendremos tantas h como neuronas tenga la capa oculta. Nota que aunque el ejercicio se puede resolver usando vectores e índices, lo implementaremos usando notación matricial.




In [5]:
## Backwards pass
## TODO: Calcula el error residual
error = output - target

# TODO: Calcula el término de error para la capa de salida
del_err_output = error * sigmoid_prime(output_layer_in)

# TODO: Calcula el término de error para la capa oculta
del_err_hidden = np.dot(del_err_output, weights_hidden_output) * sigmoid_prime(hidden_layer_output)

print('error: ', error)
print('termino de error output: ', del_err_output)
print('termino de error hiden: ', del_err_hidden)

error:  -0.11502656915007464
termino de error output:  -0.028730669543515015
termino de error hiden:  [-0.00066482  0.0020761 ]


Ya que sabemos los términos de error que aplican en cada capa, procedemos a determinar los incrementos en cada capa.

$$
\Delta w_{h,o} = \Delta w_{h,o} + \delta_o \hat{y}_h 
$$

$$\Delta w_{i,h} = \Delta w_{i,h} + \delta_h x_i$$

In [6]:
# TODO: Calcular el incremento en cada peso de la capa oculta a la salida
delta_w_h_o = learnrate * np.dot(del_err_output, hidden_layer_output)

# TODO: Calcular el incremento en la capa de entrada a la oculta
delta_w_i_h = learnrate * np.dot(x.reshape(3,1), del_err_hidden.reshape(1,2))

print('Incremento de los pesos oculta a salida:')
print(delta_w_h_o)

print('Incremento de los pesos de entrada a oculta:')
print(delta_w_i_h)

Incremento de los pesos oculta a salida:
[-0.00804047 -0.00555918]
Incremento de los pesos de entrada a oculta:
[[-1.66206049e-04  5.19024317e-04]
 [-3.32412097e-05  1.03804863e-04]
 [ 6.64824194e-05 -2.07609727e-04]]
