# Daniel Isai Catonga Tecla
# Retropropagación a un paso
Ejercicio (4 puntos posibles)

La retropropagación nos brinda un mecanismo para entrenar redes de más de una capa. Su funcionamiento traslada el error en la predicción hacia atŕas usando la derivada parcial de dicho error con respecto de cada uno de los pesos. Es decir,

$$
		\frac{\partial E}{\partial w_{ho}} = \frac{\partial E}{\partial h_o} \frac{\partial h_o}{\partial w_{ho}}  =   \frac{\partial E}{\partial h_o} y_h
$$

donde el subíndice $o$ indica output y $h$ hidden

En este primer programa implementaremos el algoritmo de retropropagación para determinar los incrementos que debe tener cada capa de la red. En un siguiente ejercicio realizaremos todo el proceso de retropropagación.

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/irvingvasquez/cv2course_intro_nn/blob/master/06_retropropagacion_base.ipynb)

@juan1rving

In [1]:
#importamos paquetes
import numpy as np

In [2]:
# definimos funciones útiles

def sigmoid_prime(x):
    return sigmoid(x)*(1-sigmoid(x))

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [3]:
# Definamos una arquitectura de red 3x2x1

x = np.array([0.5, 0.1, -0.2])
target = 0.6
learnrate = 0.5

weights_input_hidden = np.array([[0.5, -0.6],
                                 [0.1, -0.2],
                                 [0.1, 0.7]])

weights_hidden_output = np.array([0.1, -0.3])

## Pase frontal

Definimos el comportamiento de la red en el pase frontal.

$$
\hat{y} = f(WX)
$$

In [11]:
hidden_layer_input = np.dot(x, weights_input_hidden)
hidden_layer_output = sigmoid(hidden_layer_input)

output_layer_in = np.dot(hidden_layer_output, weights_hidden_output)
output = sigmoid(output_layer_in)
print(output)

0.48497343084992534


## Pase hacia atrás

Calcula el cambio que deben de tener los pesos de acuerdo al error. Recordemos que para la capa de salida el término de error que se aplica es:

$$
\delta_o = (y-\hat{y})f_o'(h)
$$

Y para la capa oculta: 

$$
\delta_h = \delta_o w_{h,o} f_h'(h_h)
$$

este último término de error es diferente para cada neurona con índice $h$ de la capa oculta. Es decir tendremos tantas h como neuronas tenga la capa oculta. Nota que aunque el ejercicio se puede resolver usando vectores e índices, lo implementaremos usando notación matricial.




In [12]:
#TODO (1 punto): completa el código

## Backward pass
## TODO: Calcula el error residual
error = target - output

# TODO: Calcula el término de error para la capa de salida
del_err_output = error * sigmoid_prime(output)

# TODO: Calcula el término de error para la capa oculta
del_err_hidden = del_err_output * np.multiply(weights_hidden_output, sigmoid_prime(hidden_layer_input))

print("Error:", error)
print("Delta Output:", del_err_output)
print("Delta Hidden:", del_err_hidden)

Error: 0.11502656915007464
Delta Output: 0.02712989695909555
Delta Hidden: [ 0.00066857 -0.00193079]


Ya que sabemos los términos de error que aplican en cada capa, procedemos a determinar los incrementos en cada capa. 


Para la capa de salida
$$
\Delta w_{h,o} = \eta \delta_o \hat{y}_h 
$$

Para la capa oculta
$$\Delta w_{i,h} = \eta \delta_h x_i$$

In [15]:
#TODO (2 puntos): Completa el código

# TODO: Propon un valor para la tasa de aprendizaje diferente a la original
learnrate = 0.1

# TODO: Calcular el incremento en cada peso de la capa oculta a la salida
delta_w_h_o = learnrate * del_err_output * hidden_layer_output

# TODO: Calcular el incremento en la capa de entrada a la oculta
delta_w_i_h = learnrate * (del_err_hidden * x[:,None])

# TODO: Actualiza los pesos
weights_hidden_output += delta_w_h_o
weights_input_hidden += delta_w_i_h

print('Incremento de los pesos oculta a salida:')
print(delta_w_h_o)

print('Incremento de los pesos de entrada a oculta:')
print(delta_w_i_h)

print('Nuevos pesos oculta a salida:')
print(weights_hidden_output)

print('Nuevos pesos de entrada a oculta:')
print(weights_input_hidden)

Incremento de los pesos oculta a salida:
[0.0015185  0.00104989]
Incremento de los pesos de entrada a oculta:
[[ 3.34286831e-05 -9.65394849e-05]
 [ 6.68573663e-06 -1.93078970e-05]
 [-1.33714733e-05  3.86157940e-05]]
Nuevos pesos oculta a salida:
[ 0.10303699 -0.29790022]
Nuevos pesos de entrada a oculta:
[[ 0.50006686 -0.60019308]
 [ 0.10001337 -0.20003862]
 [ 0.09997326  0.70007723]]


Contesta a las siguientes preguntas (1 punto):

¿La tasa de aprendizaje disminuye en cada capa?

No, la tasa de aprendizaje (learnrate) es la misma para todas las capas. Se aplica por igual tanto a los pesos entre la capa de entrada y la oculta, como entre la capa oculta y la de salida.

¿Son del mismo tamaño las matrices de los incrementos que las matrices de los pesos?

Sí, los incrementos tienen exactamente las mismas dimensiones que los pesos, para que puedan sumarse directamente al momento de incrementar o actualizar los pesos. 