## Backpropagation - Errores

En la sección anterior de “forward propagation” vimos como las funciones de activación son capaces de pasar un mensaje de la capa de input, hasta la última capa de output a través de las funciones de activación en cada capa oculta. También notamos la facilidad y eficiencia con la que esto se ejecuta mediante vectorización.

Ahora, al igual que en el algoritmo de Gradient Descent visto con Logistic Regression, debemos estimar el error de nuestros cálculos; es decir, la diferencia entre el output de la red neuronal y la etiqueta (label) para ese sample en específico.

La idea del algoritmo de backpropagation es que el error debe estimarse en cada capa (hidden layer) para poder determinar la contribución de cada peso w en el error de el nodo que apunta. 

Los errores en una red neuronal son acumulativos, es decir, el error de la capa de salida “va hacia atras” afectandos el cálculo de los otros errores.

En este notebook, solamente vamos a calcular los errores en cada capa. Mas adelante comprenderemos como re-calcular los pesos basados en gradientes.   


<img src="img/bp1.png" />

Para calcular el error debemos realizar los siguientes pasos primero:
- Eoutput1 (“e1”): es el error de la capa de salida. Este es simplemente la diferencia de y & y’.
- Eh1: para el nodo “verde” debemos calcular la contribución del error que causo el peso w11. 
- Eh2: de forma similar a Eh1, calculamos la contribución del error que causo w21.

Ahora, el error (e1) es la suma de las proporciones calculadas anteriormente para cada nodo. Por tanto, el error (e1) es la suma de los errores eh de sus salidas multiplicado por el error calculado de la capa anterior. Este proceso se repite en cada capa hasta llegar al primer “hidden layer”. Con este proceso podemos calcular todos los errores de cada capa.
En el siguiente diagrama podemos ver los cálculos que deben realizarse para calcular el error en las distintas capas. 

<img src="img/bp2.png" />

## Cálculo de Errores con Vectorización 

**WARNING:** 
Para poder hacer la ejecución vectorizada, vamos a eliminar el denominador de las proporciones del error de cada peso, esto para poder ejecutar el cálculo de errores de la forma más eficiente con un simple producto de matrices (dot-product). Como el denominador es solo un elemento normalizador, el calculo del error es proporcional, pero diferente.   

In [None]:
import numpy as np

# errores de la capa de salida
eo = np.array([[0.8,0.5]]).T

print(eo)
print("")

# pesos hidden layer 2
wh2 = np.array([[2.0,1.0],[3.0, 4.0]])
               
print(wh)
print("")

print("Error Layer 2")
e_L2 = np.dot(wh2,eo)
print(e_L2)
print("")

In [None]:
# pesos hidden layer 1
wh1 = np.array([[3.0,1.0],[2.0, 7.0]])

print("Error Layer 1")
e_L1 = np.dot(wh1,e_L2)
print(e_L1)
print("")