# RN Backprogation online - step to step

In [1]:
import numpy as np
import math

# Arquitectura de la Red Neuronal

Para este ejemplo la arquitectura de la RN esta conformada por la capa de entrada $(in)$, una capa oculta $(h)$ y la capa de salida $(out)$. La arquitectura de la red se muestra en la siguiente imagen:

<div>
<img src="../img/rn_online_2-2-2.png" align="center" width="400"/>
<div style="text-align: justify;"/>



La imagen anterior tiene una capa de entrada $i$, una capa oculta $h$ y una capa de salida $k$. Las unidades en la capa oculta están completamente conectada a la capa de entrada y a la capa de salida.

Para representar la arquitectura de la red se utiliza una matriz  $W^{(h)}$ de dimensiones $i \times j$ que represente el conjunto de pesos entre dos capas, donde j es el número de neuronas de la capa oculta. Por ejemplo, para los pesos entre la capa de entrada y la capa oculta, de la imagen anterioro se utiliza la matriz:

$ W^{(h)} = \begin{bmatrix} 0.15 & 0.25 \\ 0.20 & 0.30 \end{bmatrix}$

$ b^{(h)} = \begin{bmatrix} 0.35 & 0.35  \end{bmatrix}$

In [2]:
w_h = np.array([[0.15, 0.25],
                [0.20, 0.30]])
                
b_h = np.array([0.35, 0.35])

Para representar los pesos entre la capa oculta y la capa de salida, de forma similar, se utiliza una matriz $W^{(out)}$ de dimensiones $j \times k$ que representa los conexiones entre ambas capas:

$ W^{(out)} = \begin{bmatrix} 0.40 & 0.50 \\ 0.45 & 0.55  \end{bmatrix}$

$ b^{(out)} = \begin{bmatrix}  0.60  & 0.60 \end{bmatrix}$

In [3]:
w_out = np.array([[0.40, 0.50], 
                  [0.45, 0.55]])
                  
b_out = np.array([0.60, 0.60])

Para entender como funciona esto dentro del contexto del aprendizaje de un modelo de MLP, se resume el proceso de aprendizaje en tres pasos:

1. Comenzando en la capa de entrada, se propaga los patrones (**feedforward**) de la muestra de entrenamiento hacia adelante de la red para generar una salida.
2. Con la salida actual de la red, se calcula el error que se desea minimizar utilizando la función de costo.
3. Con el algoritmo de **backpropagation** se propaga el error, al encontrar la derivada con respecto a cada peso en la red, para actualizar los pesos.

Existen dos formas de realizar el proceso de aprendizaje:

* **Online**, significa que por cada ejemplo de la muestra de entrenamiento, que se presenta a la red, se realiza un ajuste de pesos o mediante,
* **Batch**, donde se presentan todos los ejemplos de la muestra de entrenamiento y después de calcular los errores se ajustan solo una vez los pesos de la red.

## Feedforward

Para simplificar el proceso, solo utilizaremos un dato de entrenamiento:

| $x_1$ | $x_2$ | $t_1$ | $t_2$|
|---|---|---|---|
| 0.05 | 0.1 | 0.01 | 0.99

In [4]:
pattern = np.array([0.05, 0.1])
target = np.array([0.01, 0.99])

Para conocer la salida de la RN se propagan los patrones de la muestra de entrenamiento hacia adelante de la red, a partir de la capa de entrada.

### Activación de la capa de entrada

Para calcular la activación de las neuronas de la capa de entrada $a_i^{(in)}$ se consideran como tal las mismas entradas, es decir, el mismo patrón que se presenta a la red.

In [5]:
# Salida de las neronas de la capa de pattern[0]
a_in_i1 = pattern[0]
a_in_i2 = pattern[1] 

### Activación de la capa oculta

La activación de las neuronas de la capa oculta $a_j^{(h)}$ se realiza mediante la suma de la propagación de la capa anterior (capa de entrada) hacia la neurona de la capa de salida, que se desea calcular la entrada. 

Es decir, el cálculo de la propagación de la neurona $a_j^{(h)}$ se determina mediante $z_j^{(h)}$:

$z_j^{(h)} = a_0^{(in)}w_{0,j}^{(h)}+a_1^{(in)}w_{1,j}^{(h)}+ \cdots +a_i^{(in)}w_{i,j}^{(h)} = \sum_{i} a_i^{(in)}w_{i,j}$.

Para calcular la salida de las neurona de la capa oculta, se utiliza la función sigmoidea: $\phi\big(z\big) = \frac{1}{1 + e^{-z}}$, entoces la salida de las neurona $a_j^{(h)}$ se calcula mediante:  $a_j^{(h)} = \phi\big(z_j^{(h)}\big)$


In [6]:
# Entrada de las neuronas de la capa oculta
z_h_h1 = round(a_in_i1 * w_h[0][0] + a_in_i2 * w_h[1][0] + 1 * b_h[0], 5)
z_h_h2 = round(a_in_i1 * w_h[0][1] + a_in_i2 * w_h[1][1] + 1 * b_h[1], 5)

print("Entrada h1 = ", z_h_h1)
print("Entrada h2 = ", z_h_h2)

# Salida de las neuronas de la capa oculta
a_h_h1 = 1. / (1. + math.exp(- z_h_h1))
a_h_h2 = 1. / (1. + math.exp(- z_h_h2))

print("Salida h1 = ", a_h_h1)
print("Salida h2 = ", a_h_h2)


Entrada h1 =  0.3775
Entrada h2 =  0.3925
Salida h1 =  0.5932699921071872
Salida h2 =  0.596884378259767


### Activación de la capa de salida

Para la activación de las neuronas de la capa de salida $a_k^{(out)}$, el cálculo de las entradas y salidas de cada una de las neuronas se realiza de la misma forma que en la capa oculta. Ejemplo, para calcular la activación $a_k^{(out)}$, se considera el valor de entrada $z_k^{(out)}$:

$z_k^{(out)} = a_0^{(h)}w_{0,k}^{(out)}+a_1^{(h)}w_{1,k}^{(out)}+ \cdots +a_j^{(h)}w_{j,k}^{(out)}$

Para calcular la salida de las neurona de la capa de salida, nuevamente se utiliza la función sigmoidea: $\phi\big(z\big) = \frac{1}{1 + e^{-z}}$, entoces la salida de las neurona $a_k^{(out)}$ se calcula mediante:  $a_k^{(out)} = \phi\big(z_k^{(out)}\big)$


In [7]:
# Entrada a las neuronas de la capa oculta
z_out_o1 = a_h_h1 * w_out[0][0] + a_h_h2 * w_out[1][0] + 1 * b_out[0]
z_out_o2 = a_h_h1 * w_out[0][1] + a_h_h2 * w_out[1][1] + 1 * b_out[1]

print("Entrada o1 = ", z_out_o1)
print("Entrada o2 = ", z_out_o2)

# Salida de las neuronas de la capa oculta
a_out_o1 = 1 / (1 + math.exp(- z_out_o1))
a_out_o2 = 1 / (1 + math.exp(- z_out_o2))

print("Salida o1 = ", a_out_o1)
print("Salida o2 = ", a_out_o2)

Entrada o1 =  1.10590596705977
Entrada o2 =  1.2249214040964653
Salida o1 =  0.7513650695523157
Salida o2 =  0.7729284653214625


# Cálculo del error de la red

## Error total
 
Para calcular el error de la red se utiliza la función del Error Cuadrático Medio o Mean Square Error (MSE).

$E_{total} = \frac{1}{2} \Sigma_{i=0}^m (target_k - a_k^{(out))})^2$

In [8]:
error_o1 = round((target[0] - a_out_o1)**2 * 0.5, 5)
error_o2 = round((target[1] - a_out_o2)**2  * 0.5, 5)
error_total = error_o1 + error_o2
print("Error o1 = ", error_o1)
print("Error o2 = ", error_o2)
print("Error total = ", error_total)

Error o1 =  0.27481
Error o2 =  0.02356
Error total =  0.29837


# Algoritmo Backpropagation


Una vez obtenidos los valores de activación de la capa de salida y el error total de la red se realiza el ajuste de los pesos, para aprender el patrón que ha sido presentado a la red.

En este ejemplo se implementa el algoritmo de aprendizaje de backprogation con **gradiente descendiente** o **Gradient Descent (GD)** sobre **MSE**.

El objetivo en el aprendizaje es ajustar los pesos de la red para reducir el error general de la red ante el patron presentado, a partir de la siguiente ecuación:

$\Delta W \eta - \frac{\partial E}{\partial W}$

## Ajuste de los pesos de la capa de salida

Consideremos un peso en particular de la capa de salida

$\Delta w_{h_j, o_k} \alpha - \frac{\partial E}{\partial w_{h_j,o_k}}$

Es necesario considerar que el error no es directamente una función de un error. Por que la ecuación se expande a:

$\Delta w_{h_j,o_kj} = - \eta
\frac{\partial E}{\partial out_{o_k}} * 
\frac{\partial out_{o_k}}{\partial net_{o_k}} * 
\frac{\partial net_{o_k}}{\partial w_{h_j,h_k}}$

### Regla de cambio de pesos para un peso entre la capa oculta y de salida

$\Delta w_{h_j,o_k} = - \eta  (t_{o_k} - a_k^{(out)}) * a_k^{(out)} * ( 1 - a_k^{(out)}) * a_j^{(h)}$

1. Derivada del error con respecto a la activación: $- (t_{k} - a_k^{(out)})$

In [9]:
derivate_error_o1 = round(-(target[0] - a_out_o1), 5)
derivate_error_o2 = round(-(target[1] - a_out_o2), 5)

print("Derivadad del error total o1 =" , derivate_error_o1)
print("Derivadad del error total o2 =" , derivate_error_o2)

Derivadad del error total o1 = 0.74137
Derivadad del error total o2 = -0.21707


2. Derivada de la activación con respecto a la entrada: $a_k^{(out)} * ( 1 - a_k^{(out)})$

In [10]:

derivate_sigmoid_o1 = round( a_out_o1 * (1 - a_out_o1), 5)
derivate_sigmoid_o2 = round( a_out_o2 * (1 - a_out_o2), 5)

print("Derivate of the logistic o1 =", derivate_sigmoid_o1)
print("Derivate of the logistic o1 =", derivate_sigmoid_o2)

Derivate of the logistic o1 = 0.18682
Derivate of the logistic o1 = 0.17551


3. Derivada de la entrada con respecto al peso: $a_j^{(h)}$

In [11]:
print("Salida de h1", a_h_h1)
print("Salida de h2", a_h_h2)

Salida de h1 0.5932699921071872
Salida de h2 0.596884378259767


Si se considera que $\delta_k^{(out)} = (t_k - a_k^{(out)}) * a_k^{(out)} * (1- a_k^{(out)}) $￼, entonces la regla es muy similar a la del Perceptrón.

$\Delta w_{h_j, o_k} = - \eta \delta_{o_k} * a_j^{(h)}  $

In [12]:
delta_o1 = round(-(target[0] - a_out_o1) * a_out_o1 * (1 - a_out_o1), 5)
delta_o2 = round(-(target[1] - a_out_o2) * a_out_o2 * (1 - a_out_o2), 5)

print("delta o1 = ", delta_o1)
print("delta o2 = ", delta_o2)

delta o1 =  0.1385
delta o2 =  -0.0381


# Ajuste de pesos de la capa oculta

La manera de cambiar los pesos de entre la capa de entrada y la oculta depende del error de todos los nodos, esta conexión lleva a plantaer la siguiente ecuación:

$\Delta w_{ji} \, \alpha -
\big[ 
\sum_k 
\frac{\partial E_{total}}{\partial out_{o_k}} \frac{\partial out_{o_k}}{\partial net_{o_k}} \frac{\partial net_{o_k}}{\partial out_{h_j}}
\big] 
\frac{\partial out_{h_j}}{\partial net_{h_j}} 
\frac{\partial net_{h_j}}{\partial w_{h_j,i_i}}$

$\Delta w_{ji} = \eta 
\big[ 
\sum_k 
(t_{o_k} - a_k^{(out)}) * a_k^{(out)} * (1- a_k^{(out)}) w_{h_j, o_k}
\big] * 
a_j^{(h)} * (1 - a_j^{(h)}) *
a_i^{(in)}$

$\Delta w_{ji} = \eta 
\big[ 
\sum_k 
\delta_k^{(out)} w_{h_j, o_k}
\big] * 
a_j^{(h)} * (1 - a_j^{(h)}) *
a_i^{(in)}$
￼￼

In [13]:
derivate_error_h1_o1 = derivate_error_o1 * derivate_sigmoid_o1 * w_out[0][0]
derivate_error_h1_o2 = derivate_error_o2 * derivate_sigmoid_o2 * w_out[0][1]
print(derivate_error_h1_o1)
print(derivate_error_h1_o2)

derivate_error_h2_o1 = derivate_error_o1 * derivate_sigmoid_o1 * w_out[1][0]
derivate_error_h2_o2 = derivate_error_o2 * derivate_sigmoid_o2 * w_out[1][1]
print(derivate_error_h2_o1)
print(derivate_error_h2_o2)


error_h1 = derivate_error_h1_o1 + derivate_error_h1_o2
print("Derivada del Error  total de h1 = ", error_h1 )

error_h2 = derivate_error_h2_o1 + derivate_error_h2_o2
print("Derivada del Error  total de h2 = ", error_h2 )


derivate_sigmoid_h1 = a_h_h1 * (1 - a_h_h1)
print("derivate of the logistic h1 = " , derivate_sigmoid_h1)

derivate_sigmoid_h2 = a_h_h2 * (1 - a_h_h2)
print("derivate of the logistic h2 = " , derivate_sigmoid_h2)

# Ahora se calcula la derivada parcial de la entrad de h1 con respecto a w1 que es igual a la entrada i
print("Salida de i1 = ", a_in_i1)
print("Salida de i2 = ", a_in_i2)

delta_h1 = error_h1 * derivate_sigmoid_h1 #* a_in_i1
delta_h2 = error_h2 * derivate_sigmoid_h2 #* a_in_i2

print("Delta h1", delta_h1)
print("Delta h2", delta_h2)

0.05540109736000001
-0.019048977850000003
0.06232623453000001
-0.020953875635000004
Derivada del Error  total de h1 =  0.03635211951000001
Derivada del Error  total de h2 =  0.041372358895
derivate of the logistic h1 =  0.24130070857232525
derivate of the logistic h2 =  0.2406134172492184
Salida de i1 =  0.05
Salida de i2 =  0.1
Delta h1 0.008771792195868851
Delta h2 0.009954744653387047


Una vez que los valores $\delta$ de cada capa han sido obtenidos se realizar el cambio de pesos de todas las capas.

### Regla de cambio de pesos para un peso entre la capa oculta y de salida

Cambio de pesos en la capa de salida mediante la regla:

$\Delta w_{h_j, o_k} = - \eta \delta_{o_k} * a_j^{(h)}$

In [14]:
eta = 0.5
# Pesos conectados a la neurona o1
w_out[0][0] = w_out[0][0] - eta * delta_o1 * a_h_h1
w_out[0][1] = w_out[0][1] - eta * delta_o2 * a_h_h2
# Pesos conectados a la neurona o2
w_out[1][0] = w_out[1][0] - eta * delta_o1 * a_h_h1
w_out[1][1] = w_out[1][1] - eta * delta_o2 * a_h_h2

print(w_out)

[[0.35891605 0.51137065]
 [0.40891605 0.56137065]]


In [15]:
b_out[0] = b_out[0] - eta * delta_o1
b_out[1] = b_out[1] - eta * delta_o2

print(b_out)

[0.53075 0.61905]


## Regla de cambio de pesos entre la capa de entrada y oculta

Si consideramos que $\delta_{h_j} = \big[ \sum_k w_{o_k,h_j} \big ] * out_{h_j} * (1- out_{h_j}) $, entonces la regla es muy similar a la anterior:

$\Delta w_{ij} = - \eta \delta_{h_j} out_{i_i}$

In [16]:
w_h[0][0] = w_h[0][0] - eta * delta_h1 * a_in_i1
w_h[1][0] = w_h[1][0] - eta * delta_h1 * a_in_i2
w_h[0][1] = w_h[0][1] - eta * delta_h2 * a_in_i1
w_h[1][1] = w_h[1][1] - eta * delta_h2 * a_in_i2

print(w_h)

[[0.14978071 0.24975113]
 [0.19956141 0.29950226]]


In [17]:
b_h[0] = b_h[0] - eta * delta_h1
b_h[1] = b_h[1] - eta * delta_h2

print(b_out)

[0.53075 0.61905]


* Este proceso se repite con cada ejemplo de la muestra de entrenamiento (época). 

* Al finalizar la época se reporta el error general de la red ante la muestra de entrenamiento.

* En cada época se espera que el error sea reducido como indicador de aprendizaje de la red.