# Pruebas Backprop
Partiendo de una red neuronal como la que aparece en la figura, explicaremos y mostraremos el funcionamiento del algoritmo Backpropagation.

Les llamaremos w1, w2,...,w8 a los pesos para mayor simplicidad en la explicación.

<center>
<img src="https://i.postimg.cc/MKjXr14N/Full.png" alt="Red Neuronal" width="60%">
</center>

In [1]:
x0=1
x1=0.05
x2=0.1

y1=0.01
y2=0.99

b1=0.35
b2=0.6

w1=0.15
w2=0.2
w3=0.25
w4=0.3

w5=0.4
w6=0.45
w7=0.5
w8=0.55


In [2]:
import numpy as np

# Utilizaremos una función de activación sigmoid

def s(z):
  return 1/(1+np.exp(-z))

## Forward propagation

Una vez inicializados los pesos, y teniendo las entradas $x$ (en este caso sólo tenemos una observación: [0.05,0.1]), obtenemos los valores de salida, calculando los valores de las neuronas.

### Activaciones de la primera capa oculta (segunda capa)
Activaciones para $a^2_1$ y $a^2_2$

<center>
<img src="https://i.postimg.cc/j2B2SjWM/a21a22.png" alt="Activaciones de la capa oculta" width="60%">
</center>

In [3]:
# Calculando la relación lineal
z21 = w1*x1 + w2*x2 + b1*x0
# Función de activación s
a21 = s(z21)
print(z21, a21)

# Calculando la relación lineal
z22 = w3*x1 + w4*x2 + b1*x0
# Función de activación s
a22 = s(z22)
print(z22, a22)

0.3775 0.5932699921071872
0.39249999999999996 0.596884378259767


### Activaciones de la capa de salida (tercera capa)
Activaciones para $h_\Theta(x)_1 = a^3_1\:$ y $\:h_\Theta(x)_2 = a^3_2$

<center>
<img src="https://i.postimg.cc/pVSpZs0K/feedforward.png" alt="Feed forward" width="60%">
</center>

In [4]:
# Relación lineal
z31 = w5*a21 + w6*a22 + b2*x0
#Activación
a31 = s(z31)
print(z31, a31)

# Relación lineal
z32 = w7*a21 + w8*a22 + b2*x0
# Activación
a32 = s(z32)
print(z22, a32)

1.10590596705977 0.7513650695523157
0.39249999999999996 0.7729284653214625


## Cálculo del error total
Recordemos que podemos usar el error cuadrático medio:
$J(\Theta)=\frac{1}{m}\sum_{i=1}^m(ŷ^i-y^i)^2$

$=(0.751365 - 0.01)^2 + (0.772928 - 0.99)^2$

$=0.596742$

In [5]:
J = (a31-y1)**2 + (a32-y2)**2
print(J)

0.5967422175200054


## Backward error propagation
Iremos propagando el error hacia atrás a cada neurona. En adelante ```cost``` representa el costo asociado al elemento que se le pase como argumento.

Iniciaremos calculando el costo del valor de salida asociado a los valores de pesos anteriores inmediatos.



Es decir, calcularemos 
$\begin{align}
\:\frac{\partial \; \text{cost} (a^3_1)}{\partial \; w5}
\end{align}$.
Pero como hay diferentes procesos en medio, no podemos hacerlo directamente, así que aplicacaremos la regla de la cadena, de forma que:

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_1)}{\partial \; w5} = 
 \frac{\partial \; \text{cost} (a^3_1)}{\partial \; a^3_1} \times 
 \frac{\partial \; a^3_1}{\partial \; z^3_1} \times 
 \frac{\partial \; z^3_1}{\partial \; w5}
\end{align}$
<br>

o bien:


$\begin{align}
 \frac{\partial \; \text{cost} (a^3_1)}{\partial \; \Theta^3_{1,1}} = 
 \frac{\partial \; \text{cost} (a^3_1)}{\partial \; a^3_1} \times 
 \frac{\partial \; a^3_1}{\partial \; z^3_1} \times 
 \frac{\partial \; z^3_1}{\partial \; \Theta^3_{1,1}}
\end{align}$
<br><br>

**NOTA:**<br><br>
$\begin{align}
\frac{\partial \; \text{cost} (a^3_1)}{\partial \; a^3_1}
\end{align}$ es la <font color="grayblue">derivada </font>de la <font color="red">función de ERROR</font>, respecto del valor de salida (función de activación).
<br><br>

$\begin{align}
\frac{\partial \; a^3_1}{\partial \; z^3_1}
\end{align}$ es la <font color="grayblue">derivada </font>de la <font color="red">función de ACTIVACIÓN</font> respecto del valor de la relación lineal $z$.
<br><br>

$\begin{align}
\frac{\partial \; z^3_1}{\partial \; w5}
\end{align}$ es la <font color="grayblue">derivada </font> de la <font color="red">relación lineal $z$</font> respecto del valor de peso $w5$

Si representáramos la regla de la cadena gráficamente:

<center>
<img src="https://i.postimg.cc/VkQ5ydP6/Chain-Rule.png" alt="Feed forward" width="60%">
</center>



---


### Para $\Theta^3_{1,1}$, es decir ($w5$)

##### **1.** Error de salida $a^3_1$ respecto de la activación $a^3_1$ (derivada de la función de error).
Si la función de error es $\:J(\Theta)=\frac{1}{m}\sum_{i=1}^m(ŷ^i-y^i)^2$
<br>donde $y^i$ y $ŷ^i$ son el valor de salida real y el estimado, respectivamente.

<br>Su derivada es $\:J'(\Theta)=\frac{1}{m}\sum_{i=1}^m(ŷ^i-y^i)$, pero sólo tenemos una observación $(x,y)$, entonces:
 
$\begin{align}
\frac{\partial \; \text{cost} (a^3_1)}{\partial \; a^3_1}=0.751365 - 0.01 = 0.741365
\end{align}$

In [6]:
dCost_a31 = a31 - y1
print(dCost_a31)

0.7413650695523157


##### **2.** La derivada parcial de la función de activación, respecto de $z^3_1$.
Si la función de activación es 
$\begin{align}
g(z)=\frac{1}{1+\mathrm{e}^{-z}}
\end{align}$

su derivada es $g(z) \times (1 - g(z))$, y entonces:
 
$\begin{align}
\frac{\partial \; a^3_1}{\partial \; z^3_1} = g'(z) = 0.751365 \times (1 - 0.751365)
\end{align}$

$\begin{align}
\frac{\partial \; a^3_1}{\partial \; z^3_1} = 0.186815
\end{align}$

In [8]:
dActiv_z31 = a31 * (1-a31)
print(dActiv_z31)

0.18681560180895948


##### **3.** La derivada parcial de $z^3_1$, respecto del valor de peso $w5$

> Recordando que $w5$ lo representamos como $\Theta^3_{1,1}$.


Calcularemos 
$\begin{align}
\frac{\partial \; z^3_1}{\partial \; w5}
\end{align}$


Ya que $z^3_1 = a^2_0 \times b2 + a^2_1 \times w5 + a^2_2 \times w6$

Su derivada, respecto de $w5$, es:

$\frac{\partial \; z^3_1}{\partial \; w5} = a^2_1$

$\frac{\partial \; z^3_1}{\partial \; w5} = 0.593269$

In [9]:
dZ31_w5 = a21
print(dZ31_w5)

0.5932699921071872


##### **4.** Uniendo todo lo anterior

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{1,1}} = 
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; a^3_1} \times 
 \frac{\partial \; a^3_1}{\partial \; z^3_1} \times 
 \frac{\partial \; z^3_1}{\partial \; \Theta^3_{1,1}}
\end{align}$
<br>


$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{1,1}} = 0.741365 \times 0.186815 \times 0.593269
\end{align}$

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{1,1}} = \end{align}$
<font color="red">$0.082167$


In [10]:
dCosta31_w5 = dCost_a31 * dActiv_z31 * dZ31_w5
print(dCosta31_w5)

0.08216704056423078


y el nuevo valor de $\Theta^3_{1,1}$ con $\alpha=0.5$:<br>

$\Theta^3_{1,1} := \Theta^3_{1,1} - \alpha \frac{\partial \; \text{cost} (a^3_1)}{\partial \; \Theta^3_{1,1}}$

$\Theta^3_{1,1} := 0.4 - (0.5)(0.082167)$

$\Theta^3_{1,1} := 0.3558916$

In [11]:
alpha = 0.5
new_w5 = w5 - alpha * dCosta31_w5
print(new_w5)

0.35891647971788465




---


### Para $\Theta^3_{2,1}$

##### Calculando las derivadas parciales
Sólo cambia el tercer término de la cadena porque estamos calculándolo con otro peso, pero sobre la misma salida que el caso anterior
> $\Theta^3_{2,1} = w6$ <br><br>

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_1)}{\partial \; \Theta^3_{2,1}} = 
 \frac{\partial \; \text{cost} (a^3_1)}{\partial \; a^3_1} \times 
 \frac{\partial \; a^3_1}{\partial \; z^3_1} \times 
 \frac{\partial \; z^3_1}{\partial \; \Theta^3_{2,1}}
\end{align}$
<br>


$\begin{align}
\frac{\partial \; \text{cost} (a^3_1)}{\partial \; a^3_2}=0.751365 - 0.01 = 0.741365
\end{align}$

$\begin{align}
\frac{\partial \; a^3_1}{\partial \; z^3_1} = 0.751365 \times (1 - 0.751365) = 0.186815
\end{align}$

$\begin{align}
\frac{\partial \; z^3_1}{\partial \; \Theta^3_{2,1}} = a^2_2 = 0.596884
\end{align}$

<br>

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_1)}{\partial \; \Theta^3_{2,1}} = 0.741365 \times 0.186815 \times 0.596884
\end{align}$

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_1)}{\partial \; \Theta^3_{2,1}} = \end{align}$
<font color="red">$0.082667$


In [12]:
dZ31_w6 = a22

dCosta31_w6 = dCost_a31 * dActiv_z31 * dZ31_w6
print(dCosta31_w6)

0.08266762784753326


y el nuevo valor de $\Theta^3_{2,1}$ con $\alpha=0.5$:<br>

$\Theta^3_{2,1} := \Theta^3_{2,1} - \alpha \frac{\partial \; \text{cost} (a^3_1)}{\partial \; \Theta^3_{2,1}}$

$\Theta^3_{1,1} := 0.45 - (0.5)(0.082667)$

$\Theta^3_{1,1} := 0.408666$

In [13]:
alpha = 0.5
new_w6 = w6 - alpha * dCosta31_w6
print(new_w6)

0.4086661860762334




---


### Para $\Theta^3_{1,2}$

##### Calculando las derivadas parciales
> $\Theta^3_{1,2} = w7$ <br><br>

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{1,2}} = 
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; a^3_2} \times 
 \frac{\partial \; a^3_2}{\partial \; z^3_2} \times 
 \frac{\partial \; z^3_2}{\partial \; \Theta^3_{1,2}}
\end{align}$
<br>

**1.**
$\begin{align}
\frac{\partial \; \text{cost} (a^3_2)}{\partial \; a^3_2}=0.751365 - 0.01 = -0.217071
\end{align}$

**2.**
$\begin{align}
\frac{\partial \; a^3_2}{\partial \; z^3_2} = 0.751365 \times (1 - 0.751365) = 0.175510
\end{align}$

**3.**
$\begin{align}
\frac{\partial \; z^3_2}{\partial \; \Theta^3_{1,2}} = a^2_1 = 0.593269
\end{align}$

<br>

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{1,2}} = -0.217071 \times 0.175510 \times 0.593269
\end{align}$

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{1,2}} = \end{align}$
<font color="red">$-0.022602$


In [14]:
# 1.
dCost_a32 = a32 - y2
print('1:', dCost_a32)

# 2.
dActiv_z32 = a32 * (1 - a32)
print('2:', dActiv_z32)

# 3.
# Ya que z^3_2 = a^2_0 * b2  +  a^2_1 * w7  +  a^2_2 * w8$
dZ32_w7 = a21
print('3:', dZ32_w7)

# Todo junto
dCosta32_w7 = dCost_a32 * dActiv_z32 * dZ32_w7
print('Todo:', dCosta32_w7)

1: -0.21707153467853746
2: 0.17551005281727122
3: 0.5932699921071872
Todo: -0.022602540477475067


y el nuevo valor de $\Theta^3_{1,2}$ con $\alpha=0.5$:<br>

$\Theta^3_{1,2} := \Theta^3_{1,2} - \alpha \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{1,2}}$

$\Theta^3_{1,1} := 0.5 - (0.5)(-0.022602)$

$\Theta^3_{1,1} := 0.511301$

In [15]:
alpha = 0.5
new_w7 = w7 - alpha * dCosta32_w7
print(new_w7)

0.5113012702387375




---


### Para $\Theta^3_{2,2}$

##### Calculando las derivadas parciales
> $\Theta^3_{2,2} = w8$ <br><br>

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{2,2}} = 
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; a^3_2} \times 
 \frac{\partial \; a^3_2}{\partial \; z^3_2} \times 
 \frac{\partial \; z^3_2}{\partial \; \Theta^3_{2,2}}
\end{align}$
<br>

**1.**
$\begin{align}
\frac{\partial \; \text{cost} (a^3_2)}{\partial \; a^3_2}=0.751365 - 0.01 = -0.217071
\end{align}$

**2.**
$\begin{align}
\frac{\partial \; a^3_2}{\partial \; z^3_2} = 0.751365 \times (1 - 0.751365) = 0.175510
\end{align}$

**3.**
$\begin{align}
\frac{\partial \; z^3_2}{\partial \; \Theta^3_{2,2}} = a^2_2 = 0.596884
\end{align}$

<br>

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{2,2}} = -0.217071 \times 0.175510 \times 0.596884
\end{align}$

$\begin{align}
 \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{2,2}} = \end{align}$
<font color="red">$-0.022740$


In [16]:
# 1.
# dCost_a32 = a32 - y2    # Ya está calculado
print('1:', dCost_a32)

# 2.
# dActiv_z32 = a32 * (1 - a32)     # Ya está calculado
print('2:', dActiv_z32)

# 3.
# Ya que z^3_2 = a^2_0 * b2  +  a^2_1 * w7  +  a^2_2 * w8$
dZ32_w8 = a22
print('3:', dZ32_w8)

# Todo junto
dCosta32_w8 = dCost_a32 * dActiv_z32 * dZ32_w8
print('Todo:', dCosta32_w8)

1: -0.21707153467853746
2: 0.17551005281727122
3: 0.596884378259767
Todo: -0.02274024221597822


y el nuevo valor de $\Theta^3_{2,2}$ con $\alpha=0.5$:<br>

$\Theta^3_{2,2} := \Theta^3_{2,2} - \alpha \frac{\partial \; \text{cost} (a^3_2)}{\partial \; \Theta^3_{2,2}}$

$\Theta^3_{2,2} := 0.55 - (0.5)(-0.022740)$

$\Theta^3_{2,2} := 0.561370$

In [17]:
alpha = 0.5
new_w8 = w8 - alpha * dCosta32_w8
print(new_w8)

0.5613701211079891


In [18]:
print('w5:',new_w5)
print('w6:',new_w6)
print('w7:',new_w7)
print('w8:',new_w8)

w5: 0.35891647971788465
w6: 0.4086661860762334
w7: 0.5113012702387375
w8: 0.5613701211079891


Hasta aquí se han calculado los errores y modificado los valores de pesos que van de la capa oculta a la última (capa de salida)

<center>
<img src="https://i.postimg.cc/2SQyCrCx/Theta3j.png" alt="Theta^3_j" width="60%">
</center>

---
---
---
## Backpropagation en Capas Ocultas
Se pone aparte esta sección para retro propagar el error hacia las capas ocultas porque tiene ligeros cambios en comparación con los errores de la capa de salida.

Lo que se desea es obtener las derivadas parciales de los errores para modificar y obtener los nuevos valores para los pesos $w1 \:(\Theta^2_{1,1})$, $w2 \:(\Theta^2_{2,1})$, $w3 \:(\Theta^2_{1,2})$ y $w4 \:(\Theta^2_{2,2})$



### Para $\Theta^2_{1,1}$


Por ejemplo, $w1 \:(\Theta^2_{1,1})$, se calcula como sigue:

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; w1} = 
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; a^2_1} \times
 \frac{\partial \; a^2_1}{\partial \; z^2_1} \times
 \frac{\partial \; z^2_1}{\partial \; w1}
\end{align}$

Esto se presenta visualmente como:

<center>
<img src="https://i.postimg.cc/R0G0nd66/Chain-Rule-Hidden-Layer.png" alt="Feed forward" width="75%">
</center>

Pero de esa misma ecuación:<br>

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; w1} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; a^2_1} \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_1}{\partial \; z^2_1} \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_1}{\partial \; w1}
\end{align}$
</font>

<br>

$\begin{align}
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; a^2_1} = 
\end{align}$
</font>
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^2_1} + 
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; a^2_1}
\end{align}$
</font>




Pero además

$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^2_1} =
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; z^3_1} \times
 \frac{\partial \; z^3_1}{\partial \; a^2_1}
\end{align}$
<br>


Podemos calcular el primer término usando valores previamente obtenidos:

$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; z^3_1} = 
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^3_1} \times
 \frac{\partial \; a^3_1}{\partial \; z^3_1}
\end{align}$<br><br>

$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; z^3_1} = 
 0.741365 \times 0.186815 = 0.138498
\end{align}$


Y el segundo término es igual a $w5$, ya que:<br>
$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 z^3_1 = b2 \times a^2_0 + w5 \times a^2_1 + w6 \times a^2_2
\end{align}$<br>

$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; z^3_1}{\partial \; a^2_1} = w5 = 0.4
\end{align}$


Por lo tanto:<br>
$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^2_1} =
 0.138498 \times 0.4 = 0.055399
\end{align}$
<br>

<br>Similarmente para<br>
$\begin{align}
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; a^2_1} = 
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; z^3_2} \times
 \frac{\partial \; z^3_2}{\partial \; a^2_1}
\end{align}$
</font>

$\begin{align}
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; z^3_2} = 
 -0.217071 \times 0.175510 = -0.038098
\end{align}$<br><br>

$\begin{align}
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; a^2_1} = 
 -0.038098 \times 0.5 = -0.019049
\end{align}$<br><br>

Llevando a cabo la suma:

$\begin{align}
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; a^2_1} = 
\end{align}$
</font>
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^2_1} + 
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; a^2_1}
\end{align}$
</font><br><br>

$\begin{align}
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; a^2_1} = 
\end{align}$
</font>
<font color="DarkOrchid">
$\begin{align}
 0.055399 + 
\end{align}$
<font color="Salmon">
$\begin{align}
 (−0.019049) = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 0.036350
\end{align}$
</font>

In [19]:
print('TÉRMINO AZUL')
# Para primer término de la suma
dCosta31_z31 = dCost_a31 * dActiv_z31
dZ31_a21 = w5
dCosta31_a21 = dCosta31_z31 * dZ31_a21
print('Primer término de la suma:', dCosta31_a21)

# Para segundo término de la suma
dCosta32_z32 = dCost_a32 * dActiv_z32
dZ32_a21 = w7
dCosta32_a21 = dCosta32_z32 * dZ32_a21
print('Segundo término de la suma:', dCosta32_a21)

# Haciendo la suma
dCosta21_a21 = dCosta31_a21 + dCosta32_a21
print('Haciendo la suma:', dCosta21_a21)

# dCosta21_w1 = dCosta21_a21 * dActiv_z21 * dZ21_w1

TÉRMINO AZUL
Primer término de la suma: 0.05539942465142279
Segundo término de la suma: -0.019049118258278114
Haciendo la suma: 0.03635030639314468


Con lo anterior tenemos el resultado azul. Calculemos ahora el rojo y el verde:<br>

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; w1} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; a^2_1} \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_1}{\partial \; z^2_1} \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_1}{\partial \; w1}
\end{align}$
</font>

El término rojo es la derivada parcial de la función de activación en $a^2_1$ respecto de $z^2_1$, y se calcula como:

$\begin{align}
\end{align}$
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_1}{\partial \; z^2_1} = 
 0.593269 \times (1-0.593269) = 0.241301
\end{align}$
</font>

In [20]:
print('Término rojo')
dActiv_z21 = a21 * (1-a21)
print(dActiv_z21)

Término rojo
0.24130070857232525


El término verde es la derivada parcial de la suma ponderada $z^2_1$ respecto del peso $w1 (\Theta^2_{1,1})$, y se calcula como sigue:

Ya que $z^2_1=x_0 \times b1 + x_1 \times w1 + x_2 \times w2$, entonces:

$\begin{align}
\end{align}$
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_1}{\partial \; w1} = 
 x_1 = 0.05
\end{align}$
</font>

In [21]:
print('Término verde')
dZ21_w1 = x1
print(dZ21_w1)

Término verde
0.05


Ahora, uniendo todos estos resultados, tenemos:<br>

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; w1} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; a^2_1} \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_1}{\partial \; z^2_1} \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_1}{\partial \; w1}
\end{align}$
</font><br><br>

Así pues:<br>

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; w1} = 
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; \Theta^2_{1,1}} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 0.036350 \; \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 0.241301 \; \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 0.05 = 
\end{align}$
</font>
<font color="DimGray">
$\begin{align}
 0.000438
\end{align}$
</font>



In [22]:
print('Uniendo todo')
dCosta21_w1 = dCosta21_a21 * dActiv_z21 * dZ21_w1
print(dCosta21_w1)

Uniendo todo
0.00043856773447434685


Ahora es posible actualizar el peso $\Theta^2_{1,1}$ con $\alpha=0.05$ como:

$\Theta^2_{1,1} := \Theta^2_{1,1} - \alpha \frac{\partial \; \text{cost} (a^2_1)}{\partial \; \Theta^2_{1,1}}$

$\Theta^2_{1,1} := 0.15 - (0.5)(0.000438)$

$\Theta^2_{1,1} := 0.149780$

In [25]:
alpha = 0.5
new_w1 = w1 - alpha * dCosta21_w1
print(new_w1)

0.1497807161327628


---
---
### Para $\Theta^2_{2,1}$


Para $w2 \:(\Theta^2_{2,1})$, se calcula como sigue:

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; w2} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; a^2_1} \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_1}{\partial \; z^2_1} \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_1}{\partial \; w2}
\end{align}$
</font>

Los términos azul y rojo son los mismos, lo que cambia aquí es el término verde, que es la derivada parcial de la suma ponderada $z^2_1$ respecto del peso $w2 (\Theta^2_{2,1})$, y se calcula como sigue:

Ya que $z^2_1=x_0 \times b1 + x_1 \times w1 + x_2 \times w2$, entonces:

$\begin{align}
\end{align}$
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_1}{\partial \; w1} = 
 x_2 = 0.1
\end{align}$
</font>

Entonces:


$\begin{align}
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; w2} = 
 \frac{\partial \; \text{cost}(a^2_1)}{\partial \; \Theta^2_{2,1}} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 0.036350 \; \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 0.241301 \; \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 0.1 = 
\end{align}$
</font>
<font color="DimGray">
$\begin{align}
 0.000877
\end{align}$
</font>

In [26]:
print('Término verde')
dZ21_w2 = x2
print(dZ21_w2)


print('Uniendo todo')
dCosta21_w2 = dCosta21_a21 * dActiv_z21 * dZ21_w2
print(dCosta21_w2)

Término verde
0.1
Uniendo todo
0.0008771354689486937


Ahora es posible actualizar el peso $\Theta^2_{2,1}$ con $\alpha=0.05$ como:

$\Theta^2_{2,1} := \Theta^2_{2,1} - \alpha \frac{\partial \; \text{cost} (a^2_1)}{\partial \; \Theta^2_{2,1}}$

$\Theta^2_{1,1} := 0.2 - (0.5)(0.000877)$

$\Theta^2_{1,1} := 0.199561$

In [27]:
alpha = 0.5
new_w2 = w2 - alpha * dCosta21_w2
print(new_w2)

0.19956143226552567


---
---
### Para $\Theta^2_{1,2}$


Para $w3 \:(\Theta^2_{1,2})$, se calcula como sigue:

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; w3} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; a^2_2} \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_2}{\partial \; z^2_2} \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_2}{\partial \; w3}
\end{align}$
</font>


Para el término azul:<br>

$\begin{align}
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; a^2_2} = 
\end{align}$
</font>
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^2_2} + 
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; a^2_2}
\end{align}$
</font>




Entonces:

$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^2_2} =
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; z^3_1} \times
 \frac{\partial \; z^3_1}{\partial \; a^2_2}
\end{align}$
<br>

Para

$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; z^3_1} = 
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^3_1} \times
 \frac{\partial \; a^3_1}{\partial \; z^3_1}
\end{align}$<br><br>

$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; z^3_1} = 
 0.741365 \times 0.186815 = 0.138498
\end{align}$


Y ya que:<br>
$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 z^3_1 = b2 \times a^2_0 + w5 \times a^2_1 + w6 \times a^2_2
\end{align}$<br>

$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; z^3_1}{\partial \; a^2_2} = w6 = 0.45
\end{align}$


Por lo tanto:<br>
$\begin{align}
\end{align}$
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^2_2} =
 0.138498 \times 0.45 = 0.062324
\end{align}$
<br>

<br>Similarmente para<br>
$\begin{align}
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; a^2_2} = 
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; z^3_2} \times
 \frac{\partial \; z^3_2}{\partial \; a^2_2}
\end{align}$
</font>


$\begin{align}
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; z^3_2} = 
 -0.217071 \times 0.175510 = -0.038098
\end{align}$<br><br>

$\begin{align}
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; a^2_2} = 
 -0.038098 \times 0.55 = -0.020954
\end{align}$<br><br>

Llevando a cabo la suma:

$\begin{align}
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; a^2_2} = 
\end{align}$
</font>
<font color="DarkOrchid">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_1)}{\partial \; a^2_2} + 
\end{align}$
<font color="Salmon">
$\begin{align}
 \frac{\partial \; \text{cost}(a^3_2)}{\partial \; a^2_2}
\end{align}$
</font><br><br>

$\begin{align}
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; a^2_2} = 
\end{align}$
</font>
<font color="DarkOrchid">
$\begin{align}
 0.062324 + 
\end{align}$
<font color="Salmon">
$\begin{align}
 (−0.020954) = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 0.041370
\end{align}$
</font>

In [28]:
print('TÉRMINO AZUL')
# Para primer término de la suma
dCosta31_z31 = dCost_a31 * dActiv_z31
dZ31_a22 = w6
dCosta31_a22 = dCosta31_z31 * dZ31_a22
print('Primer término de la suma:', dCosta31_a22)

# Para segundo término de la suma
dCosta32_z32 = dCost_a32 * dActiv_z32
dZ32_a22 = w8
dCosta32_a22 = dCosta32_z32 * dZ32_a22
print('Segundo término de la suma:', dCosta32_a22)

# Haciendo la suma
dCosta22_a22 = dCosta31_a22 + dCosta32_a22
print('Haciendo la suma:', dCosta22_a22)


TÉRMINO AZUL
Primer término de la suma: 0.06232435273285064
Segundo término de la suma: -0.02095403008410593
Haciendo la suma: 0.04137032264874471


El término rojo es la derivada parcial de la función de activación en $a^2_2$ respecto de $z^2_2$, y se calcula como:

$\begin{align}
\end{align}$
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_2}{\partial \; z^2_2} = 
 0.596884 \times (1 - 0.596884) = 0.240613
\end{align}$
</font>

In [29]:
print('Término rojo')
dActiv_z22 = a22 * (1 - a22)
print('a22', a22)
print('dActiv_z22 =', dActiv_z22)

Término rojo
a22 0.596884378259767
dActiv_z22 = 0.2406134172492184


El término verde es la derivada parcial de la suma ponderada $z^2_2$ respecto del peso $w3 (\Theta^2_{1,2})$, y se calcula como sigue:

Ya que $z^2_2=x_0 \times b1 + x_1 \times w3 + x_2 \times w4$, entonces:

$\begin{align}
\end{align}$
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_2}{\partial \; w3} = 
 x_1 = 0.05
\end{align}$
</font>

In [30]:
print('Término verde')
dZ22_w3 = x1
print(dZ22_w3)

Término verde
0.05


Ahora, uniendo todos estos resultados, tenemos:<br>

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; w3} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; a^2_2} \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_2}{\partial \; z^2_2} \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_2}{\partial \; w3}
\end{align}$
</font><br><br>

Así pues:<br>

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; w3} = 
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; \Theta^2_{1,2}} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 0.041370 \; \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 0.240613 \; \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 0.05 = 
\end{align}$
</font>
<font color="DimGray">
$\begin{align}
 0.000497
\end{align}$
</font>



In [31]:
print('Uniendo todo')
dCosta22_w3 = dCosta22_a22 * dActiv_z22 * dZ22_w3
print('dCost(a22)_w3 =', dCosta22_w3)

Uniendo todo
dCost(a22)_w3 = 0.0004977127352608601


Ahora es posible actualizar el peso $\Theta^2_{1,2}$ con $\alpha=0.05$ como:

$\Theta^2_{1,2} := \Theta^2_{1,2} - \alpha \frac{\partial \; \text{cost} (a^2_2)}{\partial \; \Theta^2_{1,2}}$

$\Theta^2_{1,1} := 0.25 - (0.5)(0.000497)$

$\Theta^2_{1,1} := 0.249751$

In [32]:
alpha = 0.5
new_w3 = w3 - alpha * dCosta22_w3
print(new_w3)

0.24975114363236958


---
---
### Para $\Theta^2_{2,2}$


Para $w4 \:(\Theta^2_{2,2})$, se calcula como sigue:

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; w4} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; a^2_2} \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 \frac{\partial \; a^2_2}{\partial \; z^2_2} \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_2}{\partial \; w4}
\end{align}$
</font>

Los términos azul y rojo son los mismos que para $w3$ $(\Theta^2_{2,2})$, lo que cambia aquí es el término verde, que es la derivada parcial de la suma ponderada $z^2_2$ respecto del peso $w4 (\Theta^2_{2,2})$, y se calcula como sigue:

Ya que $z^2_2=x_0 \times b1 + x_1 \times w3 + x_2 \times w4$, entonces:

$\begin{align}
\end{align}$
<font color="LimeGreen">
$\begin{align}
 \frac{\partial \; z^2_2}{\partial \; w4} = 
 x_2 = 0.1
\end{align}$
</font>

Entonces:

$\begin{align}
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; w4} = 
 \frac{\partial \; \text{cost}(a^2_2)}{\partial \; \Theta^2_{2,2}} = 
\end{align}$
<font color="RoyalBlue">
$\begin{align}
 0.041370 \; \times
\end{align}$
</font>
<font color="Red">
$\begin{align}
 0.240613 \; \times
\end{align}$
</font>
<font color="LimeGreen">
$\begin{align}
 0.1 = 
\end{align}$
</font>
<font color="DimGray">
$\begin{align}
 0.000995
\end{align}$
</font>

In [33]:
print('Término verde')
dZ22_w4 = x2
print(dZ22_w4)


print('Uniendo todo')
dCosta22_w4 = dCosta22_a22 * dActiv_z22 * dZ22_w4
# print('azul', dCosta22_a22)
# print('rojo', dActiv_z22)
# print('verde', dZ22_w4)
print(dCosta22_w4)

Término verde
0.1
Uniendo todo
0.0009954254705217202


Ahora es posible actualizar el peso $\Theta^2_{2,2}$ con $\alpha=0.05$ como:

$\Theta^2_{2,2} := \Theta^2_{2,2} - \alpha \frac{\partial \; \text{cost} (a^2_2)}{\partial \; \Theta^2_{2,2}}$

$\Theta^2_{2,2} := 0.3 - (0.5)(0.000995)$

$\Theta^2_{2,2} := 0.299502$

In [34]:
alpha = 0.5
new_w4 = w4 - alpha * dCosta22_w4
print(new_w4)

0.29950228726473915


In [35]:
print('w1:',new_w1)
print('w2:',new_w2)
print('w3:',new_w3)
print('w4:',new_w4)

w1: 0.1497807161327628
w2: 0.19956143226552567
w3: 0.24975114363236958
w4: 0.29950228726473915


Hemos calculado los errores y modificado los valores de pesos que van de la capa de entrada a la primera capa oculta

<center>
<img src="https://i.postimg.cc/YSt99Z9B/Theta2j.png" alt="Theta^2_j" width="60%">
</center>

## Feedforward


### Con pesos iniciales

In [36]:
# Activaciones de la capa oculta
z21 = w1*x1 + w2*x2 + b1*x0
a21 = s(z21)
print('z21, a21:', z21, a21)
z22 = w3*x1 + w4*x2 + b1*x0
a22 = s(z22)
print('z22, a22:', z22, a22)

# Activaciones de la capa de salida
z31 = w5*a21 + w6*a22 + b2*x0
a31 = s(z31)
print('z31, a31:', z31, a31)
z32 = w7*a21 + w8*a22 + b2*x0
a32 = s(z32)
print('z32, a32:', z32, a32)

# Error
J = (a31-y1)**2 + (a32-y2)**2
print('Error:', J)


z21, a21: 0.3775 0.5932699921071872
z22, a22: 0.39249999999999996 0.596884378259767
z31, a31: 1.10590596705977 0.7513650695523157
z32, a32: 1.2249214040964653 0.7729284653214625
Error: 0.5967422175200054


### Con los pesos actualizados

In [None]:
# Actualizar pesos
# w1 = new_w1
# w2 = new_w2
# w3 = new_w3
# w4 = new_w4
# w5 = new_w5
# w6 = new_w6
# w7 = new_w7
# w8 = new_w8

In [37]:
# Activaciones de la capa oculta
z21 = new_w1*x1 + new_w2*x2 + b1*x0
a21 = s(z21)
print('z21, a21:', z21, a21)
z22 = new_w3*x1 + new_w4*x2 + b1*x0
a22 = s(z22)
print('z22, a22:', z22, a22)

# Activaciones de la capa de salida
z31 = new_w5*a21 + new_w6*a22 + b2*x0
a31 = s(z31)
print('z31, a31:', z31, a31)
z32 = new_w7*a21 + new_w8*a22 + b2*x0
a32 = s(z32)
print('z32, a32:', z32, a32)

# Error
J = (a31-y1)**2 + (a32-y2)**2
print('Error:', J)

z21, a21: 0.3774451790331907 0.593256763701416
z22, a22: 0.39243778590809236 0.5968694086242864
z31, a31: 1.0568499740046011 0.7420881111907824
z32, a32: 1.238397589063326 0.7752849682944595
Error: 0.5820555473871987


Y vemos cómo el error ha disminuido. La idea es repetir reiteradamente este proceso, de forma que se encuentre el menor posible.

```
Ejemplo base:
Mazur, M. A step by step backpropagation example. (2015).
https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/

```





---
---
---



# Apéndice



## Derivada de la función de activación Logística
#### Función de activación
$\begin{align}
g(z)=\frac{1}{1+\mathrm{e}^{-z}}   \\
\end{align}$ <br><br>
Demostrar que su derivada es $(1-g(z)) · g(z)$

#### Calcular la derivada
$\begin{align}
\frac{d}{dz}g(z) = \frac{d}{dz}(1+\mathrm{e}^{-z})^{-1}
\end{align}$<br>
usando la forma $\frac{d}{du}u^n=n·u^{n-1}du$,<br>
tenemos:<br>
$u=1+\mathrm{e}^{-z}$<br>
$du=-\mathrm{e}^{-z}$<br>
$n=-1$<br>
Entonces:<br>
$\begin{align}
\frac{d}{dz}g(z) &= \frac{d}{dz}(1+\mathrm{e}^{-z})^{-1}   \\
&=-(1+\mathrm{e}^{-z})^{-2}(-\mathrm{e}^{-z})   \\
&=(1+\mathrm{e}^{-z})^{-2}(\mathrm{e}^{-z})   \\
\frac{d}{dz}g(z) &= \frac{\mathrm{e}^{-z}}{(1+\mathrm{e}^{-z})^{2}}   \\ \\
\text{pero:}  \\
\frac{\mathrm{e}^{-z}}{(1+\mathrm{e}^{-z})^{2}} &= \frac{\mathrm{e}^{-z}}{1+\mathrm{e}^{-z}} · \frac{1}{1+\mathrm{e}^{-z}}  \\
&= \frac{-1+1+\mathrm{e}^{-z}}{1+\mathrm{e}^{-z}} · \frac{1}{1+\mathrm{e}^{-z}}  \\
&= \left( \frac{-1}{{1+\mathrm{e}^{-z}}} + \frac{1+\mathrm{e}^{-z}}{1+\mathrm{e}^{-z}} \right) · \frac{1}{1+\mathrm{e}^{-z}}  \\
&= \left( -\frac{1}{{1+\mathrm{e}^{-z}}} + 1\right) · \frac{1}{1+\mathrm{e}^{-z}}  \\
&= \left(1 -\frac{1}{{1+\mathrm{e}^{-z}}} \right) · \frac{1}{1+\mathrm{e}^{-z}}  \\
&= \left( 1-g(z) \right) · g(z) \\
\blacksquare
\end{align}$<br>
