# Una sola observación

Dada una función de error, que podemos definir como el error cuadrático medio:<br>
$\begin{align}
J(\Theta)=\frac{1}{m}\sum_{i=1}^m(ŷ^i-y^i)^2
\end{align}$
<br>donde $y^i$ y $ŷ^i$ representan el valor de salida real y la salida estimada por la red, respectivamente.

La idea de backpropagation es calcular los pesos ($\Theta^l_{ij}$) que minimicen la función de error, i.e.:<br>
$\begin{align}
\min_\Theta J(\Theta)
\end{align}$
<br>
y en este caso utilizaremos descenso de gradiente, por lo que se deben calcular las derivadas parciales de la función de error, tal que:<br>
<font color='BlueViolet'>
$\begin{align}
\frac{\partial}{\partial\Theta^l_{ij}}J(\Theta)
\end{align}$
</font><br>

Pensemos un problema con un conjunto de datos de una sola observación $(x^1,y^1)$, con la siguiente estructura de red:


<center>
<img src="https://i.postimg.cc/QCSkJNhQ/Net01.png" alt="Red Neuronal" width="50%">
</center>

Al igual que en el ejemplo anterior de Backpropagation, lo primero es llevar a cabo el Forward propagation para calcular las activaciones de cada capa.
<center>
<img src="https://i.postimg.cc/pr0zn0Jk/Net02.png" alt="Red Neuronal" width="30%">
</center>

## Forward propagation

$\begin{align}
a^1 &= x  \\
z^2 &= \Theta^1a^1 \\
a^2 &= g(z^2) \:\: \text{agregar} \:\: a^2_0 \\
z^3 &= \Theta^2a^2 \\
a^3 &= g(z^3) \:\: \text{agregar} \:\: a^3_0 \\
z^4 &= \Theta^3a^3 \\
a^4 &= h_\Theta(x) = g(z^4) \\
\end{align}$
<br>


## Backpropagation
Para el cálculo de los gradientes, tomemos en cuenta a $\delta^l_j$ como el error asociado a la neurona $j$ de la capa $l$, es decir el error asociado al nodo $a^l_j$

1) Para cada neurona de salida (última capa):<br>

$\delta^4_j = a^4_j - y_j$

Pero puede expresarse vectorialmente como:<font color='Crimson'><br>
$\delta^4 = a^4 - y$
</font>

2) Para las capas previas:<br>
$\begin{align}
\delta^3 &= (\Theta^3)^T \delta^4 .* g'(z^3)  \\
\delta^2 &= (\Theta^2)^T \delta^3 .* g'(z^2)  \\
\end{align}$ <br><br>
donde $g'(z^3)$ y $g'(z^3)$ representa la derivada de la función de activación en la 2a y 3a capa, que para el caso de la función logística es:<br>
$\begin{align}
g'(z^3) &= a^3.*(1-a^3)  \\
g'(z^2) &= a^2.*(1-a^2)  \\
\end{align}$ <br><br>
y por lo tanto:<font color='SlateBlue'><br>
$\begin{align}
\delta^3 &= (\Theta^3)^T \delta^4 .* \left(a^3 .* (1-a^3)\right)  \\
\delta^2 &= (\Theta^2)^T \delta^3 .* \left(a^2 .* (1-a^2)\right)  \\
\end{align}$ <br><br>
</font>





---



# Con m observaciones
Partiendo de un conjunto de entrenamiento tal que:<br>
$\begin{align}
\text{Training set}=\{\left(x^1, y^1\right), \left(x^2, y^2\right),...,\left(x^m, y^m\right)\}
\end{align}$


Inicializar <font color='Salmon'>$\Delta^l_{i,j}=0$</font> $, \: \forall\: l,i,j$, que será usado para calcular el gradiente
$\begin{align}
\frac{\partial}{\partial\Theta^l_{ij}}J(\Theta)
\end{align}$
<br>

Por cada observación del conjunto de entrenamiento, es decir:<br>
$\text{Para } \: i=1 \:\: \text{hasta} \:\: m:$

## Forward propagation

$\begin{align}
a^1 &= x^i  \\
z^2 &= \Theta^1a^1 \\
a^2 &= g(z^2) \:\: \text{agregar} \:\: a^2_0 \\
z^3 &= \Theta^2a^2 \\
a^3 &= g(z^3) \:\: \text{agregar} \:\: a^3_0 \\
z^4 &= \Theta^3a^3 \\
a^4 &= h_\Theta(x^i) = g(z^4) \\
\end{align}$
<br>

## Backpropagation


1) Para cada neurona de salida (última capa):<br>
$\delta^4_j = a^4_j - y_j$  \\

2) Para las capas previas:<br>
$\begin{align}
\delta^3 &= (\Theta^3)^T \delta^4 .* \left(a^3 .* (1-a^3)\right)  \\
\Delta^l_{i,j} :&= \Delta^l_{i,j} + a^l_j \delta^{(l+1)}_i  \\
\Delta^3_{i,j} :&= \Delta^3_{i,j} + a^3_j \delta^4_i 
\end{align}$

<br>

$\begin{align}
\delta^2 &= (\Theta^2)^T \delta^3 .* \left(a^2 .* (1-a^2)\right)  \\
\Delta^l_{i,j} :&= \Delta^l_{i,j} + a^l_j \delta^{(l+1)}_i  \\
\Delta^2_{i,j} :&= \Delta^2_{i,j} + a^2_j \delta^3_i 
\end{align}$


Lo mismo, podemos expresarlo de forma vectorizada, tal que:<br>
1) Para cada neurona de salida (última capa):<br>
<font color='Crimson'>
$\begin{align}
\delta^4 &= a^4 - y^i   \\
\Delta^4 &= \delta^4
\end{align}$
</font>
<br><br>

2) Para las capas previas:<br>
<font color='SlateBlue'><br>
$\begin{align}
\delta^3 &= (\Theta^3)^T \delta^4 .* \left(a^3 .* (1-a^3)\right)
\end{align}$
<font color='LimeGreen'><br>
$\begin{align}
\Delta^l &:= \Delta^l + \delta^{(l+1)}(a^l)^T   \\
\Delta^3 &:= \Delta^3 + \delta^4(a^3)^T   \\
\end{align}$ <br>

<font color='SlateBlue'><br>
$\begin{align}
\delta^2 &= (\Theta^2)^T \delta^3 .* \left(a^2 .* (1-a^2)\right)  \\
\end{align}$
<font color='LimeGreen'><br>
$\begin{align}
\Delta^l &:= \Delta^l + \delta^{(l+1)}(a^l)^T   \\
\Delta^2 &:= \Delta^2 + \delta^3(a^2)^T   \\
\end{align}$ <br>
</font>

Finalmente, se promedia el resultado del Delta en función del número de observaciones. Con ello, se obtiene el gradiente como:<br>
<font color='BlueViolet'>
$\begin{align}
\frac{\partial}{\partial\Theta^l_{ij}}J(\Theta) = \frac{1}{m}\Delta^l_{i,j}
\end{align}$
</font><br>

```
NG, Andrew. Machine Learning. Stanford University, Coursera (2015).
https://www.coursera.org/learn/machine-learning

```