## Ejercicio teórico

Sea una red neuronal de dos capas, la primera de 3 neuronas y la segunda de 1 con los parámetros inicializados con los siguientes valores:
$$
w^{(1)} =
\begin{pmatrix}
0.1 & -0.5 \\
-0.3 & -0.9 \\
0.8 & 0.02
\end{pmatrix},
b^{(1)} = \begin{pmatrix}
0.1 \\
0.5 \\
0.8
\end{pmatrix},
w^{(2)} =
\begin{pmatrix}
-0.4 & 0.2 & -0.5
\end{pmatrix},
b^{(2)} = 0.7
$$

y donde cada capa calcula su salida vía

$$
y^{(i)} = \sigma (w^{(i)} \cdot x^{(i)}+b^{(i)})
$$

donde $\sigma (z) = \frac{1}{1+e^{-z}}$ es la función sigmoidea .

\\
Dada la observación $x=\begin{pmatrix}
1.8 \\
-3.4
\end{pmatrix}$, $y=5$ y la función de costo $J(\theta)=\frac{1}{2}(\hat{y}_\theta-y)^2$, calcular las derivadas de J respecto de cada parámetro $w^{(1)}$, $w^{(2)}$, $b^{(1)}$, $b^{(2)}$.

*Nota: Con una sigmoidea a la salida jamás va a poder estimar el 5 "pedido", pero eso no afecta al mecanismo de backpropagation!*

## Propagación hacia adelante (Forward Propagation)

Primero, calculamos las salidas de la red neuronal para la observación dada \( x \):

$$ 
z^{(1)} = w^{(1)} \cdot x + b^{(1)} 
$$

$$ 
= \begin{pmatrix} 
0.1 & -0.5 \\ 
-0.3 & -0.9 \\ 
0.8 & 0.02 
\end{pmatrix} \cdot \begin{pmatrix} 
1.8 \\ 
-3.4 
\end{pmatrix} + \begin{pmatrix} 
0.1 \\ 
0.5 \\ 
0.8 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
(0.1 \times 1.8) + (-0.5 \times -3.4) \\ 
(-0.3 \times 1.8) + (-0.9 \times -3.4) \\ 
(0.8 \times 1.8) + (0.02 \times -3.4) 
\end{pmatrix} + \begin{pmatrix} 
0.1 \\ 
0.5 \\ 
0.8 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
1.88 \\ 
2.52 \\ 
1.372 
\end{pmatrix} + \begin{pmatrix} 
0.1 \\ 
0.5 \\ 
0.8 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
1.98 \\ 
3.02 \\ 
2.172 
\end{pmatrix} 
$$

Aplicamos la función sigmoidea $ \sigma(z) = \frac{1}{1 + e^{-z}} $ a cada elemento de $z^{(1)} $:

$$ 
y^{(1)} = \sigma(z^{(1)}) = \begin{pmatrix} 
\sigma(1.98) \\ 
\sigma(3.02) \\ 
\sigma(2.172) 
\end{pmatrix} 
$$

$$ 
\sigma(1.98) = \frac{1}{1 + e^{-1.98}} \approx \frac{1}{1 + 0.137} \approx 0.8797 
$$

$$ 
\sigma(3.02) = \frac{1}{1 + e^{-3.02}} \approx \frac{1}{1 + 0.049} \approx 0.9534 
$$

$$ 
\sigma(2.172) = \frac{1}{1 + e^{-2.172}} \approx \frac{1}{1 + 0.114} \approx 0.8977 
$$

$$ 
y^{(1)} \approx \begin{pmatrix} 
0.8797 \\ 
0.9534 \\ 
0.8977 
\end{pmatrix} 
$$

Para la capa de salida:

$$ 
z^{(2)} = w^{(2)} \cdot y^{(1)} + b^{(2)} 
$$

$$ 
= \begin{pmatrix} 
-0.4 & 0.2 & -0.5 
\end{pmatrix} \cdot \begin{pmatrix} 
0.8797 \\ 
0.9534 \\ 
0.8977 
\end{pmatrix} + 0.7 
$$

$$ 
w^{(2)} \cdot y^{(1)} = (-0.4 \times 0.8797) + (0.2 \times 0.9534) + (-0.5 \times 0.8977) = -0.35188 + 0.19068 - 0.44885 = -0.61005 
$$

$$ 
z^{(2)} = -0.61005 + 0.7 = 0.08995 
$$

Aplicamos la función sigmoidea:

$$ 
\hat{y} = \sigma(z^{(2)}) = \sigma(0.08995) 
$$

$$ 
\sigma(0.08995) = \frac{1}{1 + e^{-0.08995}} \approx \frac{1}{1 + 0.914} \approx 0.5225 
$$

## Cálculo del error (Error Calculation)

Utilizando la observación \( x \) y el valor objetivo \( y = 5 \), calculamos el error:

$$ 
J(\theta) = \frac{1}{2} (\hat{y} - y)^2 
$$

$$ 
J(\theta) = \frac{1}{2} (0.5225 - 5)^2 = \frac{1}{2} (-4.4775)^2 = \frac{1}{2} \times 20.0431 = 10.02155 
$$

## Retropropagación (Backpropagation)

Para la capa de salida:

$$ 
\delta^{(2)} = \frac{\partial J}{\partial z^{(2)}} = (\hat{y} - y) \cdot \sigma'(z^{(2)}) 
$$

$$ 
\sigma'(z) = \sigma(z) \cdot (1 - \sigma(z)) 
$$

$$ 
\sigma'(0.08995) = 0.5225 \cdot (1 - 0.5225) \approx 0.2495 
$$

$$ 
\delta^{(2)} = (0.5225 - 5) \cdot 0.2495 \approx -4.4775 \cdot 0.2495 \approx -1.1174 
$$

Gradientes para $w^{(2)}$ y $b^{(2)}$:

$$ 
\frac{\partial J}{\partial w^{(2)}} = \delta^{(2)} \cdot (y^{(1)})^T 
$$

$$ 
\frac{\partial J}{\partial w^{(2)}} = -1.1174 \cdot \begin{pmatrix} 
0.8797 \\ 
0.9534 \\ 
0.8977 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
-1.1174 \times 0.8797 \\ 
-1.1174 \times 0.9534 \\ 
-1.1174 \times 0.8977 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
-0.9834 \\ 
-1.0644 \\ 
-1.0024 
\end{pmatrix} 
$$

$$ 
\frac{\partial J}{\partial b^{(2)}} = \delta^{(2)} = -1.1174 
$$

Para la capa oculta:

$$ 
\delta^{(1)} = (w^{(2)})^T \cdot \delta^{(2)} \cdot \sigma'(z^{(1)}) 
$$

$$ 
\sigma'(z^{(1)}) = y^{(1)} \cdot (1 - y^{(1)}) 
$$

$$ 
\sigma'(1.98) = 0.8797 \cdot (1 - 0.8797) \approx 0.1060 
$$

$$ 
\sigma'(3.02) = 0.9534 \cdot (1 - 0.9534) \approx 0.0445 
$$

$$ 
\sigma'(2.172) = 0.8977 \cdot (1 - 0.8977) \approx 0.0921 
$$

$$ 
\sigma'(z^{(1)}) = \begin{pmatrix} 
0.1060 \\ 
0.0445 \\ 
0.0921 
\end{pmatrix} 
$$

$$ 
(w^{(2)})^T \cdot \delta^{(2)} = \begin{pmatrix} 
-0.4 \\ 
0.2 \\ 
-0.5 
\end{pmatrix} \cdot -1.1174 
$$

$$ 
= \begin{pmatrix} 
0.44696 \\ 
-0.22348 \\ 
0.5587 
\end{pmatrix} 
$$

$$ 
\delta^{(1)} = \begin{pmatrix} 
0.44696 \\ 
-0.22348 \\ 
0.5587 
\end{pmatrix} \cdot \begin{pmatrix} 
0.1060 \\ 
0.0445 \\ 
0.0921 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
0.44696 \times 0.1060 \\ 
-0.22348 \times 0.0445 \\ 
0.5587 \times 0.0921 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
0.0474 \\ 
-0.0099 \\ 
0.0514 
\end{pmatrix} 
$$

Gradientes para $w^{(1)}$ y $b^{(1)}$:

$$ 
\frac{\partial J}{\partial w^{(1)}} = \delta^{(1)} \cdot x^T 
$$

$$ 
\frac{\partial J}{\partial w^{(1)}} = \begin{pmatrix} 
0.0474 \\ 
-0.0099 \\ 
0.0514 
\end{pmatrix} \cdot \begin{pmatrix} 
1.8 & -3.4 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
0.0474 \times 1.8 & 0.0474 \times -3.4 \\ 
-0.0099 \times 1.8 & -0.0099 \times -3.4 \\ 
0.0514 \times 1.8 & 0.0514 \times -3.4 
\end{pmatrix} 
$$

$$ 
= \begin{pmatrix} 
0.0853 & -0.1611 \\ 
-0.0178 & 0.0337 \\ 
0.0925 & -0.1748 
\end{pmatrix} 
$$

$$ 
\frac{\partial J}{\partial b^{(1)}} = \delta^{(1)} 
$$

$$ 
= \begin{pmatrix} 
0.0474 \\ 
-0.0099 \\ 
0.0514 
\end{pmatrix} 
$$

## Nota Final



La función de activación sigmoidea, definida como $\sigma(z) = \frac{1}{1 + e^{-z}}$, mapea cualquier valor de entrada \( z \) a un rango entre 0 y 1. Esto significa que la salida de una neurona con activación sigmoidea siempre estará en ese rango, y nunca alcanzará valores extremos como 5, en el caso de este ejercicio.

Sin embargo, esto no impide que la red neuronal aprenda y ajuste sus pesos utilizando el algoritmo de retropropagación (backpropagation). Aunque la salida de la red esté limitada por la función sigmoidea, el mecanismo de retropropagación sigue funcionando correctamente para ajustar los pesos de las neuronas en las capas ocultas y en la capa de salida en función del error calculado.

En resumen, aunque la función sigmoidea puede limitar la capacidad de la red para producir ciertos valores específicos en la salida, esto no afecta la capacidad de la red para aprender de los datos y ajustar sus pesos internos mediante el proceso de retropropagación. La red neuronal puede aprender a aproximar la salida deseada dentro de los límites de su función de activación.
