$N$: cantidad de neuronas  
$L$: cantidad de capas  
$lr$: learning rate  
$g(z)$: función de activación  
$\frac{dg}{dz}(z)$: derivada de la función de activación  
$C(\bm{X},\bm{Y},\bm{W},\bm{B})$: función de costo/pérdida

$$
\begin{aligned}
C
&=
% suma de las diferencias de las N activaciones de la última (L) capa con los N elementos de y al cuadrado
\sum_{i=1}^N 
\left( 
    a_{L}^{(i)} - y^{(i)}
\right)^2
\\
% expansión de la suma
&=
\left(
    a_{L}^{(1)} - y^{(1)}
\right)^2
+ \dots +
\left(
    a_{L}^{(N)} - y^{(N)}
\right)^2
\\
% expansión de las activaciones en sigma(z)
&=
\left(
\sigma(z_{L}^{(1)}) - y^{(1)}
\right)^2
+ \dots +
\left(
\sigma(z_{L}^{(N)}) - y^{(N)}
\right)^2
\\
% expansión de los z
&=
\left(
\sigma\left(w_L^{(1)} \left( \frac{1}{M} \sum_{j=1}^M a_{L-1}^{(j)} \right) + b_L^{(1)} \right) - y^{(1)}
\right)^2
+ \dots +
\left(
\sigma\left(w_L^{(N)} \left( \frac{1}{M} \sum_{j=1}^M a_{L-1}^{(j)} \right) + b_L^{(N)} \right) - y^{(N)}
\right)^2
\end{aligned}
$$

$$
\bm{W}
=
\begin{bmatrix}
\bm{w}_{(1)}^{(1)} & \bm{w}_{(2)}^{(1)} & \dots & \bm{w}_{(L)}^{(1)}\\
\bm{w}_{(1)}^{(2)} & \bm{w}_{(2)}^{(2)} & \dots & \bm{w}_{(L)}^{(2)}\\
\vdots & \vdots & \ddots & \vdots\\
\bm{w}_{(1)}^{(N)} & \bm{w}_{(2)}^{(N)} & \dots & \bm{w}_{(L)}^{(N)}\\
\end{bmatrix},
$$
donde
$$
% \begin{aligned}
\bm{w}_{(l)}^{(n)}
% &=
=
\begin{bmatrix}
\text{peso de } a_{(l-1)}^{(1)} \rightarrow a_{(l)}^{(n)}\\
\text{peso de } a_{(l-1)}^{(2)} \rightarrow a_{(l)}^{(n)}\\
\vdots\\
\text{peso de } a_{(l-1)}^{(M)} \rightarrow a_{(l)}^{(n)}\\
\end{bmatrix}
% &=
=
\begin{bmatrix}
w_{(l)}^{(n,1)}\\
w_{(l)}^{(n,2)}\\
\vdots\\
w_{(l)}^{(n,M)}
\end{bmatrix}
% \end{aligned}
$$
con $M$ la cantidad de nueronas de la capa anterior.  
Abusando notación:
$$
\bm{W}
=
\begin{bmatrix}

\begin{bmatrix}
w_{(1)}^{(1,1)}\\
\vdots\\
w_{(1)}^{(1,M)}
\end{bmatrix}
& \dots &
\begin{bmatrix}
w_{(L)}^{(1,1)}\\
\vdots\\
w_{(L)}^{(1,M)}
\end{bmatrix}\\
\vdots & \ddots & \vdots\\
\begin{bmatrix}
w_{(1)}^{(N,1)}\\
\vdots\\
w_{(1)}^{(N,M)}
\end{bmatrix}
& \dots &
\begin{bmatrix}
w_{(L)}^{(N,1)}\\
\vdots\\
w_{(L)}^{(N,M)}
\end{bmatrix}
\end{bmatrix},
$$

In [None]:
import numpy as np
import random

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def d_sigmoid(z):
    return sigmoid(z) * (1 - sigmoid(z))

def mse(Y, Y_pred):
    return np.mean((Y - Y_pred)**2)

class Net():
# feedforward network: las activaciones van hacia adelante
    def __init__(self, N, L=1, lr=0.01, g=sigmoid, d_g=d_sigmoid, C=mse):
# N: cantidad de neuronas por capa, L: cantidad de capas y lr: learning rate
        self.N = N
        self.L = L
        self.A = np.zeros([N,L])
        self.W = np.zeros((N,L,N))
        self.B = np.zeros((N,L,N))
# W y B son matrices "tridimensionales", un elemento de la primera matriz indica al peso de qué activación nos estamos refiriendo en la capa actual, recorrer la lista asociada a ese elemento nos devuelve los N (por ahora N porque la matriz la estoy implementando rectangular) pesos asociados a esa activación de la capa anterior, o sea w[L,n][L-1,n for n in N de la capa anterior]
        self.lr = lr
        self.g = g
        self.d_g = d_g
        self.C = C
# W: matriz de pesos, A: matriz de activaciones y B: matriz de sesgos
# g es la función de activación y d_g es su derivada, C es la función de costo

    def learn(self, X, Y, tol=0.1): # la tolerancia está alta para probar rápido :)
        self.W = np.random.rand(self.N,self.L,self.N)
        self.B = np.random.rand(self.N,self.L,self.N)
        self.A = np.array(
            [
                [
                    np.mean(
                        self.g(self.W[n][l][m] * self.X[m] + self.B[n][l][m])
                        if l == 0
                        else
                        self.g(self.W[n][l][m] * self.A[m][l] + self.B[n][l][m])
                        for m in range(self.N)
                    )
                    for n in range(self.N)
                ]
                for l in range(self.L)
            ]
        )

        while C(Y, self.predict(X)) > tol:
# calculo el gradiente de C con respecto a W y B, son matrices de N*L*N
            grad_C_W = np.array(
                            [
                                [
                                    [

                                    ]
                                ]
                            ]
                       )
            grad_C_B = np.array(
                            [
                                [
                                    [

                                    ]
                                ]
                            ]
                       )

# muevo W y B en la dirección contraria al gradiente con módulo lr
            for l in range(L):
                for n in range(N):
                    for m in range(N):
                        W[n][l][m] -= lr * grad_C_W[n][l][m]
                        B[n][l][m] -= lr * grad_C_B[n][l][m]

            # W -= lr * grad_C_W
            # B -= lr * grad_C_B ????????

    def predict(self, X):
        self.A = np.array(
            [
                [
                    self.g(self.W[n][l] * X[n] + self.B[n][l]) # la primer capa tiene como inputs los elementos de X
                    if l == 0 
                    else
                    self.g(self.W[n][l] * self.A[n][l-1] + self.B[n][l])

                    for l in range(self.L)
                ]
                for n in range(self.N)
            ]
        )
        return self.A[:, -1]

In [None]:
import numpy as np
I,J,K = 3,3,3
# A = np.array(
#         [
#             [
#                 [
#                     str(i)+","+str(j)+","+str(k)
#                     for k in range(K)
#                 ]
#             for j in range(J)
#             ]
#         for i in range(I)
#         ]
#     )

np.random.rand(I,J,K)

![](img/red.png)

Para la red de arriba, tenemos:
La matriz de activaciones $A$ es:
$$
A
=
\begin{bmatrix}
a_{(1)}^{(1)}   &   y^{(1)}\\
a_{(2)}^{(1)}   &   y^{(1)}
\end{bmatrix}
$$
La matriz de pesos $W$:
$$
\begin{aligned}
W
&=
\begin{bmatrix}
\bm{w}_{(1)}^{(1)}    &   \bm{w}_{(2)}^{(1)}\\
\bm{w}_{(1)}^{(2)}    &   \bm{w}_{(2)}^{(2)}\\
\end{bmatrix}
&=
\begin{bmatrix}
\begin{bmatrix}
w_{(1)}^{(1,1)}\\
w_{(1)}^{(1,2)}
\end{bmatrix}    &   \begin{bmatrix}
                     w_{(2)}^{(1,1)}\\
                     w_{(2)}^{(1,2)}
                     \end{bmatrix}\\
\\
\begin{bmatrix}
w_{(1)}^{(2,1)}\\
w_{(1)}^{(2,2)}
\end{bmatrix}    &   \begin{bmatrix}
                     w_{(2)}^{(2,1)}\\
                     w_{(2)}^{(2,2)}
                     \end{bmatrix}
\end{bmatrix}
\end{aligned}
$$

El gradiente de $C$ con respecto de $\bm{W}$, $\nabla C_{\bm{W}}$
$$
\nabla C_{\bm{W}}
=
\begin{bmatrix}
\begin{bmatrix}
\partial C / \partial w_{(1)}^{(1,1)}\\
\partial C / \partial w_{(1)}^{(1,2)}
\end{bmatrix}    &   \begin{bmatrix}
                     \partial C / \partial w_{(2)}^{(1,1)}\\
                     \partial C / \partial w_{(2)}^{(1,2)}
                     \end{bmatrix}\\
\\
\begin{bmatrix}
\partial C / \partial w_{(1)}^{(2,1)}\\
\partial C / \partial w_{(1)}^{(2,2)}
\end{bmatrix}    &   \begin{bmatrix}
                     \partial C / \partial w_{(2)}^{(2,1)}\\
                     \partial C / \partial w_{(2)}^{(2,2)}
                     \end{bmatrix}
\end{bmatrix}
$$



Para un patrón, el error $C_0$ es:
$$
C_0
=
\left(
    y^{(1)} - \hat y^{(1)}
\right)^2
+
\left(
    y^{(2)} - \hat y^{(2)}
\right)^2
$$

Las derivadas parciales con respecto de los pesos son:
$$
\begin{aligned}
\frac{\partial C}{\partial w_{(1)}^{(1,1)}}
&= 

\\
\frac{\partial C}{\partial w_{(1)}^{(1,2)}}\\
\frac{\partial C}{\partial w_{(2)}^{(1,1)}}\\
\frac{\partial C}{\partial w_{(2)}^{(1,2)}}\\
\frac{\partial C}{\partial w_{(1)}^{(2,1)}}
&=
&\frac{\partial C}{\partial y^{(2)}}&
&\frac{\partial y^{(2)}}{\partial z_{(2)}^{(2)}}&
&\frac{\partial z_{(2)}^{(2)}}{\partial a_{(1)}^{(2)}}&
&\frac{\partial a_{(1)}^{(2)}}{\partial z_{(1)}^{(2)}}&
&\frac{\partial z_{(1)}^{(2)}}{\partial w_{(1)}^{(2,1)}}&\\
&=
&2(y^{(2)} - \hat y^{(2)})&
&\sigma'(z_{(2)}^{(2)})&
&w_{(2)}^{(2)}&
&\sigma'(z_{(1)}^{(2)})&
&x^{(1)}&
\\
\\
\frac{\partial C}{\partial w_{(1)}^{(2,2)}}
&=
&\frac{\partial C}{\partial y^{(2)}}&
&\frac{\partial y^{(2)}}{\partial z_{(2)}^{(2)}}&
&\frac{\partial z_{(2)}^{(2)}}{\partial a_{(1)}^{(2)}}&
&\frac{\partial a_{(1)}^{(2)}}{\partial z_{(1)}^{(2)}}&
&\frac{\partial z_{(1)}^{(2)}}{\partial w_{(1)}^{(2,2)}}&\\
&=
&2(y^{(2)} - \hat y^{(2)})&
&\sigma'(z_{(2)}^{(2)})&
&w_{(2)}^{(2)}&
&\sigma'(z_{(1)}^{(2)})&
&x^{(2)}&
\\
\\
\frac{\partial C}{\partial w_{(2)}^{(2,1)}}
&=
&\frac{\partial C}{\partial y^{(2)}}&
&\frac{\partial y^{(2)}}{\partial z_{(2)}^{(2)}}&
&\frac{\partial z_{(2)}^{(2)}}{\partial w_{(2)}^{(2,1)}}&\\
&=
&2(y^{(2)} - \hat y^{(2)})&
&\sigma'(z_{(2)}^{(2)})&
&a_{(1)}^{(1)}&
\\
\\
\frac{\partial C}{\partial w_{(2)}^{(2,2)}}
&=
&\frac{\partial C}{\partial y_{(2)}}&
&\frac{\partial y^{(2)}}{\partial z_{(2)}^{(2)}}&
&\frac{\partial z_{(2)}^{(2)}}{\partial w_{(2)}^{(2,2)}}&\\
&=
&2(y^{(2)} - \hat y^{(2)})&
&\sigma'(z_{(2)}^{(2)})&
&a_{(1)}^{(2)}&
\end{aligned}
$$

![](img/red.png)