### Redes Neuronales Teoría.

##### Nomenclatura
$X$ Matriz de entrada, de ***Registros-Variables Predictivas*** de dimensiones ($m$,$n_0$)  
$m$ es el número de ejemplos registros o muestras, de entrenamiento.  
$n_0$ es el número de variables predictivas que coincide con el número de neuronas de la capa cero.  
$Y$ Matriz de salida de los "$y_p$" valores predichos de dimensiones ($m$,$n_L$)  
$n_L$ es el número de clases posibles para los valores predichos que coincide con el número de neuronas de la última capa "$L$".  
$\sigma_l$ Función de activación de la capa $l$.  
$Z_l$ Matriz de entradas ponderadas de la capa $l$ antes de aplicar la función de activación $\sigma_l$. $Z_l$ de dimensiones ($m$,$n_l$).  
$n_l$ es el número de neuronas de la capa $l$  
$A_l$ Matriz de activaciones de entrada de la capa $l$, de dimensiones ($m$,$n_l$).  
$W_l$ Matriz de pesos de la capa $l$, de dimensiones ($n_{l-1}$,$n_l$).  
$b_l$ Vector de sesgos de la capa $l$, de dimensiones ($1$,$n_l$)  
$\alpha$ Tasa de "aprendizaje".  
Se utiliza para regular la magnitud del cambio en los pesos en dirección opuesta al gradiente.  
Una tasa de aprendizaje alta puede llevar a pasos demasiado grandes que pueden hacer que el algoritmo de optimización oscile o diverja, mientras que una tasa de aprendizaje baja puede hacer que el entrenamiento sea demasiado lento o quede atrapado en óptimos locales. 

#### Proceso de Propagación.
1. Se Inicializa $A_0=X$ , es decir $A=[X]$      
   Dimensiones:  
     
   $A_0 (m,n_0)$  
     
   $X=Z_0$  $(m,n_0)$    
   
   $A (1,L)$ $A$ es un arreglo de $L$ matrices de $(m,n_i)$  

2. Para $l=1,2,...,L-1$ se calcula $Z_l=A_{l-1}W_l+b_l$ y luego $A_l=\sigma_l(Z_l)$  
   Dimensiones:  
     
   $A_l=\sigma_l(Z_l)$ $(m,n_{l-1})$ $(n_{l-1},n_l)$ + $(1,b_l)$ $\implies (m,n_l)$
     
3. Finalmente se calcula $A_L=\sigma_L(Z_L)=y_p$ de modo que
4. $A=[X,A_1,A_2,...,A_{L-1},y_p]$ es un arreglo de $L$ matrices de $(m,n_i)$

#### Proceso de Retropropagación.
Se calcula el gradiente de la función de costo $J(W,b)$ con respecto a los pesos $W_l$ y los sesgos $b_l$ de cada capa:
$$\frac{\partial J}{\partial{W_l}}=\frac{\partial J}{\partial{Z_l}}\frac{\partial Z_l}{\partial{W_l}}=\frac{\partial J}{\partial{A_l}}\frac{\partial A_l}{\partial{Z_l}}\frac{\partial Z_l}{\partial{W_l}}=\frac{\partial J}{\partial{A_l}}\frac{\partial \sigma_l(Z_l)}{\partial{Z_l}}A_{l-1}^T$$ 
$$(n_{l-1},n_l)\equiv(n_l,n_l)(n_l,m)$$
$$\frac{\partial J}{\partial{b_l}}=\frac{\partial J}{\partial{Z_l}}\frac{\partial Z_l}{\partial{b_l}}=\frac{\partial J}{\partial{A_l}}\frac{\partial \sigma_l(Z_l)}{\partial{Z_l}}$$
Entonces:  
$$\frac{\partial J}{\partial{W_l}}=\frac{\partial J}{\partial{A_l}}\dot{\sigma}_l(Z_l)A_{l-1}^T$$
$$\frac{\partial J}{\partial{b_l}}=\frac{\partial J}{\partial{A_l}}\dot{\sigma}_l(Z_l)$$
Ahora se debe calcular:
$$\frac{\partial J}{\partial{A_l}}=\frac{\partial J}{\partial{A_{l+1}}}\frac{\partial A_{l+1}}{\partial{A_l}}=\frac{\partial J}{\partial{A_{l+1}}}\frac{\partial \sigma_{l+1}(Z_{l+1})}{\partial{Z_{l+1}}}\frac{\partial Z_{l+1}}{\partial A_l}=\frac{\partial J}{\partial{A_{l+1}}}\dot{\sigma}_{l+1}(Z_{l+1})W^T_{l+1}$$
De este modo se puede calcular recursivamente a partir de la salida o respuesta de la red:  
$$\frac{\partial J}{\partial{A_l}}=\frac{\partial J}{\partial{A_{l+1}}}\dot{\sigma}_{l+1}(Z_{l+1})W^T_{l+1}$$
Una vez calculado el gradiente de la función de costo con respecto a los parámetros, se actualizan los parámetros utilizando el método del gradiente descendente:  
$$W_l=W_l-\alpha\frac{\partial J}{\partial{W_l}}$$
$$b_l=b_l-\alpha\frac{\partial J}{\partial{b_l}}$$
$$W_l=W_l-\alpha\frac{\partial J}{\partial{A_l}}\dot{\sigma}_l(Z_l)A_{l-1}^T$$
$$b_l=b_l-\alpha\frac{\partial J}{\partial{A_l}}\dot{\sigma}_l(Z_l)$$

#### Caso particular cuando la funcion de costo es MSE.
$$J(W,b)=MSE=\frac{1}{m}(y_p-y)(y_p-y)^T=\frac{1}{m}\displaystyle\sum_{i=1}^m(y_{pi}-y_i)^2$$
además recordar:  
$$y_p=A_L$$
por lo tanto:
$$J(W,b)=MSE=\frac{1}{m}(A_L-y)(A_L-y)^T=\frac{1}{m}\displaystyle\sum_{i=1}^m(A_{Li}-y_i)^2$$
Entonces:  
$$\frac{\partial J}{\partial{A_L}}=\frac{2}{m}(A_L-y)=\frac{2}{m}\delta_L$$
Ahora para $l=L-1$:  
$$\frac{\partial J}{\partial{A_{L-1}}}=\frac{2}{m}(A_L-y)=\frac{2}{m}\delta_L$$
Finalmente para esta función de costo:  
$$W_l=W_l-\frac{\alpha}{m}\delta_l\frac{\partial \sigma_l(Z_l)}{\partial{Z_l}}A_{l-1}^T$$
$$b_l=b_l-\frac{\alpha}{m}\delta_l\frac{\partial \sigma_l(Z_l)}{\partial{Z_l}}$$

In [11]:
import numpy as np
from collections import deque

#### Función de Activación y derivada.

In [18]:
def fact(z, op,**kwargs):
    funciones_activacion = {
        'elu': elu,
        'leaky_relu': leaky_relu,
        'relu': relu,
        'sigmoid': sigmoid,
        'softplus': softplus,
        'softmax': softmax,
        'swish': swish,
        'tanh': tanh
    }
    assert op in funciones_activacion, f"Función de activación no válida. Por favor, elija entre {list(funciones_activacion.keys())}."
    return funciones_activacion[op](z,**kwargs)

def elu(z, dv=False, alpha=1.0):
    if dv:
        return np.where(z > 0, 1, alpha * np.exp(z))
    else:
        return np.where(z > 0, z, alpha * (np.exp(z) - 1))

def leaky_relu(z, dv=False, alpha=0.01):
    if dv:
        return np.where(z > 0, 1, alpha)
    else:
        return np.where(z > 0, z, alpha * z)

def relu(z, dv=False):
    if dv:
        return np.where(z > 0, 1, 0)
    else:
        return np.maximum(0, z)

def sigmoid(z, dv=False):
    sig = 1 / (1 + np.exp(-z))
    if dv:
        return sig * (1 - sig)
    else:
        return sig

def softplus(z, dv=False):
    if dv:
        return sigmoid(z)
    else:
        return np.log(1 + np.exp(z))

def softmax(z, dv=False):
    exp_z = np.exp(z - np.max(z))
    sm = exp_z / np.sum(exp_z)
    if dv:
        return np.diag(sm) - np.outer(sm, sm)
    else:
        return sm

def swish(z, dv=False):
    if dv:
        sig = sigmoid(z)
        return sig + z * sig * (1 - sig)
    else:
        return z * sigmoid(z)

def tanh(z, dv=False):
    if dv:
        return 1 - np.tanh(z)**2
    else:
        return np.tanh(z)

In [1]:
class NeuralNetwork:
    def __init__(self, top=[], fact=relu,**kwargs):
        self.top = top
        self.fact = fact
        self.fact_kwargs = kwargs
        self.init_param()

    def init_param(self):
        self.ws = []
        self.bs = []

        # Inicializar pesos y sesgos para las capas ocultas
        for i in range(1, len(self.top)):
            w = np.random.randn(self.top[i], self.top[i-1])
            b = np.zeros((self.top[i], 1))
            self.ws.append(w)
            self.bs.append(b)

    def fwprop(self, X):
        # Almacenar las activaciones de cada capa
        activations = [X]
        a = X

        # Propagación hacia adelante
        for w, b in zip(self.ws, self.bs):
            z = np.dot(w, a) + b
            a = self.fact(z,**self.fact_kwargs)
            activations.append(a)

        return a, activations

    def bprop(self, X, y, rate):
        m = X.shape[1]
        a, activations = self.fwprop(X)
        deltas = deque([])

        # Calcular el delta de la última capa
        delta = a - y
        deltas.appendleft(delta)

        # Calcular los deltas de las capas ocultas
        for l in range(len(self.ws) - 1, 0, -1):
            delta = np.dot(self.ws[l].T, deltas[0]) * self.fact(activations[l],dv=1,**self.fact_kwargs)
            deltas.appendleft(delta)

        # Calcular los gradientes de los pesos y sesgos
        dWs = [np.dot(d, activations[l].T) / m for l, d in enumerate(deltas)]
        dbs = [np.sum(d, axis=1, keepdims=True) / m for d in deltas]

        # Actualizar los pesos y sesgos
        self.ws = [w - rate * dW for w, dW in zip(self.ws, dWs)]
        self.bs = [b - rate * db for b, db in zip(self.bs, dbs)]
        
    def fit(self, X, y, rate=0.01, epochs=100):
        pass

    def predict(self, X):
        pass

    def predict_proba(self, X):
        pass

In [4]:
top=[2,5,1]
w=np.random.randn(top[1], top[0])
b = np.zeros((top[1], 1))
w,b

(array([[ 0.31551223,  0.50191654],
        [-0.14717021,  0.51081106],
        [ 0.13647864, -2.69844324],
        [-1.16602382, -0.42805743],
        [ 0.18587943, -0.47114309]]),
 array([[0.],
        [0.],
        [0.],
        [0.],
        [0.]]))

In [8]:
deltas=[]
a=np.array([[1],[3],[5]])
y=np.array([[2],[7],[-5]])
delta = a - y
# deltas.insert(0, delta)
deltas.append(delta)
display(delta)
display(deltas)

array([[-1],
       [-4],
       [10]])

[array([[-1],
        [-4],
        [10]])]

In [17]:

def f2(n):
    return 2*n
def f3(n,s=0):
    return 2*n+s
def f4(n,d=0,c=0):
    return 2*n+d+c

def f1(n,m,f,**kwargs):
    res=m+f(n,**kwargs)
    return res

print(f1(1,0,f3(s=1)))
print(f1(1,0,f4,d=1,c=2))

TypeError: f3() missing 1 required positional argument: 'n'

In [19]:
w=np.random.randn(1, 5)
w

array([[-0.70544773, -1.23583869,  0.13192467,  1.52150908,  1.93326865]])