Construyamos una red neuronal con una capa de entrada, una capa de salida con una red y L-1 redes ocultas.

# Con m datos de entrenamientos.

Para $m$ datos de entrenamiento, las expresión anteriores pueden ser resumidas en las siguientes ecuaciones



\begin{equation}
\begin{bmatrix}
z_1^{(0)}  &z_1^{(1)} & .&.& .&z_1^{(m)}\\
z_2^{(0)}  &z_2^{(1)} &. &.&  .&z_2^{(m)}\\
.          & .        &. & &   &.      \\
.          & .        &  &. &   &.      \\
.          & .        &  &  & .&      \\
z_{n^{[l]}}^{(0)}&z_{n^{[l]}}^{(1)} & . & .& .& z_{n^{[l]}}^{(m)}        \\
\end{bmatrix}^{[l]}=
\begin{bmatrix}
\theta_{11} & \theta_{12} & . & .& .& \theta_{1n^{[l-1]}}\\
\theta_{21} & \theta_{22} & . & .& .& \theta_{2n^{[l-1]}}\\
. & .  & . &   & & .\\
. & .  &   & . & & .\\
. & .  &   &  & .& .\\
\theta_{n^{[l]}1} & \theta_{n^{[l]}2} & . & .& .& \theta_{n^{[l]}n^{[l-1]}}\\
\end{bmatrix}^{[l]}_{n^{[l]} \times n^{[l-1]}}
\begin{bmatrix}
a_1^{(0)}  &a_1^{(1)} & .&.& .&a_1^{(m)}\\
a_2^{(0)}  &a_2^{(1)} &. &.&  .&a_2^{(m)}\\
.          & .        &. & &   &.      \\
.          & .        &  &. &   &.      \\
.          & .        &  &  & .&      \\
a_{n^{[L-1]}}^{(0)}&a_{n^{[L-1]}}^{(1)} & . & .& .& a_{n^{[L-1]}}^{(m)}        \\
\end{bmatrix}^{[l-1]} +
\begin{bmatrix}
b_1 \\
b_2 \\
. \\
. \\
. \\
b_{n^{[l]}}\\
\end{bmatrix}^{[l]}
\end{equation}


Escrito de una formas mas compacta tenemos que:


\begin{equation}
[ \vec{Z}^{[l](0)},\vec{Z}^{[l](1)},...,\vec{Z}^{[l](m)}  ]= \Theta^{[l]} [\vec{A}^{[l-1](0)},\vec{A}^{[l-1](1)},...,\vec{A}^{[l-1](m)} ]+ \vec{b}^{[l]}
\end{equation}

Aplicando la funcion de activación:

\begin{equation}
[\vec{A}^{[l](0)},\vec{A}^{[l](1)},...,\vec{A}^{[l](m)} ]=f([\vec{Z}^{[l](0)},\vec{Z}^{[l](1)},...,\vec{Z}^{[l](m)}  ])
\end{equation}

Las dimensiones de las expresiones anteriores, pueden ser resumidas en lo siguiente:

$\mathrm{dim(\vec{\cal{Z}}^{[l]})}=n^{[l]}\times m $

$\mathrm{dim(\vec{\Theta}^{[l]})}=n^{[l]}\times n^{[l-1]}$

$\mathrm{dim(\vec{\cal{A}}^{[l]})}=n^{[l-1]}\times m $

$\mathrm{dim(\vec{b}^{[l]})}=n^{[l]}$

## Topología de la red.

1. Construir un clase  que permita definir una red neuronal con la topología
deseada y la función de activación para cada capa, para ello deberá construir una funcion Topology con el número de capas de la red neuronal :

Topology = [n_x, n_h1, n_h2, n_h3, ...,n_y]

En este caso:
- $n^{[0]}=n_x$ seran los valores de entradas de la capa de entrada
- $n^{[1]}=n_{h1}$ Primera capa oculta de la red neuronal
- $n^{[2]}=n_{h2}$ Segunda capa oculta de la red neuronal

.

.

.


- $n^{[l]}=n_{hl}$ Segunda capa oculta de la red neuronal
.

.

.

- $n^{[L]}=n_{y}$ Segunda capa oculta de la red neuronal

donde

- $\mathrm{n_x}$: valores de entrada
- $\mathrm{n_{h1}}$: hidden layer 1
- $\mathrm{n_{h2}}$: hidden layer 2
- $\mathrm{n_y}$: last layer

- $n^{[L]}=n_{y}$ Segunda capa oculta de la red neuronal


También definir una lista con las funciones de activaciones para cada capa.


activation=[None, relu, relu, relu, ...,sigmoid]

  


a. Cada unas de las capas deberá tener los parámetros de inicialización de manera aleatoria:


La matriz de parametros para cada capa debera tener:


$\mathrm{dim(\vec{b}^{[l]})}=n^{[l]}$

$\mathrm{dim(\vec{\Theta}^{[l]})}=n^{[l]}\times n^{[l-1]}$

Lo anteriores parametros deberán estar en el constructor de la clase.


b. Construya un metodo llamado output cuya salida serán los valores de Z y A


$\mathrm{dim(\vec{\cal{A}}^{[l]})}=n^{[l-1]}\times m $

$\mathrm{dim(\vec{\cal{Z}}^{[l]})}=n^{[l]}\times m $.

In [1]:
import pandas as pd
import scipy as sc
import numpy as np
import h5py
import matplotlib.pylab as plt



In [2]:
class LayerNN:
    def __init__(self, act_fun, nlayer_present, nlayer_before):
        self.theta = 2 * np.random.random((nlayer_present, nlayer_before)) - 1
        self.B = 2 * np.random.random((nlayer_present, 1)) - 1
        self.act_fun = act_fun
    
    def output(self, Z, A):
        self.Z = Z
        self.A = A

def act_function(activation):
    if activation == "sigmoid":
        f = lambda x: 1 / (1 + np.exp(-x))
        fp = lambda x: f(x) * (1 - f(x))
    elif activation == "tanh":
        f = np.tanh
        fp = lambda x: 1 - np.tanh(x)**2
    elif activation == "relu":
        f = lambda x: np.maximum(0, x)
        fp = lambda x: np.where(x > 0, 1, 0)
    else:
        raise ValueError("Unsupported activation function")
    return f, fp

2. Construir un generalizacion de la red, en el que entrada el valor inicial
y la red neuronal completa arroje la salida y la actualizacion de la red con los parametros deseados:

  ```
  A, nn = forward_pass(A0, nn_red)

 ```

In [3]:
def forward_pass(A0, nn_red):
    A = A0
    for layer in nn_red:
        Z = np.dot(layer.theta, A) + layer.B
        A = layer.act_fun[0](Z)
        layer.output(Z, A)
    return A, nn_red

3. Encontrar la funcion de coste.


$$-\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right)) \tag{7}$$

In [4]:
def compute_cost(Y, AL):
    m = Y.shape[1]
    cost = -np.sum(Y * np.log(AL) + (1 - Y) * np.log(1 - AL)) / m
    return np.squeeze(cost)

4. Construir un codigo que permita realizar el BackwardPropagation

In [5]:
def backward_pass(Y, nn_red, alpha):
    m = Y.shape[1]
    L = len(nn_red)
    dAL = -(np.divide(Y, nn_red[-1].A) - np.divide(1 - Y, 1 - nn_red[-1].A))
    
    dA = dAL
    for l in reversed(range(L)):
        layer = nn_red[l]
        activation_derivative = layer.act_fun[1](layer.Z)
        dZ = dA * activation_derivative
        dTheta = (1 / m) * np.dot(dZ, nn_red[l - 1].A.T) if l > 0 else (1 / m) * np.dot(dZ, A0.T)
        db = (1 / m) * np.sum(dZ, axis=1, keepdims=True)
        
        dA = np.dot(layer.theta.T, dZ)
        
        layer.theta -= alpha * dTheta
        layer.B -= alpha * db
    
    return nn_red

Y a continuación se escriben pruebas de todas estas funciones:

In [6]:
import numpy as np
import h5py

# Cargar datos
data_train = "train_catvnoncat.h5"
train_dataset = h5py.File(data_train, "r")

data_test = "test_catvnoncat.h5"
test_dataset = h5py.File(data_test, "r")

# Leer los datos
xtrain_classes, xtrain, train_label = (
    train_dataset["list_classes"], train_dataset["train_set_x"], np.array(train_dataset["train_set_y"])
)

test_classes, xtest, test_label = (
    test_dataset["list_classes"], test_dataset["test_set_x"], np.array(test_dataset["test_set_y"])
)

# Redimensionar datos
xtrain_ = np.reshape(xtrain, (xtrain.shape[0], -1)).T / 255
xtest_ = np.reshape(xtest, (xtest.shape[0], -1)).T / 255

# Definir topología y activaciones
topology = [xtrain_.shape[0], 10, 5, 1]
activations = [None, act_function("relu"), act_function("relu"), act_function("sigmoid")]

# Inicializar red neuronal
nn_red = [LayerNN(activations[i], topology[i], topology[i-1]) for i in range(1, len(topology))]

# Entrenar red
A0 = xtrain_
Y = train_label.reshape(1, -1)


# forward pass
AL, nn_red = forward_pass(A0, nn_red)

# Calcular costo
cost = compute_cost(Y, AL)
print("Costo Inicial:", cost)

# Paso hacia atrás
alpha = 0.01
nn_red = backward_pass(Y, nn_red, alpha)

# forward pass después de actualizar
AL, nn_red = forward_pass(A0, nn_red)
new_cost = compute_cost(Y, AL)
print("Costo Actualizado:", new_cost)

# Evaluar en conjunto de prueba
A0_test = xtest_
test_Y = test_label.reshape(1, -1)
AL_test, _ = forward_pass(A0_test, nn_red)
test_cost = compute_cost(test_Y, AL_test)
print("Costo de Prueba:", test_cost)

Costo Inicial: 12.942850225892188
Costo Actualizado: 7.432876526846854
Costo de Prueba: 16.719095325458902
