In [7]:
import pandas as pd
import scipy as sc
import numpy as np
import h5py
import matplotlib.pylab as plt

## Topología de la red.

1. Construir un clase  que permita definir una red neuronal con la topología
deseada y la función de activación para cada capa, para ello deberá construir una funcion Topology con el número de capas de la red neuronal :

Topology = [n_x, n_h1, n_h2, n_h3, ...,n_y]

En este caso:
- $n^{[0]}=n_x$ seran los valores de entradas de la capa de entrada
- $n^{[1]}=n_{h1}$ Primera capa oculta de la red neuronal
- $n^{[2]}=n_{h2}$ Segunda capa oculta de la red neuronal

.

.

.


- $n^{[l]}=n_{hl}$ Segunda capa oculta de la red neuronal
.

.

.

- $n^{[L]}=n_{y}$ Segunda capa oculta de la red neuronal

donde

- $\mathrm{n_x}$: valores de entrada
- $\mathrm{n_{h1}}$: hidden layer 1
- $\mathrm{n_{h2}}$: hidden layer 2
- $\mathrm{n_y}$: last layer

- $n^{[L]}=n_{y}$ Segunda capa oculta de la red neuronal


También definir una lista con las funciones de activaciones para cada capa.


activation=[None, relu, relu, relu, ...,sigmoid]

  


a. Cada unas de las capas deberá tener los parámetros de inicialización de manera aleatoria:


La matriz de parametros para cada capa debera tener:


$\mathrm{dim(\vec{b}^{[l]})}=n^{[l]}$

$\mathrm{dim(\vec{\Theta}^{[l]})}=n^{[l]}\times n^{[l-1]}$

Lo anteriores parametros deberán estar en el constructor de la clase.


b. Construya un metodo llamado output cuya salida serán los valores de Z y A


$\mathrm{dim(\vec{\cal{A}}^{[l]})}=n^{[l-1]}\times m $

$\mathrm{dim(\vec{\cal{Z}}^{[l]})}=n^{[l]}\times m $.

Iniciamos con la funciones de activación: Tendriamos primero una función que Retorna el máximo entre 0 y el valor de entrada Z (elemento a elemento). Luego con una función sigmoide que sirve para la capa de salida en clasificación binaria, pero la incluimos. Además de la que está involucrada con la clasificación multiclase. Luego vamos con la inicialización y la porpagación


In [8]:
import numpy as np

def act_funcion(x, activation):
    if activation == "sigmoid":
        f = 1/(1+np.exp(-x))
        fp = f*(1-f)
        return f, fp
    if activation == "relu":
        f = np.maximum(0, x)
        fp = (x > 0).astype(float)
        return f, fp
    if activation == "tanh":
        f = np.tanh(x)
        fp = 1 - f**2
        return f, fp
    return x, np.ones_like(x)

class layer_nn:
    def __init__(self, act_fun, nlayer_presente, nlayer_before):
        self.theta = 2*np.random.random((nlayer_presente, nlayer_before)) - 1
        self.B = 2*np.random.random((nlayer_presente, 1)) - 1
        self.act_fun = act_fun

class RedManual:
    def __init__(self, topologia, activaciones, semilla=123):
        np.random.seed(semilla)
        self.topologia = topologia
        self.activaciones = activaciones
        self.total_capas = len(topologia) - 1
        self.capas = []
        for i in range(1, len(topologia)):
            n_actual = topologia[i]
            n_anterior = topologia[i-1]
            act = activaciones[i]
            capa = layer_nn(act, n_actual, n_anterior)
            self.capas.append(capa)

    def salida_completa(self, X):
        Zs = {}
        As = {}
        A_actual = X
        As[0] = A_actual

        indice = 1
        for capa in self.capas:
            T = capa.theta
            B = capa.B
            Z = T @ A_actual + B
            f, fp = act_funcion(Z, capa.act_fun)
            A_actual = f
            Zs[indice] = Z
            As[indice] = A_actual
            indice += 1

        return Zs, As


topology = [10, 3, 4, 6, 1]
activations = [None, "sigmoid", "sigmoid", "sigmoid", "sigmoid"]

red = RedManual(topology, activations)

xtrain_ = np.random.randn(100, 10)
A0 = xtrain_.T

Z_dict, A_dict = red.salida_completa(A0)

print("Dim capa 1:", Z_dict[1].shape, A_dict[1].shape)
print("Dim capa 2:", Z_dict[2].shape, A_dict[2].shape)
print("Dim capa 3:", Z_dict[3].shape, A_dict[3].shape)
print("Dim capa 4:", Z_dict[4].shape, A_dict[4].shape)

print("Salida final:", A_dict[len(topology)-1])


Dim capa 1: (3, 100) (3, 100)
Dim capa 2: (4, 100) (4, 100)
Dim capa 3: (6, 100) (6, 100)
Dim capa 4: (1, 100) (1, 100)
Salida final: [[0.81888329 0.8165776  0.82092089 0.81890122 0.8181269  0.81548772
  0.81532843 0.81138835 0.81853771 0.81764692 0.81950623 0.82003787
  0.81922637 0.8140678  0.81771696 0.81979479 0.81499006 0.81721438
  0.81609243 0.81487338 0.81757162 0.81476289 0.81387868 0.81575781
  0.8162841  0.81801612 0.8132815  0.81449535 0.8154658  0.81874237
  0.81238852 0.81344455 0.81250987 0.82017917 0.81694479 0.81473848
  0.81748249 0.81263393 0.8130564  0.81770925 0.81707627 0.81224791
  0.81712638 0.81853248 0.81503133 0.81680652 0.81632506 0.8186872
  0.81489605 0.81798184 0.81564337 0.81860956 0.81745596 0.81715133
  0.8161444  0.81726662 0.81980582 0.818077   0.81751576 0.81351952
  0.81261411 0.81355447 0.81705041 0.81586292 0.81463374 0.8137268
  0.81627162 0.81303222 0.81114173 0.81469833 0.81559891 0.81942729
  0.81578702 0.81928376 0.817182   0.8156634  0.8149

El código construye una red neuronal totalmente conectada cuya estructura y funciones de activación se definen mediante una topología suministrada. Cada capa genera una combinación lineal de la entrada usando sus pesos y sesgos, y luego aplica la activación correspondiente para producir la salida que servirá como entrada de la siguiente capa. Durante la propagación hacia adelante, el programa almacena tanto las combinaciones lineales como las salidas activadas de cada nivel, lo que permite examinar la transformación progresiva de los datos desde la entrada original hasta la salida final de la red, obtenida tras atravesar todas las capas.

Ahora para la parte 2

In [6]:
def act_function(x, activation):
    if activation == "sigmoid":
        f = lambda t: 1/(1+np.exp(-t))
        fp = f(x)*(1-f(x))
        return f(x), fp

    elif activation == "tanh":
        f = lambda t: np.tanh(t)
        fp = 1 - np.tanh(x)**2
        return f(x), fp

    elif activation == "relu":
        f = np.maximum(0, x)
        fp = (x > 0).astype(float)
        return f, fp

    else:
        return x, np.ones_like(x)


class layer_nn():
    def __init__(self, act_fun, nlayer_present, nlayer_before):
        self.theta = 2*np.random.random((nlayer_present, nlayer_before)) - 1
        self.B = 2*np.random.random((nlayer_present,1)) - 1
        self.act_fun = act_fun
        self.Z = None
        self.A = None

    def output(self, Z, A):
        self.Z = Z
        self.A = A


class RedNeuronalGeneralizada:
    def __init__(self, topologia, activaciones, semilla=1234):
        np.random.seed(semilla)

        self.topologia = topologia
        self.activaciones = activaciones
        self.lista_capas = []
        self.numero_capas_totales = len(topologia) - 1

        indice = 1
        for i in range(1, len(topologia)):
            numero_actual = topologia[i]
            numero_previo = topologia[i-1]
            funcion_act = activaciones[i]
            capa = layer_nn(funcion_act, numero_actual, numero_previo)
            self.lista_capas.append(capa)
            indice += 1


    def forward_pass(self, A0):

        Z_dict = {}
        A_dict = {}

        A_actual = A0
        A_dict[0] = A_actual

        indice_capa = 1

        for capa in self.lista_capas:

            matriz_pesos = capa.theta
            vector_bias = capa.B

            Z_actual = np.dot(matriz_pesos, A_actual) + vector_bias

            A_activada, derivada_A = act_function(Z_actual, capa.act_fun)

            capa.output(Z_actual, A_activada)
            Z_dict[indice_capa] = Z_actual
            A_dict[indice_capa] = A_activada

            A_actual = A_activada
            indice_capa += 1

        return A_actual, Z_dict, A_dict, self


#ejemplo

topologia = [5, 4, 3, 2, 1]
activaciones = [None, "sigmoid", "tanh", "relu", "sigmoid"]

red = RedNeuronalGeneralizada(topologia, activaciones)

X0 = np.random.randn(5, 20)

A_final, Zs, As, red_actualizada = red.forward_pass(X0)

print("Dimensiones capa 1:", Zs[1].shape, As[1].shape)
print("Dimensiones capa 2:", Zs[2].shape, As[2].shape)
print("Dimensiones capa 3:", Zs[3].shape, As[3].shape)
print("Dimensiones capa 4:", Zs[4].shape, As[4].shape)
print("Salida final:", A_final.shape)


Dimensiones capa 1: (4, 20) (4, 20)
Dimensiones capa 2: (3, 20) (3, 20)
Dimensiones capa 3: (2, 20) (2, 20)
Dimensiones capa 4: (1, 20) (1, 20)
Salida final: (1, 20)


El código construye una red neuronal multicapa totalmente conectada en la que cada capa posee pesos, sesgos y una función de activación configurable. Durante la propagación hacia adelante, la red toma una entrada inicial y la transforma capa por capa aplicando primero una combinación lineal mediante los pesos y sesgos, y luego una función de activación que determina la salida no lineal de cada nivel. A medida que avanza, el código almacena tanto las combinaciones lineales como las salidas activadas, permitiendo inspeccionar o reutilizar estos valores. Al final, devuelve la salida final de la red junto con los registros internos generados durante el proceso

parte 3.

In [10]:
import numpy as np

def funcion_coste_binaria(Y, A):
    m = Y.shape[1]
    acumulado = 0.0
    i = 0
    while i < m:
        y = Y[0, i]
        a = A[0, i]
        if a <= 0:
            a = 0.000000000000001
        if a >= 1:
            a = 1 - 0.000000000000001
        t1 = y * np.log(a)
        uno = 1
        yinv = uno - y
        ainv = uno - a
        t2 = yinv * np.log(ainv)
        suma = t1 + t2
        acumulado = acumulado + suma
        i = i + 1
    costo = -acumulado / m
    return costo


El código calcula el costo de una clasificación binaria comparando las etiquetas verdaderas con las predicciones generadas por un modelo. Para cada ejemplo, ajusta ligeramente las predicciones extremas para evitar problemas numéricos y luego combina la información de aciertos y errores mediante logaritmos, acumulando el resultado en una suma total. Al finalizar, obtiene el valor promedio negativo de esa suma, que representa la medida final de discrepancia entre lo que el modelo predijo y lo que debía predecir.

parte 4.

In [16]:
import numpy as np

def act_function(x, activation):
    if activation == "sigmoid":
        f = lambda t: 1/(1+np.exp(-t))
        fp = f(x)*(1-f(x))
        return f(x), fp
    elif activation == "tanh":
        f = lambda t: np.tanh(t)
        fp = 1 - np.tanh(x)**2
        return f(x), fp
    elif activation == "relu":
        f = np.maximum(0, x)
        fp = (x > 0).astype(float)
        return f, fp
    else:
        uno = np.ones_like(x)
        return x, uno

class layer_nn():
    def __init__(self, act_fun, nlayer_present, nlayer_before):
        self.theta = 2*np.random.random((nlayer_present, nlayer_before)) - 1
        self.B = 2*np.random.random((nlayer_present,1)) - 1
        self.act_fun = act_fun
        self.Z = None
        self.A = None
        self.dZ = None
        self.dA = None
        self.dtheta = None
        self.db = None

    def output(self, Z, A):
        self.Z = Z
        self.A = A

class RedNeuronalGeneralizada:
    def __init__(self, topologia, activaciones, semilla=1234):
        np.random.seed(semilla)
        self.topologia = topologia
        self.activaciones = activaciones
        self.lista_capas = []
        self.numero_capas_totales = len(topologia) - 1
        i = 1
        while i < len(topologia):
            nact = topologia[i]
            nant = topologia[i-1]
            fac = activaciones[i]
            c = layer_nn(fac, nact, nant)
            self.lista_capas.append(c)
            i = i + 1

    def forward_pass(self, A0):
        self.A0_guardada = A0
        Zs = {}
        As = {}
        Aact = A0
        As[0] = Aact
        ind = 1
        for capa in self.lista_capas:
            t = capa.theta
            b = capa.B
            Znuevo = np.dot(t, Aact) + b
            Aactiva, der = act_function(Znuevo, capa.act_fun)
            capa.output(Znuevo, Aactiva)
            Zs[ind] = Znuevo
            As[ind] = Aactiva
            Aact = Aactiva
            ind = ind + 1
        return Aact, Zs, As, self

    def backward_pass(self, Y, A_final):
        m = Y.shape[1]
        L = self.numero_capas_totales
        dAL = -(np.divide(Y, A_final) - np.divide(1 - Y, 1 - A_final))
        self.lista_capas[L-1].dA = dAL
        idx = L-1
        while idx >= 0:
            capa = self.lista_capas[idx]
            Zc = capa.Z
            if capa.act_fun == "sigmoid":
                f = lambda t: 1/(1+np.exp(-t))
                fp = f(Zc)*(1-f(Zc))
                dZc = capa.dA * fp
            elif capa.act_fun == "tanh":
                fp = 1 - np.tanh(Zc)**2
                dZc = capa.dA * fp
            elif capa.act_fun == "relu":
                fp = (Zc > 0).astype(float)
                dZc = capa.dA * fp
            else:
                uno = np.ones_like(Zc)
                dZc = capa.dA * uno
            capa.dZ = dZc

            if idx == 0:
                Aantes = self.A0_guardada
            else:
                Aantes = self.lista_capas[idx-1].A

            capa.dtheta = np.dot(dZc, Aantes.T) / m
            capa.db = np.sum(dZc, axis=1, keepdims=True) / m

            if idx != 0:
                tnext = capa.theta
                self.lista_capas[idx-1].dA = np.dot(tnext.T, dZc)

            idx = idx - 1

    def actualizar(self, alfa):
        i = 0
        while i < len(self.lista_capas):
            c = self.lista_capas[i]
            c.theta = c.theta - alfa * c.dtheta
            c.B = c.B - alfa * c.db
            i = i + 1


top = [5,4,3,2,1]
acts = [None,"sigmoid","tanh","relu","sigmoid"]

red = RedNeuronalGeneralizada(top, acts)

X = np.random.randn(5, 20)
Y = (np.random.rand(1,20) > 0.5).astype(float)

Afin, Zs, As, r = red.forward_pass(X)
red.backward_pass(Y, Afin)
red.actualizar(0.01)

print("proceso terminado")


proceso terminado


El código construye una red neuronal completamente conectada capaz de realizar tanto la propagación hacia adelante como la retropropagación para ajustar sus parámetros. Durante la fase de avance, cada capa transforma las entradas aplicando pesos, sesgos y la función de activación correspondiente, almacenando los valores intermedios para usarlos después. Luego, en la fase de retropropagación, calcula cómo varía el error respecto de cada salida y transmite esa información hacia atrás por todas las capas, obteniendo los gradientes de los pesos y sesgos. A lo último actualiza los parámetros restando una fracción proporcional a esos gradientes, permitiendo que la red aprenda a reducir su error a partir de los datos suministrados.