### Descenso de gradiente

In [1]:
import numpy as np

Definimos funciones de activación

In [2]:
def sigmoide(z):
    return 1 / (1 + np.exp(-z))

def derivada_sigmoide(z):
    return sigmoide(z) * (1 - sigmoide(z))

In [4]:
# Inicialización aleatoria con valores entre -1 y 1
w11, w21, w12, w22, w_n1, w_n2 = 2*np.random.random() - 1, 2*np.random.random() - 1, 2*np.random.random() - 1, 2*np.random.random() - 1, 2*np.random.random() - 1, 2*np.random.random() - 1
b1, b2, b3 = 2*np.random.random() - 1, 2*np.random.random() - 1, 2*np.random.random() - 1

In [5]:
# Datos XOR
entradas = np.array([[0,0], [0,1], [1,0], [1,1]])
salidas_deseadas = np.array([[0], [1], [1], [0]])

In [11]:
tasa_aprendizaje = 0.0001
num_epocas = 10000

Ejecutamos descenso de gradiente con 10000 iteraciones

In [12]:
for epoch in range(num_epocas):
    for x, y in zip(entradas, salidas_deseadas):
        # Propagación hacia adelante
        z1 = w11*x[0] + w21*x[1] + b1
        n1 = sigmoide(z1)

        z2 = w12*x[0] + w22*x[1] + b2
        n2 = sigmoide(z2)

        z3 = n1*w_n1 + n2*w_n2 + b3
        n3 = sigmoide(z3)

        # Error
        error = y - n3

        # Propagación hacia atrás
        dL_dn3 = -error
        dL_dw_n1 = dL_dn3 * derivada_sigmoide(z3) * n1
        dL_dw_n2 = dL_dn3 * derivada_sigmoide(z3) * n2
        dL_db3 = dL_dn3 * derivada_sigmoide(z3)

        dL_dn1 = dL_dn3 * derivada_sigmoide(z3) * w_n1
        dL_dw11 = dL_dn1 * derivada_sigmoide(z1) * x[0]
        dL_dw21 = dL_dn1 * derivada_sigmoide(z1) * x[1]
        dL_db1 = dL_dn1 * derivada_sigmoide(z1)

        dL_dn2 = dL_dn3 * derivada_sigmoide(z3) * w_n2
        dL_dw12 = dL_dn2 * derivada_sigmoide(z2) * x[0]
        dL_dw22 = dL_dn2 * derivada_sigmoide(z2) * x[1]
        dL_db2 = dL_dn2 * derivada_sigmoide(z2)

        # Actualizar pesos y sesgos
        w11 -= tasa_aprendizaje * dL_dw11
        w21 -= tasa_aprendizaje * dL_dw21
        w12 -= tasa_aprendizaje * dL_dw12
        w22 -= tasa_aprendizaje * dL_dw22
        w_n1 -= tasa_aprendizaje * dL_dw_n1
        w_n2 -= tasa_aprendizaje * dL_dw_n2

        b1 -= tasa_aprendizaje * dL_db1
        b2 -= tasa_aprendizaje * dL_db2
        b3 -= tasa_aprendizaje * dL_db3

    # Cada 1000 épocas, mostrar el error
    if epoch % 1000 == 0:
        perdida_total = np.mean(np.square(salidas_deseadas - [sigmoide(n1*w_n1 + n2*w_n2 + b3) for x in entradas]))
        print(f"Época {epoch}: Error {perdida_total}")

Época 0: Error 0.2503312106831911
Época 1000: Error 0.2503318536283133
Época 2000: Error 0.2503325036315787
Época 3000: Error 0.2503331605185001
Época 4000: Error 0.2503338241222414
Época 5000: Error 0.25033449428329824
Época 6000: Error 0.25033517084919055
Época 7000: Error 0.2503358536741702
Época 8000: Error 0.2503365426189401
Época 9000: Error 0.2503372375503859


In [10]:
sigmoide(n1*w_n1 + n2*w_n2 + b3)

array([0.48182845])