# Implementar un MLP con Backpropagation para resolver el problema de la función XOR 

<img src="figs/fig-MLP_XOR.png" width="50%">


1. **Definir la arquitectura de la red**:  
   - La red tendrá 2 entradas (los valores binarios del XOR), una capa oculta con 2 neuronas, y una neurona de salida.
   - Usar la función de activación sigmoide en las neuronas de la capa oculta y de salida.
   - Establecer una tasa de aprendizaje (ej. 0.5) y el número de épocas de entrenamiento.

   Por ejemplo, para la capa de salida (2 neuronas en la capa oculta, 1 neurona de salida):
 $$ W^{(2)} \in \mathbb{R}^{1 \times 2} $$
 $$ b^{(2)} \in \mathbb{R}^{1 \times 1} $$

2. **Inicializar los pesos y los sesgos**:  
   - Inicializar los pesos de las conexiones de la capa de entrada a la capa oculta y de la capa oculta a la capa de salida, de manera aleatoria (puedes usar la inicialización Xavier).
   - También inicializar los sesgos de cada capa.

3. **Propagación hacia adelante (Forward pass)**:  
   - Para cada entrada, multiplicar las entradas por los pesos de la capa oculta y sumar el sesgo.
   - Aplicar la función de activación (sigmoide) para obtener las activaciones de la capa oculta.
   - Repetir el proceso con los valores de la capa oculta para calcular la activación de la capa de salida.

4. **Calcular el error**:  
   - Calcular el error en la salida utilizando una función de error, como el Error Cuadrático Medio (MSE).

5. **Backpropagation (Propagación hacia atrás)**:  
   - Calcular los gradientes de error en la capa de salida
   - Propagar el error hacia la capa oculta, calculando el gradiente de error en la capa oculta.
   
6. **Actualizar los pesos y sesgos**:  
   - Usar los gradientes obtenidos para ajustar los pesos y los sesgos de la capa de salida y de la capa oculta utilizando el gradiente descendente.
   
7. **Repetir el entrenamiento**:  
   - Repetir los pasos de forward, cálculo de error y backpropagation por el número de épocas definido hasta que el error disminuya significativamente.

8. **Evaluar el modelo**:  
   - Después del entrenamiento, probar la red con las entradas XOR y verificar que las salidas estén cerca de los valores esperados (0 o 1).
   






In [24]:
import numpy as np
import math

# Función de activación sigmoide
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Derivada de la sigmoide
def sigmoid_derivative(x):
    # TODO: Implementar la derivada de la función sigmoide considerar que el valor x es  sigma(x)
    return

# Definimos los datos de entrada para XOR
X = np.array([[0, 0],
              [0, 1],
              [1, 0],
              [1, 1]])

# Salidas esperadas para XOR
y = np.array([[0], 
              [1], 
              [1], 
              [0]])

# Inicializamos los pesos y bias aleatoriamente
# Se establece la semilla para la generación de números pseudoaleatorios
np.random.seed(42)  # Para reproducibilidad de los experimentos

# Pesos entre capa de entrada y capa oculta
# Bias de la capa oculta
# Pesos entre capa oculta y capa de salida
# Bias de la capa de salida
W1 = np.zeros((2, 2))   
B1 = np.zeros(2)   

W2 = np.zeros((1, 2))   
B2 = np.zeros(1)   

# Definimos la tasa de aprendizaje
learning_rate = 0.5

# Número de iteraciones de entrenamiento
epochs = 1

for epoch in range(epochs):

    #----------------------------------------------
    # 1. Propagación hacia adelante (Forward pass)
    #----------------------------------------------

    #print('X',X)
    #print('W1',W1)
    #print('B1',B1)
    z_c1 = X @ W1.T + B1
    #print('zc1',z_c1)
    
    a_c1 = sigmoid(z_c1)
    #print('ac1',a_c1)

    z_c2 = a_c1 @ W2.T
    #print('zc2',z_c2)

    y_pred = sigmoid(z_c2)
    #print('yhat',y_pred)
    
    #----------------------------------------------
    # 2. Cálculo del error con MSE
    #----------------------------------------------
    
    error = np.divide((y_pred - y) ** 2, 2 * y.shape[0])
    print('MSE',error)

    # error total del batch de entrenamiento
    total_error =  np.sum(error)
    print('error total',total_error)
    """
    #----------------------------------------------
    # 3. Propagación hacia atrás (Backward pass)
    #----------------------------------------------
    
    #----------------------------------------------
    # Gradiente de la salida
    #----------------------------------------------
    # TODO: Calcular la derivada del error con respecto a la salida y

    dE_dy_pred = ?
    
    # TODO: Calcular la derivada de la activación de la salida con respecto a z_c2 

    d_y_pred_d_zc2 = ?

    # TODO: Calcular delta de la capa de salida
    delta_c2 = ?

    #----------------------------------------------
    # Gradiente en la capa oculta
    #----------------------------------------------
    # TODO: Propagar el error hacia la capa oculta, calcular deltas de la capa 1
    
    delta_c1 =  ? 

    #----------------------------------------------
    # 4. Actualización de los pesos y biases
    #----------------------------------------------

    # TODO: Actualizar los pesos y bias de la capa de salida
    W2 =  W2 -  ? 
    B2 =  b2 - ? 

    # TODO: Actualizar los pesos y bias de la capa oculta
    W1 = W1 - ?
    B1 = b1 - ?

    # Imprimir el error cada 1000 épocas
    if epoch % 1000 == 0:
        print(f"Época {epoch}, Error: {total_error}")



# Comprobar los resultados del modelo entrenado
# Recordar: al final del entrenamiento los parámetros de la red ya se ajustaron, es decir, las matrices Ws y Bias Bs se usan para predecir nuevos datos através de la red.
print("\nResultados finales:")

for i in range(len(X)):
    # TODO: Realizar la propagación hacia adelante para cada entrada de prueba
    x = X[i]
    x = x[np.newaxis, :] # agrega una dimensión al vector x, para que se represente como una matriz de 1 elemento
    z_hidden = None # ?    # Suma ponderada de la capa oculta
    a_hidden = None # ?    # activación de la neurona
    z_output = None # ?    # Suma ponderada de la capa de salida 
    y_pred = None   # ?    # Predicción para el ejemplo i
    
    # Mostrar las predicciones
    print(f"Entrada: {X[i]}, Salida estimada: {y_pred}, Salida real: {y[i]}")
    """

MSE [[0.03125]
 [0.03125]
 [0.03125]
 [0.03125]]
error total 0.125
