# Resolviendo el problema XOR utilizando una red neuronal multicapa (DNN) 

Ahora que ya hemos metido un poquito mano a Keras, vamos a demostrar que Vapnik estaba equivocado, vamos a resolver el problema XOR mediante el uso de redes neuronales. Sabemos que una sola capa no podría resolver este problema, sin embargo, lo podremos resolver fácilmente utilizando más de una capa.

In [1]:
# TensorFlow and tf.keras
import tensorflow as tf
from tensorflow import keras

# Helper libraries
import numpy as np
import matplotlib.pyplot as plt

print(tf.__version__)

2.18.0


Vamos a definir el problema XOR con 4 ejemplos de entrada. Nótese que a pesar de que utilizamos una entrada binaria la salida de la red va a ser un número real.

X va a ser nuestro input bidimensional (x1, x2) e Y va a estar formado por las etiquetas correspondientes, que obtendremos siguiendo la función XOR.

![texto alternativo](https://drive.google.com/uc?id=1q0y13JLtQqGTL_J4PWz9q5Hr8gvlcrzt)


In [2]:
train_data = np.array([[0,0],[0,1],[1,0],[1,1]])
train_labels = np.array([[0],[1],[1],[0]])

Definimos ahora la topología de nuestra DNN. En este caso  2 - 2 - 1

![texto alternativo](https://drive.google.com/uc?id=1JOgtE0qjqvDTMFE5drMXAeZGV33Yrtv0)



In [4]:
n_input_nodes = 2
n_hidden_nodes = 2
n_output_nodes = 1

Ha llegado el momento de construir la red neuronal que resuelva nuestro problema!

TODO 1: define una red neuronal con la topología 2 - 2 - 1. Utiliza "sigmoid" como la función de activación no lineal de la capa oculta [1 pto]:

In [5]:
# Defino la red neuronal con la topología especificada
model = keras.Sequential([
    # Capa de entrada (2) -> Capa oculta (2) con activación sigmoid
    keras.layers.Dense(n_hidden_nodes, activation='sigmoid', input_shape=(n_input_nodes,)),
    # Capa oculta (2) -> Capa de salida (1)
    keras.layers.Dense(n_output_nodes)
])

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


TODO 2: muestra qué pinta tiene nuestra red neuronal (pista, ver summary en la doc. de keras) [1 pto]

In [6]:
# Muestro el resumen de la arquitectura de mi modelo
model.summary()

TODO 3: ahora tenemos que compilar el modelo. Vamos a utilizar sgd como nuestro optimizador, mean squared error como nuestra función de coste, y utilizaremos como métrica accuracy. Además, pon el learning rate de sgd a 0.1. (Pista, mira cómo hemos compilado el modelo en el ejemplo anterior) [1 pto]

In [8]:
# Compilo el modelo con las especificaciones requeridas
model.compile(
    optimizer=tf.keras.optimizers.SGD(learning_rate=0.1),
    loss='mean_squared_error',
    metrics=['accuracy']
)

TODO 4: Toca entrenar el modelo, utiliza la función fit con 1000 épocas. [1 pto]

In [9]:
# Entreno el modelo con los datos del XOR
history = model.fit(
    train_data,           # Datos de entrada [[0,0],[0,1],[1,0],[1,1]]
    train_labels,         # Etiquetas correspondientes [[0],[1],[1],[0]]
    epochs=1000,          # 1000 épocas como se solicita
    verbose=1            # Muestro el progreso del entrenamiento
)



Epoch 1/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 215ms/step - accuracy: 0.5000 - loss: 2.2655
Epoch 2/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.5000 - loss: 1.2476
Epoch 3/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.5000 - loss: 0.7674
Epoch 4/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.5000 - loss: 0.5269
Epoch 5/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.5000 - loss: 0.4023
Epoch 6/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.5000 - loss: 0.3364
Epoch 7/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - accuracy: 0.5000 - loss: 0.3010
Epoch 8/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step - accuracy: 0.2500 - loss: 0.2819
Epoch 9/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━

TODO 5: Por último, imprime las salidas que obtendríamos para nuestros datos de entrenamiento (pista, ver predict) [1 pto]

In [10]:
# Realizo predicciones con los datos de entrenamiento
predictions = model.predict(train_data)

# Muestro las predicciones junto a los datos de entrada para mejor comparación
print("\nResultados del XOR:")
print("Entrada  ->  Predicción  ->  Esperado")
print("-" * 40)
for i in range(len(train_data)):
    print(f"{train_data[i]}  ->  {predictions[i][0]:.4f}    ->  {train_labels[i][0]}")

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 23ms/step

Resultados del XOR:
Entrada  ->  Predicción  ->  Esperado
----------------------------------------
[0 0]  ->  0.3034    ->  0
[0 1]  ->  0.5404    ->  1
[1 0]  ->  0.5362    ->  1
[1 1]  ->  0.6198    ->  0


[Avanzado/Opcional] TODO 6: Por último, imprime los pesos entrenados del modelo e intenta explicar con tus palabras cómo funcionan. [0.5 pto]

In [12]:
# Obtengo los pesos de cada capa
weights = []
for layer in model.layers:
    weights.append(layer.get_weights())

# Muestro y analizo los pesos
print("Pesos de la capa oculta (2x2):")
print(weights[0][0])  # Matriz de pesos
print("\nBias de la capa oculta:")
print(weights[0][1])  # Vector de bias

print("\nPesos de la capa de salida (2x1):")
print(weights[1][0])  # Matriz de pesos
print("\nBias de la capa de salida:")
print(weights[1][1])  # Escalar de bias

"""
Explicación de cómo funciona:

1. La primera capa (oculta):
   - Transforma el espacio 2D de entrada en un nuevo espacio 2D
   - La función sigmoid "dobla" el espacio para separar los puntos del XOR
   - Los pesos determinan la dirección de esta transformación
   - Los bias ajustan el punto de activación de cada neurona

2. La capa de salida:
   - Combina las dos activaciones de la capa oculta
   - Los pesos determinan cómo se combinan estas activaciones
   - El bias final ajusta el umbral de decisión

El XOR funciona porque la capa oculta crea dos líneas de decisión que,
al combinarse en la salida, forman las regiones necesarias para separar
los puntos (0,0),(1,1) de los puntos (0,1),(1,0).
"""

Pesos de la capa oculta (2x2):
[[-1.4660841  -0.0838307 ]
 [-1.5268711  -0.06626735]]

Bias de la capa oculta:
[-0.6522448  -0.45859852]

Pesos de la capa de salida (2x1):
[[-0.9643955]
 [-0.3050724]]

Bias de la capa de salida:
[0.7518499]


'\nExplicación de cómo funciona:\n\n1. La primera capa (oculta):\n   - Transforma el espacio 2D de entrada en un nuevo espacio 2D\n   - La función sigmoid "dobla" el espacio para separar los puntos del XOR\n   - Los pesos determinan la dirección de esta transformación\n   - Los bias ajustan el punto de activación de cada neurona\n\n2. La capa de salida:\n   - Combina las dos activaciones de la capa oculta\n   - Los pesos determinan cómo se combinan estas activaciones\n   - El bias final ajusta el umbral de decisión\n\nEl XOR funciona porque la capa oculta crea dos líneas de decisión que,\nal combinarse en la salida, forman las regiones necesarias para separar\nlos puntos (0,0),(1,1) de los puntos (0,1),(1,0).\n'