# Red neuronal artificial desde cero en Numpy - Problema del XOR

Mezcla entre los videos de Siraj Raval y de Andrew Ng
- https://www.youtube.com/watch?v=vcZub77WvFA
- https://www.youtube.com/watch?v=262XJe2I2D0
- https://www.coursera.org/learn/neural-networks-deep-learning/lecture/6dDj7/backpropagation-intuition-optional


Vamos a crear un clasificador binario que podrá aprender la solución a la operación de XOR, utilizando una red neuronal artificial con una capa escondida que sigue la estructura presentada en la siguiente imagen.

<img src="04_TradANNDesdeCero.png">

Para ilustrar el procedimiento de back-propagation vamos a utilizar solamente funciones activación sigmoide, y vamos a utilizar numpy para ilustrar las operaciones matemáticas matriciales básicas con numpy.

In [1]:
import numpy as np #operaciones matriciales y con vectores
import time 

Definimos la función sigmoide y su función gradiente basada en si misma.

In [2]:
def sigmoide(x):
    return 1/(1+np.exp(-x))

def sigmoideGrad(x):
    return x*(1-x)

Creamos datos sintéticos (XOR sobre las dos primeras columnas) y especificamos los parámetros de la red neuronal. Incluimos una tercera columna para mostrar que la red resultante aprende a ignorar los atributos que no son importantes.

In [3]:
# Queremos que cada dato registro sea un vector de 3 posiciones. 
# Tenemos aquí 8 registros apilados horizontalmente gracias a la transposición del array incialmente creado
X = np.transpose(np.array([
    [0,0,1],
    [0,1,1],
    [1,0,1],
    [1,1,1],
    [0,0,0],
    [0,1,0],
    [1,0,0],
    [1,1,0]
]))
print("X", X)

y = np.array([
    0, 
    1, 
    1, 
    0,
    0, 
    1, 
    1, 
    0])
print("y", y)


X [[0 0 1 1 0 0 1 1]
 [0 1 0 1 0 1 0 1]
 [1 1 1 1 0 0 0 0]]
y [0 1 1 0 0 1 1 0]


## Inicialización de los parámetros

Inicializamos los pesos de la red aleatoriamente para la capa intermedia (1) y la capa de salida (2). La capa inicial no tiene pesos pues consiste únicamente de los datos de entrada.

La primera capa tiene 4 neuronas y 3 inputs, creamos una matriz de pesos w1 con 4 filas y 3 columnas. Tenemos además un vector b1 con 4 posiciones.

La segunda capa tiene 1 neurona y 4 inputs, creamos una matriz de pesos w2 con 1 fila y 4 columnas. Tenemos además un vector b2 con 1 posición.

In [3]:
def initParams():
    np.random.seed(123456)

    # El -0.5 permite que los valores queden centrados en 0
    w1 = 2*np.random.random((4, 3))-1
    w2 = 2*np.random.random((1, 4))-1
    b1 = 2*np.random.random((4, 1))-1
    b2 = 2*np.random.random((1, 1))-1
    return(w1, b1, w2, b2)

In [4]:
w1, b1, w2, b2 = initParams()
print("w1: {%s}\nb1: {%s}" % (w1, b1))
print("w2: {%s}\nb2: {%s}" % (w2, b2))

w1: {[[-0.74606033  0.93343568 -0.47904799]
 [ 0.79447305 -0.24650057 -0.32755651]
 [-0.09724706  0.68051017 -0.75379571]
 [ 0.0860524  -0.25397555 -0.10400635]]}
b1: {[[-0.54222539]
 [ 0.5535675 ]
 [ 0.18956718]
 [-0.72489289]]}
w2: {[[-0.74111864  0.71975741  0.64077673 -0.29589292]]}
b2: {[[0.70579956]]}


## Feed Forward

Comenzamos por definir la función feedForward, que recibe la matriz de inputs con todos los registros y retorna el vector con las predicciones correspondientes:

In [6]:
def feedForward(X, w1, b1, w2, b2):
    '''Calcula el valor predicho para todos los registros que se encuentran en X
       -----------
       Argumentos:
       X: matriz con los inputs, con tantas filas como atributos y tantas columnas como registros
       w1: matriz con los pesos de las conexiones entrantes de la 1a capa, 
         con tantas filas como atributos y tantas columnas como registros
       b1: array con los sesgos de las neuronas de la 1a capa
       w2: matriz con los pesos de las conexiones entrantes de la 2a capa, 
         con tantas filas como atributos y tantas columnas como registros
       b2: array con los sesgos de las neuronas de la 2a capa
       -----------
       Retorna:
       a1: matriz con las activaciones de la capa escondida, 
         con tantas filas como neuronas de la capa y tantas columnas como registros
       a2 (y estimado): vector con las predicciones
    '''
    ...
    ...
    ...
    
    return (a1, a2)

Podemos entonces evaluar el estado inicial de la red (con sus parámetros inicales):

In [7]:
a1, a2 = feedForward(X, w1, b1, w2, b1)
y_est = a2
print(y_est.transpose())

[[0.52068432]
 [0.49822742]
 [0.57914146]
 [0.56160151]
 [0.54035237]
 [0.51996802]
 [0.60057781]
 [0.58093636]]


Vemos que los datos están bastante alejados de la realidad [0, 1, 1, 0, 0, 1, 1, 0].

## Función de costo

In [8]:
def costoGlobal(y_real, y_est): 
    '''Calcula el costo global de la predicción con la red actual, comparando la clase real con las probabilidad estimadas
       -----------
       Argumentos:
       y_real: array con las clases reales de los datos
       y_est: array con las probabilidades de salida estimadas por la red
       -----------
       Retorna:
       costo: promedio de los costos de cada predicción individual
    '''
    ...
    
    return costo

In [10]:
costo = costoGlobal(y, y_est)
costo

0.7017260765032634