# **Laboratorio: Backward Propagation**
**José Barrios - 20007192**

## Instrucciones
Usar Numpy para entrenar un aproximador para la función XOR usando dos capas intermedias. Se solicita:
* Usar dos neuronas o más en la primera capa oculta
* Usar exactamente dos neuronas en la segunda capa oculta (capa previa a la salida)
* Usar activación ReLu

Además, se solicita realizar al menos 5 experimentos. Para cada experimento:
* Inicializar los parámetros aleatoriamente con distribución normal centrada en 0 y desviación estándar de 0.1
* Retornar la representación intermedia de la segunda capa oculta

Por último, graficar las 5 representaciones intermedias, comprarar y concluir.

In [1]:
import numpy as np

## Pruebas de funcionalidad
Varias pruebas de funcionalidades que serán útiles para definir la clase y métodos de la red neuronal. Todo esto es omitible y se puede salrar a la sección de RedNeuronal.

In [38]:
#Definir funciones de activación y su derivada
def relu(x):
    return x * (x > 0)

def relu_deriv(x):
    return x > 0

In [9]:
relu(-2)

0

In [10]:
relu_deriv(2)

1

In [11]:
#Inicialización con distribución normal
np.random.normal(loc=0, scale=0.1, size=(2, 3))

array([[ 0.10319707, -0.1274431 , -0.05905622],
       [-0.03669341, -0.05381003, -0.0623852 ]])

In [14]:
#Tablas de verdad de XOR
tablaXor = np.array([[0, 0], 
                     [0, 1], 
                     [1, 0], 
                     [1, 1]])
labelXor = np.array([[0, 1, 1, 0]]).T

In [15]:
labelXor

array([[0],
       [1],
       [1],
       [0]])

In [50]:
np.random.seed(123)
W_I_H1 = np.random.normal(loc=0, scale=0.1, size=(2, 3)) #Capa oculta de 3 neuronas
W_H1_H2 = np.random.normal(loc=0, scale=0.1, size=(3, 2)) #Capa oculta de 2 neuronas
W_H2_O = np.random.normal(loc=0, scale=0.1, size=(2, 1)) #Pesos hacia la capa de salida

In [51]:
print(W_I_H1)
print(W_H1_H2)
print(W_H2_O)

[[-0.10856306  0.09973454  0.02829785]
 [-0.15062947 -0.05786003  0.16514365]]
[[-0.24266792 -0.04289126]
 [ 0.12659363 -0.08667404]
 [-0.06788862 -0.0094709 ]]
[[ 0.14913896]
 [-0.0638902 ]]


In [None]:
W = [W_I_H1, W_H1_H2, W_H2_O]

In [58]:
#Forward propagation (una iteración)

A = tablaXor #Entrada original
Capa = [] #Almacenamiento de resultados intermedios
Capa.append(A) #Capa 0 = input
    
#Ciclo para calcular los valores de cada capa
#Recorre desde la capa de entrada hasta la de salida
for pesos in W:
    z = np.matmul(A, pesos) #Preactivación 
    A = relu(z) #Activación 
    Capa.append(A)
    print(z)

#Predicción 
print(A)

[[ 0.          0.          0.        ]
 [-0.15062947 -0.05786003  0.16514365]
 [-0.10856306  0.11328885  0.02121298]
 [-0.25919253  0.05542883  0.18635663]]
[[ 0.          0.        ]
 [-0.0107193  -0.00156406]
 [ 0.01415447 -0.01002011]
 [-0.00449717 -0.0065692 ]]
[[0.        ]
 [0.        ]
 [0.00221688]
 [0.        ]]
[[0.        ]
 [0.        ]
 [0.00221688]
 [0.        ]]


In [53]:
#Error de la predicción
error = (A - labelXor)**2
error

array([[0.        ],
       [1.        ],
       [0.99680959],
       [0.        ]])

In [59]:
#Backward propagation (una iteración)
lr = 0.5

layer3_delta = Capa[-1] - labelXor #Error entre predicción y salida real
print(layer3_delta)

layer2_delta = np.matmul(layer3_delta, W[-1].T) * relu_deriv(Capa[-2])
print(layer2_delta)

layer1_delta = np.matmul(layer2_delta, W[-2].T) * relu_deriv(Capa[-3])
print(layer3_delta)

#Actualización de pesos
W[-1] -= lr * np.matmul(Capa[-2].T, layer3_delta)
W[-2] -= lr * np.matmul(Capa[-3].T, layer2_delta)
W[-3] -= lr * np.matmul(Capa[-4].T, layer1_delta)

[[ 0.        ]
 [-1.        ]
 [-0.99778312]
 [ 0.        ]]
[[ 0.          0.        ]
 [-0.          0.        ]
 [-0.15627305  0.        ]
 [ 0.          0.        ]]
[[ 0.        ]
 [-1.        ]
 [-0.99778312]
 [ 0.        ]]


In [None]:
#Inicialización de pesos
np.random.seed(1)
W_I_H1 = np.random.normal(loc=0, scale=0.1, size=(2, 3)) #Capa oculta de 3 neuronas
W_H1_H2 = np.random.normal(loc=0, scale=0.1, size=(3, 2)) #Capa oculta de 2 neuronas
W_H2_O = np.random.normal(loc=0, scale=0.1, size=(2, 1)) #Pesos hacia la capa de salida

W = [W_I_H1, W_H1_H2, W_H2_O]
#print(W)

#Ciclo de iteraciones 
for epoch in range(0, 60):
    #Forward propagation
    A = tablaXor #Entrada original
    Capa = [] #Almacenamiento de resultados intermedios
    Capa.append(A) #Capa 0 = input 

    #Ciclo para calcular los valores de cada capa
    #Recorre desde la capa de entrada hasta la de salida
    for pesos in W:
        z = np.matmul(A, pesos) #Preactivación 
        A = relu(z) #Activación 
        Capa.append(A)
        
    #Backward propagation
    lr = 0.5
    error = (0.5*(Capa[-1] - labelXor)**2).mean()
    
    #layer3_delta = Capa[-1] - labelXor #Error entre predicción y salida real
    #layer2_delta = np.matmul(layer3_delta, W_H2_O.T) * relu_deriv(Capa[-2])
    #layer1_delta = np.matmul(layer2_delta, W_H1_H2.T) * relu_deriv(Capa[-3])

    #Actualización de pesos
    #W_H2_O -= lr * np.matmul(Capa[-2].T, layer3_delta)
    #W_H1_H2 -= lr * np.matmul(Capa[-3].T, layer2_delta)
    #W_I_H1 -= lr * np.matmul(Capa[-4].T, layer1_delta)
    
    #W = [W_I_H1, W_H1_H2, W_H2_O]
    
    layer3_delta = Capa[-1] - labelXor #Error entre predicción y salida real
    layer2_delta = np.matmul(layer3_delta, W[-1].T) * relu_deriv(Capa[-2])
    layer1_delta = np.matmul(layer2_delta, W[-2].T) * relu_deriv(Capa[-3])

    #Actualización de pesos
    W[-1] -= lr * np.matmul(Capa[-2].T, layer3_delta)
    W[-2] -= lr * np.matmul(Capa[-3].T, layer2_delta)
    W[-3] -= lr * np.matmul(Capa[-4].T, layer1_delta)
    
    print('Iteración ' + str(epoch) + ' - Error: ' + str(error))
    #print(error)
    #print(lr * np.matmul(Capa[-2].T, layer3_delta))
    #Recorre desde la capa de salida hasta la de entrada
    #for i in range(-1, -len(Capa)-1, -1):
        #print(Capa[i])

In [118]:
A = np.array([[1, 1]]) 

#Ciclo para calcular los valores de cada capa
#Recorre desde la capa de entrada hasta la de salida
for i in range(0, len(W)):
    z = np.matmul(A, W[i]) #Preactivación 
    A = relu(z) #Activación 
    print(A)

A

[[-0. -0. -0.]]
[[0. 0.]]
[[0.]]


array([[0.]])

## Red Neuronal
Las pruebas de arriba servirán para escribir la función final de la red neuronal. Se diseñará una clase con los métodos respectivos para entrenar y predecir.

In [124]:
class RedNeuronal:
    def __init__(self, layer1_size=2):
        np.random.seed(1)
        self.inicializar(layer1_size)
        self.entrenado = False #Indicar si ya están entrenados los pesos
    
    def inicializar(self, layer1_size):
        W_I_H1 = np.random.normal(loc=0, scale=0.1, size=(2, layer1_size)) #Capa oculta de layer1_size neuronas
        W_H1_H2 = np.random.normal(loc=0, scale=0.1, size=(layer1_size, 2)) #Capa oculta de 2 neuronas
        W_H2_O = np.random.normal(loc=0, scale=0.1, size=(2, 1)) #Pesos hacia la capa de salida
        self.W = [W_I_H1, W_H1_H2, W_H2_O]
    
    def entrenar(self, df, labels, lr=0.1, epochs=50):
        #Verificar si ya fue entrenado previamente
        if(self.entrenado == True):
            self.inicializar(self.W[0].shape[1]) #Resetear los pesos
            
        #Ciclo de iteraciones 
        for epoch in range(0, epochs):
            # --- Forward propagation ---
            A = df #Entrada original
            Capa = [] #Almacenamiento de resultados intermedios
            Capa.append(A) #Capa 0 = input 

            #Ciclo para calcular los valores intermedios de cada capa
            #Recorre desde la capa de entrada hasta la de salida
            for pesos in self.W:
                z = np.matmul(A, pesos) #Preactivación 
                A = relu(z) #Activación 
                Capa.append(A)

            # --- Backward propagation ---
            error = (0.5*(Capa[-1] - labels)**2).mean()

            #Derivadas parciales
            layer3_delta = Capa[-1] - labels #Error entre predicción y salida real
            layer2_delta = np.matmul(layer3_delta, self.W[-1].T) * relu_deriv(Capa[-2]) #Propagar error de capa 3 a la 2
            layer1_delta = np.matmul(layer2_delta, self.W[-2].T) * relu_deriv(Capa[-3]) #Propagar error de capa 2 a la 1

            #Actualización de pesos
            self.W[-1] -= lr * np.matmul(Capa[-2].T, layer3_delta) #Actualiza W_H2_O
            self.W[-2] -= lr * np.matmul(Capa[-3].T, layer2_delta) #Actualiza W_H1_H2
            self.W[-3] -= lr * np.matmul(Capa[-4].T, layer1_delta) #Actualiza W_I_H1
            
            if(epoch % 10 == 4):
                print('Iteración ' + str(epoch) + ' - Error: ' + str(error))
        
        #Indicar que ya se entrenó la red
        #Si se intenta volver a entrenar, se volverán a inicializar los parámetros
        self.entrenado = True
    
    def predecir(self, X): #Recibe una matriz de N filas y 2 columnas
        A = X
        Capa2 = []
        for i in range(0, len(self.W)):
            z = np.matmul(A, self.W[i]) #Preactivación 
            A = relu(z) #Activación 
            if(i == 1): #Retornar representación de la segunda capa
                Capa2 = A
        return A, Capa2
        

## Experimentos
Realizar al menos 5 experimentos, variando learnog rate, epochs y tamaño de la primera capa oculta.

**Experimento 1**

In [121]:
experimento1 = RedNeuronal(2) #Primera capa oculta de 2 neuronas

In [128]:
experimento1.entrenar(tablaXor, labelXor, lr=0.2) 
#El error baja muy lentamente 

Iteración 4 - Error: 0.125
Iteración 14 - Error: 0.125
Iteración 24 - Error: 0.125
Iteración 34 - Error: 0.125
Iteración 44 - Error: 0.125


In [129]:
experimento1.predecir(tablaXor)

(array([[0.],
        [0.],
        [1.],
        [0.]]),
 array([[ 0.        ,  0.        ],
        [ 0.        ,  0.        ],
        [ 0.89709302, -0.        ],
        [ 0.        ,  0.        ]]))

**Experimento 2**

In [130]:
experimento2 = RedNeuronal(2) #Primera capa oculta de 2 neuronas

In [131]:
experimento2.entrenar(tablaXor, labelXor, lr=0.3, epochs=80) 

Iteración 4 - Error: 0.2498066077888068
Iteración 14 - Error: 0.24932699223116847
Iteración 24 - Error: 0.24669127669301869
Iteración 34 - Error: 0.20888564105098814
Iteración 44 - Error: 0.12953556110898276
Iteración 54 - Error: 0.12500004566689749
Iteración 64 - Error: 0.12500000000012612
Iteración 74 - Error: 0.125


In [132]:
experimento2.predecir(tablaXor)

(array([[0.00000000e+00],
        [0.00000000e+00],
        [1.00000000e+00],
        [2.55794741e-11]]),
 array([[ 0.00000000e+00,  0.00000000e+00],
        [ 0.00000000e+00,  0.00000000e+00],
        [ 8.98286054e-01, -0.00000000e+00],
        [ 2.29776848e-11, -0.00000000e+00]]))

**Experimento 3**

In [136]:
experimento3 = RedNeuronal(3) #Primera capa oculta de 3 neuronas
experimento3.entrenar(tablaXor, labelXor, lr=0.4, epochs=40) 
experimento3.predecir(tablaXor)
#Los valores muy cercanos a lo verdadero

Iteración 4 - Error: 0.24988105518633186
Iteración 14 - Error: 0.2478517626459687
Iteración 24 - Error: 0.19122228205405717
Iteración 34 - Error: 0.0019975492278509945


(array([[0.        ],
        [0.99459862],
        [0.99365462],
        [0.        ]]),
 array([[ 0.        ,  0.        ],
        [ 0.694437  , -0.        ],
        [ 0.69377789, -0.        ],
        [ 0.        ,  0.        ]]))

**Experimento 4**

In [137]:
experimento4 = RedNeuronal(3) #Primera capa oculta de 3 neuronas
experimento4.entrenar(tablaXor, labelXor, lr=0.5, epochs=50) 
experimento4.predecir(tablaXor)
#Los valores muy cercanos a lo verdadero y el error es bastante menor al experimento 3

Iteración 4 - Error: 0.24979207323786093
Iteración 14 - Error: 0.2449094736398387
Iteración 24 - Error: 0.04736098739042249
Iteración 34 - Error: 9.222407497209837e-05
Iteración 44 - Error: 0.00012943745469205196


(array([[0.        ],
        [0.97593322],
        [0.97391486],
        [0.        ]]),
 array([[ 0.        ,  0.        ],
        [ 0.69370396, -0.        ],
        [ 0.69226929, -0.        ],
        [ 0.        ,  0.        ]]))

**Experimento 5**

In [147]:
experimento5 = RedNeuronal(4) #Primera capa oculta de 4 neuronas
experimento5.entrenar(tablaXor, labelXor, lr=0.5, epochs=100) 
experimento5.predecir(tablaXor)

Iteración 4 - Error: 0.25
Iteración 14 - Error: 0.24998313186935833
Iteración 24 - Error: 0.24990521745335767
Iteración 34 - Error: 0.2485237497347504
Iteración 44 - Error: 0.16146103390641736
Iteración 54 - Error: 0.07375044362774134
Iteración 64 - Error: 0.0014274764901362254
Iteración 74 - Error: 0.0006857484851973572
Iteración 84 - Error: 0.00035362746450982364
Iteración 94 - Error: 0.00018768952367313702


(array([[0.        ],
        [1.02327147],
        [1.02218661],
        [0.        ]]),
 array([[ 0.        ,  0.        ],
        [ 0.73810653, -0.        ],
        [ 0.737324  , -0.        ],
        [ 0.        ,  0.        ]]))

## Conclusión 
En todas las representaciones intermedias de la segunda capa solamente una de las neuronas parece tener relevancia para el resultado final. El segundo array que devuelve la función Predecir nos da dicha representación intermedia y, en los 5 experimentos, la segunda neurona siempre es 0, por lo que podemos afirmar que la red determina que solo una de las neuronas previas a la salida es relevante.