<p style='text-align: justify;'>
<b>Ejercicio 1:</b> Implemente el algoritmo de retropropagación para un perceptrón multicapa de forma que se pueda elegir libremente la cantidad de capas de la red y de neuronas en cada capa. Pruébelo entrenando una red de estructura apropiada para resolver el problema XOR, con sus particiones de entrenamiento y prueba correspondientes (datos de la Guía de Trabajos Prácticos 1).</p>

#### <b>Librerías</b>

In [185]:
import random
import csv
import numpy as np

<h3><p style="color:#E569BA";> <b>Paso 1:</b> Inicialización</p></h3>
Determino la estructura de mi red neuronal: el número de capas y neuronas para cada capa. En la variable *cant_entradas*, el primer elemento son las entradas x1,x2,... del archivo, mientras que los próximos elementos me determinan la cantidad de neuronas por capa. 

In [186]:
cant_entradas = np.array([2,3,2,1]) # Variable a cambiar según mi red neuronal

cant_capas = len(cant_entradas) - 1
cant_salidas = cant_entradas[cant_capas]

Levantamos los datos del archivo .csv, separando en un vector para las entradas y otro para las salidas esperadas. En este caso, entrenamos y probamos el algoritmo con el problema XOR, para lo cual usaremos una red de dos capas y dos entradas x_i. La capa de entrada tendrá 2 neuronas y la capa de salida tendrá 1 neurona.


In [187]:
trn = np.loadtxt('./data/XOR_trn.csv',delimiter=',')

yd = []                         # Salida esperadas
for i in range(len(trn)):
    fila = trn[i]
    cant_e = cant_entradas[0]   # Cantidad de entradas
    yd.append(fila[cant_e])
    aux = [-1]                  # Añado entrada -1 correspondiente al umbral/sesgo
    for j in range(cant_e):
        aux.append(fila[j])
    trn[i] = aux                # Vector de entradas por patrón

Declaro mis matrices de pesos, salidas y deltas. Inicializo al azar las matrices de pesos de cada capa.

In [188]:
# Inicializo la matriz de pesos para cada una de las capas.
w = []
for i in range(len(cant_entradas)-1):
    w_aux = np.random.rand(cant_entradas[i+1],cant_entradas[i]+1)-0.5
    w.append(w_aux)     # Añado al vector de matrices de pesos

# Estructura de la matriz:
print(w)
# El elemento w_ij = w[i][j] de la matriz me da los pesos correspondientes a la neurona j de la capa i. 
# El elemento w_ij[k] me da el peso asociado a la entrada k de la neurona j de la capa i.

# Definimos los vectores de salidas y deltas (vectores de vectores):
y = np.empty(cant_capas,dtype=object)
delta = np.empty(cant_capas,dtype=object)

[array([[ 0.46180609, -0.30884629, -0.30022162],
       [-0.10753381,  0.1739582 , -0.19280189],
       [ 0.4844951 ,  0.13262861,  0.4322848 ]]), array([[-0.24762826,  0.16493226,  0.40022781,  0.26072204],
       [ 0.03031838,  0.2809665 , -0.25845236,  0.02236117]]), array([[ 0.49189835, -0.20579952, -0.48734075]])]


<h3><p style="color:#E569BA";> <b>Paso 2:</b> Entrenamiento</p></h3>
Continuando con el algoritmo, realizamos los pasos de propagación hacia adelante, propagación hacia atrás y adaptación de los pesos en distintas épocas para todas las capas de nuestra red neuronal.

In [189]:
# DATOS PARA EL ALGORITMO:
epoca = 0               # Contador para época actual
epoca_max = 10          # Máximo de iteraciones
mu = 0.1                # Velocidad de aprendizaje
b = 0.5                 # Constante b para sismóidea
perc_error_max = 0.02   # Porcentaje máximo de error
errores_por_epoca = []
mse_por_epoca = []

# TODO: Agregar gráficas dinámicas

while (epoca < epoca_max):  
    
    #--------------------------------#
    #--------- Aprendizaje ----------#
    #--------------------------------#

    for patron in range(len(trn)):

        # -------- PROPAGACIÓN HACIA ADELANTE: -------- #
        entradas = trn[patron]
        for i in range(cant_capas):
            v = w[i]@entradas                                   # Producto interno de pesos y entradas
            v_a = 2/(1+np.exp(-b*v)) - 1                        # Función de activación: sismóidea
            y[i]=v_a                                            # Agrego la salida al vector de salidas
            entradas = np.concatenate(([-1],v_a),axis=None)     # Entrada de la próxima capa es la salida de esta capa
        
        # ---------- PROPAGACIÓN HACIA ATRÁS: --------- #
        error = y[-1] - yd[patron]
        # Con el error, obtengo el delta de la capa de salida
        delta[-1]=error*(1/2)*(1+y[-1])*(1-y[-1])
        # Propago ese delta hacia las capas anteriores:
        for i in range(cant_capas-1,0,-1):  # Voy de la capa N hasta la 1
            w_i = w[i][:,1:].T
            d = np.dot(w_i,delta[i])
            delta[i-1] = d*(1/2)*(1+y[i-1])*(1-y[i-1])
        
        # ----------- ACTUALIZAR LOS PESOS: ----------- #
        # TODO: Hacer esta parte que no anda todavía
        #entradas = trn[patron]
        #for i in range(cant_capas):
        #    delta_peso = mu*delta[i]*entradas
        #    w[i] += delta_peso 
        #    entradas = np.concatenate(([-1],y[i]),axis=None)    # Entrada para próxima capa es la salida de esta
        
    #--------------------------------#
    #---------- Evaluación ----------#
    #--------------------------------#
    cont_errores = 0    # Contador de errores
    cont_mse = 0        # Contador para error cuadrático medio

    for patron in range(len(trn)): 

        # PROPAGACIÓN HACIA ADELANTE
        entradas = trn[patron]
        for i in range(cant_capas):
            v = w[i]@entradas                                   # Producto interno de pesos y entradas
            v_a = 2/(1+np.exp(-b*v)) - 1                        # Función de activación: sismóidea
            y[i]=v_a                                            # Agrego la salida al vector de salidas
            entradas = np.concatenate(([-1],v_a),axis=None)     # Entrada de la próxima capa es la salida de esta capa

        # CODIFICACIÓN:
        if (y[-1] < 0): yc = -1
        else: yc = 1

        # Actualizo contadores de error:
        if(yd[patron] != yc): cont_errores += 1
        cont_mse += np.sum(np.square(yd[patron]-yc)) 

    # Actualizo arrays para grafica de error:
    mse = cont_mse/len(trn)
    mse_por_epoca.append(mse)
    errores_por_epoca.append(cont_errores)
    # Porcentaje de error para criterio de parada:
    perc_error = cont_errores*100/len(trn)
    if(perc_error > perc_error_max): break

    epoca += 1

<h3><p style="color:#E569BA";> <b>Paso 3:</b> Prueba</p></h3>
Una vez obtenidos los pesos mediante el entrenamiento, pasamos otro dataset por la red neuronal para probarla. Comenzamos levantando el archivo .csv de la misma forma que para el entrenamiento.

In [190]:
tst = np.loadtxt('./data/XOR_tst.csv',delimiter=',')

yd = []                         # Salidas esperadas
for i in range(len(tst)):
    fila = tst[i]
    cant_e = cant_entradas[0]   # Cantidad de entradas
    yd.append(fila[cant_e])     
    aux = [-1]                  # Añado entrada -1 correspondiente al umbral/sesgo
    for j in range(cant_e):
        aux.append(fila[j])
    tst[i] = aux                # Vector de entradas por patrón

Realizamos la propagación hacia adelante, manteniendo un contador de errores para determinar la eficiencia del entrenamiento.

In [191]:
y = np.empty(cant_capas,dtype=object)   # Vector de salidas
cont_errores = 0                        # Contador de errores

for patron in range(len(tst)): 
    entradas = tst[patron]
    for i in range(cant_capas):
        v = w[i]@entradas                                     # Producto interno de pesos y entradas
        v_a = 2/(1+np.exp(-b*v)) - 1                          # Función de activación: sismóidea
        y[i]=v_a                                              # Agrego la salida al vector de salidas
        entradas = np.concatenate(([-1],v_a),axis=None)       # La entrada de la próxima capa es la salida de la actual.

    if (y[-1] < 0): yc = -1
    else: yc = 1
    if(yd != yc): cont_errores += 1

print('Finalizó la prueba con ',cont_errores,'/',len(tst),' errores.')

Finalizó la prueba con  200 / 200  errores.
