<p style='text-align: justify;'>
<b>Ejercicio 1:</b> Implemente el algoritmo de retropropagación para un perceptrón multicapa de forma que se pueda elegir libremente la cantidad de capas de la red y de neuronas en cada capa. Pruébelo entrenando una red de estructura apropiada para resolver el problema XOR, con sus particiones de entrenamiento y prueba correspondientes (datos de la Guía de Trabajos Prácticos 1).</p>

#### <b>Librerías</b>

In [230]:
import random
import csv
import numpy as np

#### **Paso 1:** Inicialización
Determino la estructura de mi red neuronal: el número de capas y neuronas para cada capa. En la variable *cant_entradas*, el primer elemento son las entradas x1,x2,... del archivo, mientras que los próximos elementos me determinan la cantidad de neuronas por capa. 

In [231]:
cant_entradas = np.array([2,3,2,1]) # Variable a cambiar según mi red neuronal

cant_capas = len(cant_entradas) - 1
cant_salidas = cant_entradas[cant_capas]

Levantamos los datos del archivo .csv, separando en un vector para las entradas y otro para las salidas esperadas. En este caso, entrenamos y probamos el algoritmo con el problema XOR, para lo cual usaremos una red de dos capas y dos entradas x_i. La capa de entrada tendrá 2 neuronas y la capa de salida tendrá 1 neurona.


In [232]:
trn = np.loadtxt('./data/XOR_trn.csv',delimiter=',')

yd = []                         # Salida esperadas
for i in range(len(trn)):
    fila = trn[i]
    cant_e = cant_entradas[0]   # Cantidad de entradas
    yd.append(fila[cant_e])
    aux = [-1]                  # Añado entrada -1 correspondiente al umbral/sesgo
    for j in range(cant_e):
        aux.append(fila[j])
    trn[i] = aux                # Vector de entradas por patrón

Declaro mis matrices de pesos, salidas y deltas. Inicializo al azar las matrices de pesos de cada capa.

In [233]:
# Inicializo la matriz de pesos para cada una de las capas.
w = []
for i in range(len(cant_entradas)-1):
    w_aux = np.random.rand(cant_entradas[i+1],cant_entradas[i]+1)-0.5
    w.append(w_aux)     # Añado al vector de matrices de pesos

# Estructura de la matriz:
print(w)
# El elemento w_ij = w[i][j] de la matriz me da los pesos correspondientes a la neurona j de la capa i. 
# El elemento w_ij[k] me da el peso asociado a la entrada k de la neurona j de la capa i.

# Definimos los vectores de salidas y deltas (vectores de vectores):
y = np.empty(cant_capas,dtype=object)
delta = np.empty(cant_capas,dtype=object)

[array([[ 0.15094133,  0.36226716, -0.07086865],
       [ 0.43098112, -0.02644101, -0.0985054 ],
       [ 0.02162328, -0.34378026, -0.03958584]]), array([[-0.33452364,  0.42437383, -0.01893935,  0.3781993 ],
       [ 0.40666386,  0.17040985,  0.01699158,  0.3155751 ]]), array([[ 0.22611478, -0.16258996,  0.19501828]])]


#### **Paso 2:** Entrenamiento
Continuando con el algoritmo, realizamos los pasos de propagación hacia adelante, propagación hacia atrás y adaptación de los pesos en distintas épocas para todas las capas de nuestra red neuronal. Realizamos una pasada de aprendizaje y otra de validación para evaluar el desempeño del mismo.

In [234]:
# DATOS PARA EL ALGORITMO:
epoca = 0               # Contador para época actual
epoca_max = 50          # Máximo de iteraciones
mu = 0.01                # Velocidad de aprendizaje
b = 1                 # Constante b para sismóidea
perc_error_max = 0.05   # Porcentaje máximo de error
errores_por_epoca = []
mse_por_epoca = []

# TODO: Agregar gráficas dinámicas

while (epoca < epoca_max):  
    
    #--------------------------------#
    #--------- Aprendizaje ----------#
    #--------------------------------#

    for patron in range(len(trn)):

        # PROPAGACIÓN HACIA ADELANTE: Obtengo la salida de las capas y las propago como entradas de las próximas
        entradas = trn[patron]          # La primera capa tiene las entradas en el archivo .csv
        for i in range(cant_capas):
            v = w[i]@entradas                                   # Producto interno de pesos y entradas
            y[i] = 2/(1+np.exp(-b*v))-1                         # Salida con función de activación
            entradas = np.concatenate(([-1],y[i]),axis=None)    # Entrada de la próxima capa es la salida de esta capa
        
        # PROPAGACIÓN HACIA ATRÁS: Obtengo el delta de la capa de salida y lo propago a las capas anteriores
        error = y[-1] - yd[patron]                      
        delta[-1]=error*(1/2)*(1+y[-1])*(1-y[-1])       # Con el error, obtengo el delta de la capa de salida
        for i in range(cant_capas-1,0,-1):
            w_i = w[i][:,1:].T                          # Con los pesos de la capa i obtenemos el delta de la capa i-1
            d = np.dot(w_i,delta[i])
            delta[i-1] = d*(1/2)*(1+y[i-1])*(1-y[i-1])
        
        # ACTUALIZAR LOS PESOS: Ajusto los pesos con la velocidad de aprendizaje, la entrada y su delta.
        entradas = trn[patron]          # La primera capa tiene las entradas en el archivo .csv
        for i in range(cant_capas):
            delta_peso = mu*(np.outer(delta[i],entradas))
            w[i] += delta_peso
            entradas = np.concatenate(([-1],y[i]),axis=None)    # Entrada para próxima capa es la salida de esta
        
    #--------------------------------#
    #---------- Evaluación ----------#
    #--------------------------------#
    cont_errores = 0    # Contador de errores
    cont_mse = 0        # Contador para error cuadrático medio

    for patron in range(len(trn)): 

        # PROPAGACIÓN HACIA ADELANTE: Obtengo la salida de las capas y las propago como entradas de las próximas
        entradas = trn[patron]          # La primera capa tiene las entradas en el archivo .csv
        for i in range(cant_capas):
            v = w[i]@entradas                                   # Producto interno de pesos y entradas
            y[i] = 2/(1+np.exp(-b*v)) - 1                       # Salida con función de activación
            entradas = np.concatenate(([-1],y[i]),axis=None)    # Entrada de la próxima capa es la salida de esta capa

        # CODIFICACIÓN: Función signo
        if (y[-1] < 0): yc = -1
        else: yc = 1

        # Actualizo contadores de error:
        if(yd[patron] != yc): cont_errores += 1
        cont_mse += np.sum(np.square(yd[patron]-yc)) 

    # Actualizo arrays para grafica de error:
    mse = cont_mse/len(trn)
    mse_por_epoca.append(mse)
    errores_por_epoca.append(cont_errores)
    # Porcentaje de error para criterio de parada:
    perc_error = cont_errores*100/len(trn)
    if(perc_error < perc_error_max): break

    epoca += 1

print('Finalizó el entrenamiento en la época ',epoca,' con ',cont_errores,'/',len(trn),' errores')

2 :  [[-0.16258996]
 [ 0.19501828]]
1 :  [[ 0.42437383  0.17040985]
 [-0.01893935  0.01699158]
 [ 0.3781993   0.3155751 ]]
2 :  [[-0.16334688]
 [ 0.19616049]]
1 :  [[ 0.42424518  0.17056049]
 [-0.01904868  0.0171196 ]
 [ 0.37826443  0.31549884]]
2 :  [[-0.16428625]
 [ 0.19737115]]
1 :  [[ 0.42431056  0.17048347]
 [-0.01912768  0.01721265]
 [ 0.37819013  0.31558637]]
2 :  [[-0.16368078]
 [ 0.19642617]]
1 :  [[ 0.42428604  0.17051201]
 [-0.0190368   0.0171069 ]
 [ 0.3782583   0.31550704]]
2 :  [[-0.16307255]
 [ 0.19548214]]
1 :  [[ 0.42426322  0.17053855]
 [-0.01894709  0.01700256]
 [ 0.37832384  0.31543082]]
2 :  [[-0.16401035]
 [ 0.196689  ]]
1 :  [[ 0.42432656  0.17046405]
 [-0.01902548  0.01709476]
 [ 0.37825179  0.31551555]]
2 :  [[-0.16494951]
 [ 0.19789991]]
1 :  [[ 0.42438961  0.17038988]
 [-0.01910496  0.01718827]
 [ 0.37817938  0.31560074]]
2 :  [[-0.16434466]
 [ 0.19695855]]
1 :  [[ 0.4243666   0.17041663]
 [-0.01901451  0.01708312]
 [ 0.37824577  0.31552358]]
2 :  [[-0.165104

KeyboardInterrupt: 

#### **Paso 3:** Prueba
Una vez obtenidos los pesos mediante el entrenamiento, pasamos otro dataset por la red neuronal para probarla. Comenzamos levantando el archivo .csv de la misma forma que para el entrenamiento.

In [None]:
tst = np.loadtxt('./data/XOR_tst.csv',delimiter=',')

yd = []                         # Salidas esperadas
for i in range(len(tst)):
    fila = tst[i]
    cant_e = cant_entradas[0]   # Cantidad de entradas
    yd.append(fila[cant_e])     
    aux = [-1]                  # Añado entrada -1 correspondiente al umbral/sesgo
    for j in range(cant_e):
        aux.append(fila[j])
    tst[i] = aux                # Vector de entradas por patrón

Realizamos la propagación hacia adelante, manteniendo un contador de errores para determinar la eficiencia del entrenamiento.

In [None]:
y = np.empty(cant_capas,dtype=object)   # Vector de salidas
cont_errores = 0                        # Contador de errores

for patron in range(len(tst)): 
    entradas = tst[patron]
    for i in range(cant_capas):
        v = w[i]@entradas                                     # Producto interno de pesos y entradas
        y[i] = 2/(1+np.exp(-b*v)) - 1                         # Salida con función de activación
        entradas = np.concatenate(([-1],y[i]),axis=None)       # La entrada de la próxima capa es la salida de la actual.

    if (y[-1] < 0): yc = -1
    else: yc = 1
    if(yd[patron] != yc): cont_errores += 1

print('Finalizó la prueba con ',cont_errores,'/',len(tst),' errores.')

Finalizó la prueba con  112 / 200  errores.
