# Algoritmos Bioinspirados para  Entrenamiento de ANN

En esta libreta se presenta el código para realizar el entrenamiento de redes neuronales artificiales (ANN) usando algoritmos bioinspirados.

Para esto, primero se debe comprender lo que es una ANN y como es que estas se entrenan, esto se muestra a continuación

Una red neuronal es una estructura de datos hecha de "neuronas" conectadas unas con otras. Cada neurona tiene un valor, usualmente llamado su "activación", este se calcula en función a la suma de las activaciónes que entran a la neurona. Luego esta neurona pasa sus activaciones a las siguientes neuronas.

<img src="imgs/ANN.jpeg" alt="Red Neuronal simple" />

Las conexiones entre neuronas están regulados por "pesos" o "parámetros". Las activaciones son multiplicadas por pesos al pasar a la siguiente capa, haciendo mayor o menor su influencia en la siguiente neurona.

Para calcular la activación de una neurona, debemos realizar el producto punto entre el vector de entrada $v$ y un el vector de pesos $w$. Usualmente se suele añadir un término de "bias" o "sesgo" $b$ al producto punto; Este término, así como los pesos son parámetros que el modelo aprende. Finalmente, este producto punto se pasa a través de una "función de activación" $f$ que devuelve un escalar. Las funciones de activación suelen ser no lineales para que las redes neuronales puedan aprender funciones no lineales.

La arquitectura más básica de red neuronal artificial es conocido como perceptrón y es aquella que cuenta con solo una capa de entrada y una de salida, sin capas ocultas, esta es la siguiente:

<img src="imgs/perceptron.png" alt="Perceptrón" />

Usualmente el bias no se sule incluir en el gráfico de la arquitectura, sin embargo, aquí se incluirá para tener un mejor entendimiento de la arquitectura.

Su salida la podemos calcular como:

\begin{equation}
y = w_1x_1 + w_2x_2 + w_3x_3 + b
\end{equation}

Como se puede observar de la ecuación anterior, el peroceptrón es un modelo lineal, por lo que solo puede ser usado para resolver problemas lineales como los problemas de clasificación lineales como la compuerta lógica AND cuyo gráfico se muestra a continuación:

<img src="imgs/AND_gate.png" alt="Compuerta lógica AND"/>

Ajustando correctamente los pesos y el bias de la red, uno puede obtener una frontera de decisión que separe de manera adecuada ambas clases.

Este problema puede ser resuelto usando un perceptrón debido a que la frontera de desición del problema, como se observa en la gráfica, es lineal, es decir, podemos dividir las dos clases usando una linea recta. 

Sin embargo, la mayoría de los problemas cuentan con una frontera de decisión no lineal, por lo que no será posible resolverlos usando un perceptrón, un ejemplo de esto es la compuerta lógica XOR, cuya  gráfica es:

<img src="imgs/XOR_gate.jpg" alt="Compuerta lógica XOR"/>

Los valores que deseamos obtener los podemos obtener de la tabla de verdad de XOR:

<img src="imgs/XOR.png" alt="Tabla de verdad XOR"/>


Este problema fue una de las principales limitantes y por las que no se les daba mucha importancia a las ANN, sin embargo, más tarde se descubrió que esta limitante podría vencerse apilando varios perceptrones y añadiendo funciones de activación no lineales para obtener una arquitectura como la de la primera imagen, la cual es conocida como perceptrón multicapa (MLP).

<img src="imgs/arqui.png" alt="MLP para resolver XOR"/>

Podemos ver a las conexiones como una matriz (W) $nxm$ donde los elementos son los valores de los pesos de las conexiones donde $m$ es el numero de neuronas de la capa actual y $n$ es el número de neuronas de la capa anterior. De manera similar, podemos definir al bias como un vector fila (b) donde el número de elementos es igual al número de neuronas en la capa que se desea calcular. De esta manera podemos calcular:
\begin{equation}
\bf{z} = \bf{x}W_1 + \bf{b}
\end{equation}

Aquí $x$ es el vector de entrada de la capa, $z$ serán la suma ponderada de las entradas de la capa más el bias de la capa que se calculó y es un vector fila con m elementos (el numero de neuronas de la capa).

Finalmente para calcular la activación de la capa pasamos el vector $z$ por una función de activación no lineal, en este caso se usará la función tangente hiperbólica para la capa oculta, y la función softmax para l a capa de salida, esta devuelve un número entre 0 y 1 y está definida como:
\begin{equation}
f(z) = \frac{e^{z_i}}{\sum_{j=1} ^K e^{z_j}}
\end{equation}

En el caso de nuestra arquitectura, las activaciones de la capa oculta serán calculadas como
\begin{equation}
\bf{z}^h = \bf{x}W_1 + \bf{b}_h
\end{equation}

Donde:
\begin{equation}
W_1 = \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \end{bmatrix}
\end{equation}
y 
\begin{equation}
\bf{b}_h = \begin{bmatrix} b_{h1} & b_{h2} & b_{h3} \end{bmatrix}
\end{equation}

Por lo tanto, los valores de la capa oculta serán
\begin{equation}
\bf{x}^h = step(\bf{z}^h)
\end{equation}

De manera similar, podemos calcular los valores de la capa de salida como:
\begin{equation}
z^o = \bf{x}W_2 + \bf{b}_o
\end{equation}

y 

\begin{equation}
y = step(z^o)
\end{equation}

Donde:
\begin{equation}
W_2 = \begin{bmatrix} w_{1} \\ w_{2} \\ w_{3} \end{bmatrix}
\end{equation}
y 
\begin{equation}
\bf{b}_o = \begin{bmatrix} b_{o} \end{bmatrix}
\end{equation}

Ahora que se sabe como calcular la salida de la red, para poder obtener una salida que se ajuste a la respuesta deseada, se deben ajustar adecuadamente los pesos de la red para esto, se utilizarán los algoritmos bioinspirados. Lo que se busca es minimizar una función de pérdida que nos indica que tan alejadas están las predicciones del modelo respecta a los valores reales.

La función de pérdida que se usará será negative log-likelihood, la cual está definida por:
\begin{equation}
loss = \frac{1}{m}\sum_{i=1}^m\sum_{k=1}^Ky_k^ilog(p_k^i)
\end{equation}
Donde $m$ es el número de datos de entrenamiento disponibles, $K$ es el número de clases en los que se realizará la clasificación, $p_k^i$ es la probabilidad de que la instancia $i$ pertenezca a la clase $k$, y $y_k^i$ es un número 0 o 1 indicando si la instancia $i$ pertenece a la clase $k$o no.

Para este problema se buscara resolver el problema de clasificación de flores en clases dadas las longitudes y anchos de su sepalo y petalo, esto se muestra en la siguiente figura:
<img src="imgs/flores.png" alt="Iris Dataset"/>

Ahora se muestra el código para entrenar ANN usando algoritmos genéticos.

Primero se deben importar las librerías necesarias para poder implementar el código.

In [1]:
import numpy as np  # Manejo de arreglos
from sklearn.datasets import load_iris  # Cargar dataset de flores

# Importar algoritmos bioinspirados
import import_ipynb
from PSO import PSO_gbest, PSO_lbest
from EvolucionDiferencial import ED, cruzamiento_binomial, cruzamiento_exponencial

importing Jupyter notebook from PSO.ipynb
importing Jupyter notebook from EvolucionDiferencial.ipynb


## Implementación de Funciones
Ahora se implementan algunas funciones auxiliares en la implementación del código, funciones para calcular la salida de la red a partir de una entrada, función para caluclar la salida de lared para todo el enajmbre, etc.

Primero se implementa la función de activación softmax para la capa de salida

In [2]:
def softmax(z):
    exp = np.exp(z)
    suma = np.sum(exp, axis=1, keepdims=True)
    return exp/suma

La función `forward_pass` calcula la salida de la red a partir de una entrada dada, esta funcion necesita la entrada de la red y los pesos de la red, los pesos se guardan en un vector de d dimensiones donde d es el número de parámetros de la red, los elementos del vector se toman para construir las matrices de pesos y los vectores de bias

In [3]:
def forward_pass(data, param):
    """
    Esta funcion calcula la salida de la red neuronal para la entrada dada y los pesos
    - input:
        - X: entrada de la red neuronal tamaño nx2
        - 
    -output: salida de la red (antes de la funcion de activacio)
    """
    # Construir las matrices de pesos y bias 
    W1 = param[:40].reshape((n_input, n_h))
    b1 = param[40:50].reshape((n_h,))
    W2 = param[50:80].reshape((n_h, n_out))
    b2 = param[80:].reshape((n_out))
    # Calcular activaciones de la oculta
    z1 = data @ W1 + b1
    h = np.tanh(z1)
    # Calcular salida
    z2 = h @ W2 + b2
    y = softmax(z2)
    return y

Ahora se define la función objetivo esta función es la negative log-likelihood descrita anteriormente, la cual se calcula para todo el enjambre de particulas.

In [4]:
def f(pop):
    """
    Calcular la función objetivo para toda la población
    input: poblacion
    output: fitness de la población (perdida de la red neuronal)
    """
    fitness_pop = []
    for part in pop:  # Calcular el fitness en cada particula de la poblacion
        # Hacer el forward pass para obtener las probabilidades
        probs = forward_pass(data, part)
        # Obtener la multiplicacion de los logaritmos
        logs = - np.log(probs[range(m), y])
        loss = np.sum(logs) / m
        fitness_pop.append(loss)
    return np.array(fitness_pop)

Finalmente, definimos una función para realizar predicciones con la red neuronal

In [5]:
def predecir(data, pesos):
    """
    Realizar una predicción con los pesos dados
    - input: 
        - data: datos que se predeciran
        - pesos: pesos de la red
    - output: predicciones
    """
    # Obtener las probabilidades 
    probas = forward_pass(data, pesos)
    # Clase predicha
    preds = np.argmax(probas, axis=1)
    return preds

## Cargar datos y definir arquitectura de ANN

Aquí se cargan los datos y se define el numero de neuronas por capa que tendrá la ANN

In [6]:
# Definimos los datos de entrada y las salidas esperados 
iris = load_iris()  # Cargando el dataset
data = iris.data  # Entradas de la red
y = iris.target  # Salidas deseadas

m = len(data)  # Numero de datos

# Se define la arquitectura de la red neuronal (neuronas de entrada, neuronas en capa oculta y neuronas de salida)
n_input = data.shape[1]
n_h = 10
n_out = 3

Exploremos un poco los datos observando el primer valor de data y su salida deseada

In [7]:
print(data[0], y[0])

[5.1 3.5 1.4 0.2] 0


Esto quiere decir que la primera flor tiene las siguientes características:
 - Largo del sépalo: 5.1 cm
 - Ancho del sépalo: 3.5 cm
 - Largo del pétalo: 1.4 cm
 - Ancho del pétalo: 0.2 cm
 
Y pertenece a la clase 0, la cual corresponde a Iris Setosa.

Las clases están codificadas con un número de la siguiente manera:

 - Clase 0: Iris Setosa
 - Clase 1: Iris Versicolor
 - Clase 2: Iris Virginica

La dimensión del problema será el número de elementos de la matriz de pesos de la capa oculta más el número de elementos del bias de la capa oculta más el número de elementos de la matriz de pesos de la capa de salida más el número de bias de la capa de salida, esto es:
\begin{equation}
(4 \cdot 10) + 10 + (10 \cdot 3) + 3 = 83
\end{equation}

## Probar PSO gbest

### Definir hiperparámetros

In [8]:
# ------------------ Del Problema ------------------
d = (n_input * n_h) + n_h + (n_h * n_out) + n_out  # Numero de dimensiones
funcion = f # funcion objetivo
rango = [[-5, 5]]  # Rango de las variables

# ------------------ Del Algoritmo ------------------
n = 50  # Numero de particulas
w = 0.9  # Factor de inercia
c1 = 0.5  # Peso cognitivo
c2 = 0.3  # Peso social
max_gen = 300  # Maximo de generaciones
tol = 1e-3  # Tolerancia para detener el algoritmo

### Correr algoritmo PSO gbest

Se entrena ahora la red usando el algoritmo PSO gbest para determinar los mejores pesos

In [9]:
mejores_pesos_PSOg = PSO_gbest(d, funcion, rango, n, w, c1, c2, max_gen, tol)

El óptimo está en [-1.159 -5.     2.503  5.     5.    -5.    -5.    -3.412 -0.068  0.673
 -2.24   1.446 -3.665 -2.505  0.913 -4.065  5.     0.929 -1.036 -5.
  3.059 -2.976 -3.333 -5.     3.86   3.298  0.161 -5.     1.922 -0.839
  2.523 -5.    -5.    -1.165 -2.389  4.684 -3.918  4.505  5.     5.
 -5.     1.873 -4.265  1.258  5.    -5.     2.675 -2.209 -3.553  4.163
 -5.    -5.     0.859 -1.955 -3.005 -1.947  4.438 -0.585  2.897  4.646
 -1.601 -5.    -1.167 -5.     2.182  2.982  1.438  3.365  1.665  0.665
 -3.72  -3.914  1.657 -5.    -5.     1.048 -4.005  4.09   2.082  4.423
 -0.42   4.886 -5.   ] con un fitness de 0.0407
Obtenido en la generación 300


Para comprobar que los pesos de esta red sean adecuados calculamos el accuracy de la red, el accuracy se puede ver como el porcentaje de aciertos de la red, esto es el número de aciertos de la red entre el total de predicciones:
\begin{equation}
\frac{\text{Preds correctas}}{\text{Total de preds}}
\end{equation}

In [10]:
preds_psog = predecir(data, mejores_pesos_PSOg)
# Calcular el accuracy
print(f"El accuracy de la ANN entrenada con PSO gbest es {round((preds_psog == y).mean(), 3)}")

El accuracy de la ANN entrenada con PSO gbest es 0.993


## Probar PSO lbest

### Definir hiperparámetros

In [11]:
# ------------------ Del Problema ------------------
d = (n_input * n_h) + n_h + (n_h * n_out) + n_out  # Numero de dimensiones
funcion = f # funcion objetivo
rango = [[-5, 5]]  # Rango de las variables

# ------------------ Del Algoritmo ------------------
n = 50  # Numero de particulas
k=2
w = 0.9  # Factor de inercia
c1 = 0.5  # Peso cognitivo
c2 = 0.3  # Peso social
max_gen = 300  # Maximo de generaciones
tol = 1e-3  # Tolerancia para detener el algoritmo

### Correr algoritmo PSO lbest

Se entrena ahora la red usando el algoritmo PSO lbest para determinar los mejores pesos

In [12]:
mejores_pesos_PSOl = PSO_lbest(d, funcion, rango, n, k, w, c1, c2, max_gen, tol)

El óptimo está en [-5.    -4.133 -3.383 -0.648 -4.999 -2.324 -1.795  5.    -1.289 -5.
  0.571  5.     4.322 -0.709 -1.369  4.9   -3.56  -5.     3.965  4.168
  4.03   2.726 -3.847 -3.251  5.     0.827 -5.    -4.291 -5.     4.406
  0.297 -5.    -5.    -2.226  2.932 -5.    -3.817 -1.376  5.     0.288
  1.081 -5.     0.308  1.992 -2.285  3.731 -2.048  5.     5.     1.543
 -5.    -5.     5.    -0.268  5.    -4.001  2.677  1.697  5.     2.8
 -5.     0.403 -2.211  0.167  4.352 -1.316 -1.65  -5.    -4.006  5.
 -3.666 -5.    -1.686 -5.     5.     0.436 -0.208 -5.    -0.567  1.244
 -1.36   4.864  5.   ] con un fitness de 0.0728
Obtenido en la generación 300


Para comprobar que los pesos de esta red sean adecuados calculamos el accuracy de la red, el accuracy se puede ver como el porcentaje de aciertos de la red, esto es el número de aciertos de la red entre el total de predicciones:
\begin{equation}
\frac{\text{Preds correctas}}{\text{Total de preds}}
\end{equation}

In [14]:
preds_psol = predecir(data, mejores_pesos_PSOl)
# Calcular el accuracy
print(f"El accuracy de la ANN entrenada con PSO lbest es {round((preds_psol == y).mean(), 3)}")

El accuracy de la ANN entrenada con PSO lbest es 0.98


## Probar Evolución Diferencial

### Definir hiperparámetros

In [15]:
# ------------------ Del Problema ------------------
d = (n_input * n_h) + n_h + (n_h * n_out) + n_out  # Numero de dimensiones
funcion = f # funcion objetivo
rango = [[-5, 5]]  # Rango de las variables

# ------------------ Del Algoritmo ------------------
n = 50  # Numero de particulas
F = 0.5  # Peso diferencial
C = 0.5  # Probabilidad de cruzamiento
cruzamiento = cruzamiento_binomial  # Tipo de cruzamiento
max_gen = 300  # Maximo de generaciones
tol = 1e-3  # Tolerancia para detener el algoritmo

### Correr algoritmo Evolución Diferencial

Se entrena ahora la red usando el algoritmo Evolución Diferencial para determinar los mejores pesos

In [16]:
mejores_pesos_ED = ED(d, funcion, rango, n, F, C, cruzamiento, max_gen, tol)

El óptimo está en [-0.013 -2.716  5.    -2.932  2.002 -2.892 -2.438  5.    -4.828  1.924
 -5.    -5.     2.071  0.351  5.    -5.    -3.092  4.106 -2.022  4.453
  5.    -4.035  1.011  5.    -5.     2.123  3.874  0.731  5.     0.238
  4.986  0.983 -0.608  2.071  1.027 -0.915  5.    -0.734  1.133 -1.328
  0.771  0.595 -3.928 -0.195  0.807 -0.508 -4.952 -4.689 -4.032 -1.949
  0.422 -1.157  4.628 -3.092 -2.365 -1.214 -1.879  1.516  0.599 -5.
  1.977  0.947 -3.8   -0.03   0.629  0.591  5.     5.    -5.    -4.382
  0.914  2.42  -5.    -0.618  1.728 -3.525 -3.644  4.332 -0.549 -4.748
 -4.02   5.     4.472] con un fitness de 0.1720
Obtenido en la generación 300


Para comprobar que los pesos de esta red sean adecuados calculamos el accuracy de la red, el accuracy se puede ver como el porcentaje de aciertos de la red, esto es el número de aciertos de la red entre el total de predicciones:
\begin{equation}
\frac{\text{Preds correctas}}{\text{Total de preds}}
\end{equation}

In [17]:
preds_ED = predecir(data, mejores_pesos_ED)
# Calcular el accuracy
print(f"El accuracy de la ANN entrenada con PSO lbest es {round((preds_ED == y).mean(), 3)}")

El accuracy de la ANN entrenada con PSO lbest es 0.94
