# <font color='blue'> ANALÍTICA DE BIG DATA <br> Redes de Neuronas Artificiales <br> </font>

# <font color='blue'> Introducción </font>

Las Redes Neuronales Artificiales (RNA) son un conjunto de modelos matemáticos, en general, de carácter no lineal basados en el funcionamiento del cerebro humano. El primer modelo nació en 1943, propuesto por McCulloch y Pitts y en él, únicamente se podían utilizar neuronas con valores binarios, ya fuese 0,1 ó -1,1. Más adelante, surgieron nuevos hitos dentro del campo de las redes neuronales, como fue la propuesta en 1958 del Perceptrón por parte de Rosenblatt, luego hubo un tiempo en el que quedaron en el olvido para volver a resurgir en los años 80 del siglo XX.

   
* ¿Qué aplicaciones tiene?
    * Problemas de clasificación y predicción
    * Aproximación a funciones no lineales
    * Optimización
    * Control de proceso
    
* ¿Qué propiedades tienen?
    * Aprendizaje adaptativo
    * Autoorganización
    * Tolerancia a fallos parciales
    * Operación en tiempo real
    * Fácil inserción dentro de la tecnología existente

# <font color='blue'> Origen biológico  </font>

Estas redes, simulan el funcionamiento del cerebro humano y sus conexiones sinápticas, tanto que se podría decirse que las RNA son un modelo, a pequeña escala, del cerebro humano en todas las vertientes. La principal célula del sistema nervioso es la neurona, que equivaldría a la principal unidad de procesamiento de las RNA, la neurona artificial. Del mismo modo, las neuronas transmiten información mediante una diferencia de potencial, mientras que las neuronas de las RNA, la transmite mediante funciones de activación. Ocurre de igual modo, con la forma en la se transmite la información. Las neuronas reciben el estímulo a través de las dendritas, se procesa la información y luego se propaga mediante el axón. Mientras que, en el caso de la neurona artificial, se recibe la información a través de una entrada, se procesa mediante una función de transferencia y se propaga a través de la función de activación. Estas simulitudes entre el modelo biológico y el artificial, se pueden observar en la siguiente figura, que ha sido recogida del curso de la Universidad de Stanford y adaptada al español:

<img src="../Figuras/SimilitudNeurona.png" alt="SimilitudNeurona" style="width:800px;"/>

<br>



En un alto nivel de abstracción su funcionamiento es sencillo. Las entradas a la neurona artificial son el estímulo que recibe del entorno que la rodea, y la salida es la respuesta a tal estímulo:


<img src="../Figuras/NeuronaArtificial.png" alt="Neurona" width="600"/>

Los $n$ valores del conjunto de datos serán las **entradas** $x_{1}, x_{2}, ..., x_{n}$ a la neurona, siendo $n>0$. La conexión de cada una de estas entradas con la neurona es lo que se llama **sinapsis**, y las señales que se reciben por dicha sinapsis están representadas por valores numéricos que reciben el nombre de **pesos sinápticos**,  $w_{1}, w_{2}, ..., w_{n}$. La combinación lineal de los valores de entrada con los pesos es la entrada neta a la neurona $j$: $$net_j=\sum_{i=1}^n w_{ji} \cdot x_i - \theta_j$$
siendo $\theta_j$ el término indepediente (**sesgo o bias**), un caso especial de coeficiente sináptico que actúa como el valor umbral (de activación), es decir, el valor que debe ser superado por la suma ponderada de las entradas para provocar la activación de la neurona, permitiendo así generar una salida.

La salida viene dada, por tanto, por la expresión:

$$y_j = f(net_j) = f(\sum_{i=1}^n w_{ji} \cdot x_i - \theta_j)$$

Este valor umbral se suele expresar de una forma más compacta, es decir, $− θ_j$ se le representa por $w_j0$. definiendo una nueva variable $x_0$ idénticamente 1, quedando definida la salida como:


$$y_j = f(net_j) = f(\sum_{i=0}^n w_{ji} \cdot x_i)$$


En esta expresión f representa la **función de activación o transferencia** que al aplicarla a la entrada neta produce el estado de excitación o activación de la neurona. Las funciones más utilizadas son sigmoidales, que incluye la logística y tangente hiperbólica:


<img src="../Figuras/Funciones.png" alt="drawing" style="width:400px;"/>

El proceso de **aprendizaje** de la red consiste en el ajuste de los pesos sinápticos para que el comportamiento de la red sea el esperado.

## <font color='blue'> Perceptrón </font>

Basados en el modelos de neurona de McCulloch-Pitss, Rosenblatt presentó en 1957 un modelo de red, llamado Perceptrón, que era capaz de generalizar, es decir, después de aprender de un conjunto de patrones reconocía otros similares. De este modo el perceptrón da una cierta respuesta ante una determinada entrada, entonces devuelve la misma respuesta para una entrada nueva pero similar.

Un ejemplo para resolver con esta arquitectura de red neuronal es el problema de la puerta lógica AND. La red tiene entonces dos entradas *x1, x2* y una salida:

<br>
<center>

| Entradas | Salida |
| ------- | ------ |
| [0, 0]  |   0   |
| [1, 0]  |   0   |
| [0, 1]  |   0   |
| [1, 1]  |   1   |

</center>

El primer paso es importar las bibliotecas que vamos a utilizar, en este caso, Numpy.

In [None]:
import numpy as np
import matplotlib.pylab as plt
import seaborn as sns
import pandas as pd
import gc    
import warnings
import os
from IPython.display import Image
import matplotlib.animation as animation
import platform

basedir =  os.getcwd()
system = platform.system()
warnings.filterwarnings(action='once')

# Estos parámetros ajustan el rango en el que se visualizan las gráficas

GRID_X_START = -1
GRID_X_END = 2.5
GRID_Y_START = -0.5
GRID_Y_END = 2

Definamos ahora la entrada y la salida.

In [None]:
input = np.array([[0,0],[1,0], [0,1], [1,1]])
input

In [None]:
output = np.array([[0, 0, 0, 1]]).T
output

Si visualizamos los datos de entrada, tendremos algo así:


In [None]:
sns.set_style("whitegrid")
for i in np.arange(0,4):
        if output[i] == -1:
            sns.scatterplot(x=pd.Series(input[i,0]), y=pd.Series(input[i,1]),   marker='P', s = 115, color='r')
        else:
            sns.scatterplot(x=pd.Series(input[i,0]), y=pd.Series(input[i,1]), marker='X', s=115, color='g')

Bien, ya tenemos otros dos componentes de las redes neuronales. Para el resto, podemos construir una pequeña clase en la que contemplemos los componentes restantes, como los pesos y las funciones de transferencia.

In [None]:
from matplotlib.colors import ListedColormap
from matplotlib import cm

sns.set_style('dark')
# Extraído de https://github.com/SkalskiP/ILearnDeepLearning.py y adaptado para Perceptrón y MLP
def plot_decision_regions(X, y, modelo, title, resolution=0.02, ismlp=False, keras=None):
    plt.figure(figsize=(6,6))
    axes = plt.gca()
    axes.set(xlabel="$X_1$", ylabel="$X_2$")
    plt.title(title, fontsize=16)
    grid = np.mgrid[GRID_X_START:GRID_X_END:100j,GRID_X_START:GRID_Y_END:100j]
    grid_2d = grid.reshape(2, -1).T
    XX, YY = grid
    if ismlp==True and keras == None:
        _, Z = modelo.predict(np.c_[XX.ravel(), YY.ravel()])
        Z = Z.reshape(XX.shape)
    if ismlp==False and keras == None: 
        Z = modelo.predict(np.c_[XX.ravel(), YY.ravel()])
        Z = Z.reshape(XX.shape)
    if keras != None:
        Z = modelo.predict(grid_2d, batch_size=32, verbose=0)
    plt.contourf(XX, YY, Z.reshape(XX.shape), 25, alpha = 0.9, cmap=cm.Spectral)
    plt.xlim(XX.min(), YY.max())
    plt.ylim(XX.min(), YY.max())
    plt.scatter(X[:, 0], X[:, 1], c=y.ravel(), s=60, cmap=plt.cm.Spectral, edgecolors='black')
    if not os.path.exists('./visualizacion'):
        os.makedirs('./visualizacion')
    plt.savefig('./visualizacion/'+title+'.png')
    plt.close()

In [None]:
# Extraído de: Python Machine Learning de Sebastian Raschka

class RNA():
    
    #En primer lugar la inicialización de la red
    def __init__(self, ratio_aprend, n_epoch, random_state=1):
        #Los pesos están en un rango [-1,1]
        self.ratio_aprend = ratio_aprend
        self.n_epoch = n_epoch
        self.random_state = random_state
    
    def predict(self, entrada):
        entrada_red = np.dot(entrada, self.pesos[1:]) +self.pesos[0]
        return np.tanh(entrada_red)
        
    #El entrenamiento se realiza con una entrada, una salida y un 
    #número de iteraciones, que en las RNA se llaman épocas.
    def train(self, entrada, salida):
        
        #Creamos una semilla para los números aleatorios.
        rgen = np.random.RandomState(self.random_state)
        
        #Se añade un peso más, que se utilizará como bias.
        self.pesos = rgen.normal(loc=0.0, scale=0.01, size=entrada.shape[1] + 1)
        self.errores = []
        
        for iter in range(self.n_epoch):
            errors = 0            
            for xi,y in zip(entrada, salida):
                salida_red = self.predict(xi)
                error = y - salida_red
                ajuste = self.ratio_aprend * error
                self.pesos[1:] += ajuste * xi
                self.pesos[0] += ajuste
                errors += (error**2).mean()
                
            self.errores.append(errors)
            plot_title = "Perceptrón {:03}".format(iter)
            plot_decision_regions(entrada,salida, self, title=plot_title, ismlp=False,)
        return self    

In [None]:
n_epoch = 100
red = RNA(0.01, 100, 1)
rna = red.train(input,output)
#Es posible acceder a los errores cometidos y visualizarlos.
'''
La salida se corresponderá con la clase más cercana, por tanto, se redondea la salida obtenida,
ya que se trate de un problema de clasificación y no de regresión.
'''
print(round(red.predict([1,0.99])))

#sns.lineplot(x=pd.Series(np.arange(1,n_epoch)),y=pd.Series(rna.errores))
plt.plot(range(n_epoch),rna.errores)

In [None]:
!apt install imagemagick

Para poder visualizar la división entre las clases es necesario tener instalado ImageMagick, así se podrá ver de forma visual el proceso del gradiente descendente.


In [None]:
!magick -delay 10 -loop 0 ./visualizacion/Perceptrón*.png Perceptron.gif
dir = basedir+"/visualizacion"
if system == 'Windows':
    !rd /s /q "$dir"
else:
    !rm -rf "$dir"

In [None]:
!convert -delay 10 -loop 0 ./visualizacion/Perceptrón*.png Perceptron.gif
dir = basedir+"/visualizacion"
if system == 'Windows':
    !rd /s /q "$dir"
else:
    !rm -rf "$dir"

In [None]:
Image(filename="Perceptron.gif")

Ahora, cambie las entradas y las salidas para que se correspondan con las del problema de la puerta lógica OR, visualizando en el proceso los puntos que corresponden a cada categoría. Además, pruebe con distintos valores de ratio de aprendizaje para comprobar los cambios que se producen.


¿Qué es lo que observa? ¿Se realiza la separación de forma correcta?

Habrá podido comprobar que no se realiza la separación de forma correcta. Esto es debido a que el problema del XOR no es linealmente separable, es decir, no es posible trazar una única línea que separe los conjuntos de datos de cada categoría. La solución para este tipo de problemas es añadir capas intermedias entre la capa de entrada y la capa de salida del Perceptrón. Estas capas intermedias, llamadas ocultas, permiten resolver problemas linealmente no separables.

## <font color='blue'> Perceptrón Multicapa </font>

Las funciones no separables linealmente no pueden ser representadas con un perceptrón simple. Una solución a esta limitación del percetrón simple es el perceptrón multicapa, se añaden capas ocultas. 

El uso de las capas ocultas junto con funciones de activación como la sigmoide, permite resolver el problema del xor. Por tanto, tendremos una arquitectura como la siguiente:

<img src="../Figuras/MLP.png" alt="drawing" style="width:400px;"/>

Tendremos que realizar variaciones en la clase que habíamos introducido antes. En primer lugar, se va a contemplar la función sigmoide.

In [None]:
# Extraído de Python Machine Learning de Sebastian Raschka
import os

class Capa:
    def __init__(self,entradas, salidas):
        rgen = np.random.RandomState(1)
        self.pesos = 2*np.random.random((salidas, entradas))-1

class RNA2():
    #En primer lugar la inicialización de la red
    def __init__(self,capa1,capa2,capa3, ratio_aprend, n_epoch, random_state=1):
        #Los pesos están en un rango [-1,1]
        self.capa1 = capa1
        self.capa2 = capa2
        self.capa3 = capa3
        self.ratio_aprend = ratio_aprend
        self.n_epoch = n_epoch
        self.random_state = random_state
    
    def tanh(self, entrada, derivada=False):
        if derivada==True:
            return 1.0 - np.tanh(entrada)**2
        return np.tanh(entrada)
    
    def predict(self, entrada):
        salida_capa1 = self.tanh(np.dot(entrada, self.capa1.pesos))
        salida_capa2 = self.tanh(np.dot(salida_capa1, self.capa2.pesos))
        salida_capa3 = self.tanh(np.dot(salida_capa2, self.capa3.pesos))
        return salida_capa2, salida_capa3
        
    #El entrenamiento se realiza con una entrada, una salida y un 
    #número de iteraciones, que en las RNA se llaman épocas.
    def train(self, entrada, salida):
        self.errores = []
        for iter in range(self.n_epoch):
            plot_title = "MLP {:03}".format(iter)
            errors = 0
            
            salida_capa1 =  self.tanh(np.dot(entrada, self.capa1.pesos))
            salida_capa2 =  self.tanh(np.dot(salida_capa1, self.capa2.pesos))
            salida_capa3 = self.tanh(np.dot(salida_capa2, self.capa3.pesos))
            
            error_capa3 = salida - salida_capa3
            delta_capa3 = error_capa3 * self.tanh(salida_capa3, True)

            error_capa2 = delta_capa3.dot(self.capa3.pesos.T)
            delta_capa2 = error_capa2 * self.tanh(salida_capa2, True)

            
            error_capa1 = delta_capa2.dot(self.capa2.pesos.T)
            delta_capa1 = error_capa1 * self.tanh(salida_capa1, True)
                
            ajuste_capa1 = self.ratio_aprend * entrada.T.dot(error_capa1)
            ajuste_capa2 = self.ratio_aprend * salida_capa1.T.dot(error_capa2)
            ajuste_capa3 = self.ratio_aprend * salida_capa2.T.dot(error_capa3)
    
            self.capa1.pesos += ajuste_capa1
            self.capa2.pesos += ajuste_capa2 
            self.capa3.pesos += ajuste_capa3
            
            errors += error_capa3.mean()**2
            
            plot_decision_regions(entrada,salida, red, plot_title, 0.02, True, None)
            self.errores.append(errors)

        return self    

In [None]:
capa1 = Capa(6,2)
capa2 = Capa(4,6)
capa3 = Capa(1,4)

input = np.array([[0,0],[0,1], [1,0], [1,1]])
output = np.array([[1, -1, -1, 1]]).T

n_epoch = 250
red = RNA2(capa1,capa2, capa3, 0.007, n_epoch, 0)
rna = red.train(input,output)
_, salida = red.predict(np.array([0.5,0.5]))
print(salida)
sns.lineplot(x=pd.Series(np.arange(1,n_epoch)),y=pd.Series(rna.errores))

In [None]:
!magick -delay 10 -loop 0 ./visualizacion/mlp*.png mlp.gif
dir = basedir+"/visualizacion"
if system == 'Windows':
    !rd /s /q "$dir"
else:
    !rm -rf "$dir"

In [None]:
from IPython.display import Image
Image(filename="mlp.gif")

## Scikit Learn

Como ya es sabido, Scikit es una biblioteca que incluye multitud de algoritmos de aprendizaje automático. Entre ellos, el Perceptrón. Es posible llevar a cabo todas las operaciones que hemos realizado antes mediante el uso sólo unas pocas funciones de esta biblioteca, al igual que otros modelos estudiados.

In [None]:
from sklearn.linear_model import Perceptron

In [None]:
print(input)

In [None]:
ppn = Perceptron(max_iter=40, eta0=0.1, tol=0.19, random_state=0)
ppn.fit(input,output)

In [None]:
salida_red = ppn.predict([[1,.8]])
salida_red

De igual modo, compruebe qué ocurre con los problemas del OR y del XOR y compruebe si se corresponden los resultados con los obtenidos antes.

In [None]:
from sklearn.neural_network import MLPClassifier

In [None]:
mlp = MLPClassifier(hidden_layer_sizes=(3), alpha=0.01, activation='tanh', max_iter=2500)


In [None]:
input = np.array([[0,0],[0,1], [1,0], [1,1]])
output = np.array([[1, -1, -1, 1]]).T
output

In [None]:
mlp.fit(input,output.ravel())

In [None]:
predictions = mlp.predict([[1,0.9]])
predictions

In [None]:
plt.plot(mlp.loss_curve_)


## Keras

Al igual que Scikit, Keras es una biblioteca que permite utilizar numerosos algoritmos de aprendizaje automático. En estos últimos años ha ido ganando popularidad gracias a su coexistencia con Tensorflow y la actualidad de temas como el Aprendizaje Profundo.

In [None]:
#Para la creación de redes 
import tensorflow as tf
from tensorflow.keras.models import Sequential

#Dense nos permite personalizar la arquitectura de cada capa
from tensorflow.keras.layers import Dense

#Gradiente descendiente
from tensorflow.keras.optimizers import SGD

In [None]:
!pip install tensorflow

In [None]:
input = np.array([[0,0],[0,1], [1,0], [1,1]])
output = np.array([[1, -1, -1, 1]]).T
output

In [None]:
import tensorflow.keras as keras

def callback_keras_plot(epoch, logs):
    plot_title = "Keras {:03}".format(epoch)
    plot_decision_regions(input, output, modelo=mlp, title = plot_title, keras=True)

In [None]:
testmodelcb = keras.callbacks.LambdaCallback(on_epoch_end=callback_keras_plot)



Para crear una red neuronal con Keras se hace una llamada a la función ``Sequential()``. Tras esto, se irán añadiendo capas a la red con la función ``Dense()``, cuyos parámetros son:
- units: Nº de neuronas en la capa
- input_dim: Tamaño de la entrada
- activation: Función de activación

La primera capa debe incluir el tamaño de la entrada a través de input_dim, mientras que en el resto de capas no es obligatorio, se infiere de forma automática.

In [None]:
mlp = Sequential()
mlp.add(Dense(6, input_dim=2,activation='linear'))
mlp.add(Dense(22, activation='tanh'))
mlp.add(Dense(8, activation='relu'))
mlp.add(Dense(14, activation='sigmoid'))
mlp.add(Dense(4, activation='linear'))
mlp.add(Dense(1, activation='sigmoid'))

Una vez que tengamos definido el diseño de la red únicamente queda añadir cómo medir el error y qué método seguir para alcanzar el mínimo error. Utilizaremos el MSE y el método del gradiente descendente en los parámetros de `loss` y `optimizer` respectivamente.

In [None]:
sgd = keras.optimizers.SGD(learning_rate=0.3)
mlp.compile(loss='mean_squared_error', optimizer=sgd, metrics=['accuracy'])

mlp.fit(input, output, epochs=250, verbose=0, callbacks=[testmodelcb])

In [None]:
!magick -delay 10 -loop 0 ./visualizacion/keras*.png keras.gif
dir = basedir+"/visualizacion"
if system == 'Windows':
    !rd /s /q "$dir"
else:
    !rm -rf "$dir"

In [None]:
Image(filename="keras.gif")

## <font color='blue'> Conclusión </font>

Se ha construido el modelo de perceptrón simple y el modelo de perceptrón multicapa, de manera manual, y se ha visualizado la clasificación. Posteriormente, se ha comprobado la facilidad que proporciona, para la construcción de ambos modelos, las bibliotecas Scikit-learn y Keras. 

Las redes neuronales artificiales son modelos muy poderosos con los que se pueden realizar diversas tareas: clasificación y regresión (aprendizaje supervisado); clustering (SOM, Redes de Kohonen) y otras tareas de aprendizaje no supervisado (Autoencoders, GAN,...); procesamiento secuencial (RNN, LSTM, GRU); aprendizaje con refuerzo (Deep Q-learning, Policy Gradient), etc. 

Pueden capturar relaciones complejas entre las variables y funcionan bien con grandes cantidades de datos, especialmente en presencia de redundancia o ruido, siempre que estén bien diseñadas. Pueden ser adaptadas a problemas específicos mediante arquitecturas personalizadas, como CNN (redes convolucionales) para imágenes o RNN (redes recurrentes) para datos secuenciales.

Para obtener buenos resultados, suelen requerir muchos datos etiquetados, especialmente en el caso de aprendizaje supervisado. Suelen ser costosas computacionalmente. Son consideradas como cajas negras, por la dificultad de entender por qué toman ciertas decisiones. Si no están bien regularizadas pueden memorizar los datos de entrenamiento, por lo que no generalizan adecuademente (sobreajuste). Y su rendimiento depende de la selección de los valores de los hiperparámetros, lo cual puede ser un proceso largo y complejo.

Pueden ser aplicados para resolución de multitud de problemas: Reconocimiento de imágenes y vídeos, detección de objetos, procesamiento del lenguaje natural, predicción de series temporales, sistemas recomendadores, robótica y juegos (aprendizaje con refuerzo), generación de datos (imágenes, música, videos, texto o simulaciones),...

<img src="https://i.creativecommons.org/l/by-nc-nd/4.0/88x31.png"/> 

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.
Para ver una copia de esta licencia, véase http://creativecommons.org/licenses/by/4.0/