# 2.1. Redes neuronales

* Las Redes Neuronales fueron originalmente una **simulación abstracta de los sistemas nerviosos biológicos**.

* El primer modelo de red neuronal fue propuesto en [1943 por McCulloch y Pitts](https://link.springer.com/article/10.1007%2FBF02478259) en términos de un modelo computacional de actividad nerviosa. Posteriormente, [Frank Rosenblatt en 1958](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.335.3398&rep=rep1&type=pdf) propuso el primer modelo de neurona o perceptrón. Y finalmente en [1986 Rumelhart, Hinton y Williams](https://web.stanford.edu/class/psych209a/ReadingsByDate/02_06/PDPVolIChapter8.pdf) propusieron el perceptrón multicapa.

<br>

![Deep Learning Timeline](http://www.dlsi.ua.es/~jgallego/deepraltamira/deep_learning_timeline_1.png)

<br>


* Las redes neuronales están formadas por un conjunto de unidades llamadas **neuronas** o nodos **conectados unos con otros** imitando el comportamiento observado en los axones de las neuronas en los cerebros biológicos.


<br>

![red neuronal](http://www.dlsi.ua.es/~jgallego/deepraltamira/neural_network.jpg)

<br>


* La redes neuronales siempre se organizan en capas, con:

 * Una capa de entrada.

 * Una o más capas oculas.

 * Una capa de salida.

* Cada neurona está conectada con todas las neuronas de la capa anterior.

* Los enlaces entre las neuronas pueden modificar el estado de activación de las neuronas con las que se conecta.


## Neurona o perceptron

Cada neurona de la red se estructura de la siguiente forma:

<br>

![neurona](http://www.dlsi.ua.es/~jgallego/deepraltamira/neurona1.png)

<br>


Es decir:

* Recibe $x_n$ entradas.

* Pondera estas entradas por unos pesos $w$.

* Suma el resultado de esta ponderación.

* Le añade un umbral o bias $b$.

* Y pasa este resultado por una función $f$ de activación.

<br>

La expresión matemática de una neurona sería:

<br>

\begin{equation}
y = f \Big( \sum w_n x_n + b \Big)
\end{equation}

<br>

Por lo que (si no tenemos en cuenta la función $f$ de activación) en realidad está aplicando una **función lineal** como la siguiente:

<br>

![clasificación lineal](http://www.dlsi.ua.es/~jgallego/deepraltamira/linear_classification.png)

<br>

Al añadir la función de activación y combinar el resultado de las distintas neuronas capa tras capa lo que obtenemos es un **clasificador no lineal** con el que podemos hacer discriminaciones como la siguiente:


<br>

![non linear classification](http://www.dlsi.ua.es/~jgallego/deepraltamira/non_linear_classification.png)

<br>

## Función de activación

* La salida de cada neurona se transforma aplicando una función de activación.

* De esta forma podemos modificar la salida de la neurona, aplicar **funciones no lineales**, restringir la salida a un rango dado (entre 0 y 1, o entre -1 y 1) o a valores discretos (0 ó 1).

* En general es mejor utilizar funciones no lineales que devuelvan valores contínuos, ya que esto nos permitirá aprender clasificadores más complejos.

* También dependiendo de la función utilizada será más fácil o costoso el aprendizaje de los pesos.

* Esta función tiene que ser **derivable** para poder calcular la pendiente en un punto dado. De esta forma, durante el entrenamiento, podremos saber cómo ajustar los pesos para reducir el error.

* Las funciones de activación más utilizadas son la función **Softmax**, la **Sigmoidal** y la **Rectified Linear Unit (ReLU)**, pero hay muchas más:


<br>

![activation functions](http://www.dlsi.ua.es/~jgallego/deepraltamira/activation_functions.jpg)

<br>


### Salida de la red en problemas de clasificación categórica

* Podemos utilizar la función sigmoidea como salida en problemas de clasificación binaria.

* Cuando tenemos más de dos clases se puede añadir una neurona de salida con función sigmoidea para cada clase.

* Aunque en estos casos se recomienda utilizar la función de activación **Softmax** para la salida de la red.

* La función **Softmax** asigna probabilidades en el rango $[0, 1]$ a cada clase.

* Las probabilidades sumarán 1. Esta restricción adicional permite que el entrenamiento converja más rápido.

<br>

\begin{equation}
\sigma : \mathbb{R} ^{K} \to [0, 1]^K
\end{equation}

<br>

## Entrenamiendo de la red

* Inicialmente los pesos de las neuronas ($w$ y $b$), y de la red en general, se inicializan con valores aleatorios.

* El proceso de entrenamiento consiste en encontrar la combinación de pesos que mejor se ajuste a una muestra de entrenamiento dada.

<br>

![clasificación lineal](http://www.dlsi.ua.es/~jgallego/deepraltamira/linear_classification_animation.gif)

<br>

* Este proceso trata de encontrar un mínimo en la superficie de error formada a partir de los parámetros de la red y la muestra de entrenamiento.

* Este proceso suele ser muy complejo dado que la superficie normalmente será N-dimensional y contendrá muchos valles, además, en cada momento solo sabemos el **error cometido en ese punto**, con la configuración de parámetros actual.

<br>

![backpropagation surface](http://www.dlsi.ua.es/~jgallego/deepraltamira/backpropagation_surface.jpg)

<br>

* Este proceso de entrenamiento se realiza utilizando el método de "**propagación hacia atrás de errores**" o "**retropropagación**" o, del inglés, ***backpropagation***.

* Este método funciona en dos fases:

 1. **Paso forward o hacia adelante:** se suministran las muestras de entrenamiento a la red, se obtiene la predicción y se compara esta salida con la salida deseada. Con esto se puede calcular el error (usando una función de error o ***loss***) para cada una de las salidas.

 2. **Paso backward o hacia atrás:** El error calculado se propaga hacia atrás desde la capa de salida. Cada neurona recibirá la fracción de error cometido por la misma.
   
   * Este proceso lo realizaremos utilizando el método de optimización de **descenso por gradiente**, el cual se basa en calcular la pendiente en el punto actual y actualizar los pesos **un poco** (que dependerá del parámetro de aprendizaje *learning rate*), moviéndonos en la dirección opuesta al gradiente.

<br>

![backpropagation method](http://www.dlsi.ua.es/~jgallego/deepraltamira/backpropagation_method.png)

<br>

* Además del descenso por gradicente (*gradient descent*) hay otros muchos algoritmos optimizadores que podemos utilizar: *Stochastic gradient descent (SGD), RMSprop, Adagrad, Adadelta, Adam,*...

<br>

![Optimizadores](http://www.dlsi.ua.es/~jgallego/deepraltamira/backpropagation_optimizers.gif)

<br>


* Una vez finaliza el proceso de entrenamiento ya se puede usar la red con los pesos aprendidos para hacer predicciones o clasificaciones. En esta etapa solo será necesario realizar el paso hacia adelante.


### Ejemplo sencillo con una neurona


A continuación vamos a ver un ejemplo sencillo de como implementar y entrenar manualmente una red neuronal que recibirá como entrada datos 2D y utilizará una única neurona para clasificar estos datos en dos clases.

<br>

In [None]:
"""
En primer lugar importamos la librerías necesarias y generamos datos de
entrenamiento aleatorios.
"""

import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
import numpy as np

np.random.seed(1)  # Fijamos la semilla

# -------------------------------
def plot(x, y, pred=None):
  x0 = x[y == 0]
  x1 = x[y == 1]
  plt.plot(x0[:,0], x0[:,1], 'go')
  plt.plot(x1[:,0], x1[:,1], 'bo')

  if pred is not None:
    e = x[y != pred]  # Nos quedamos con los errores de predicción
    plt.plot(e[:,0], e[:,1], 'ro', ms=10)

  plt.show()


print('Datos aleatorios generados para el entrenamiento:')

x_train = np.random.random((500,2))
y_train = np.array([(0.5 * x_train[:,0] + 0.2 > x_train[:,1])]).astype(int).T

plot(x_train, y_train.T[0])

print('Forma de los datos generados:')
print('X:', x_train.shape, 'Y:', y_train.shape)
print('\nMostramos los valores de los 5 primeros elementos:')
print('X:', x_train[:5])
print('Y:', y_train[:5])

In [None]:
"""
A continuación entrenamos la red neuronal
"""

# -------------------------------
# Función sigmoidea
def nonlin(x, deriv=False):
    if(deriv==True):
        return x*(1-x)
    return 1/(1+np.exp(-x))

# Inicializamos los pesos de forma aleatoria con media 0
weights0 = 2 * np.random.random((2,1)) - 1
bias0 = np.array([0.0])   # Inicializamos el bias


epocas = 1000
print('Entrenamos durante {} epocas'.format(epocas))

for iter in range(epocas):
    # Paso Forward
    prediccion = nonlin(np.dot(x_train, weights0) + bias0)

    # Calculamos el error cometido
    error = y_train - prediccion
    if iter % 100 == 0:
      print(' - Epoca {} - Error {:0.4f}'.format(iter, np.mean(np.fabs(error)) ))

    # Multiplicamos el error cometido por la pendiente de la función en ese
    # punto, así obtenemos el incremento que tenemos que aplicar sobre los pesos
    delta = error * nonlin(prediccion, True)

    # Actualizamos los pesos
    weights0 += np.dot(x_train.T, delta)
    bias0 += np.sum(delta)

print('Error final del entrenamiento: {:0.4f}'.format( np.mean(np.fabs(error)) ))
print('Aciertos con los datos de entrenamiento: {:0.2f}%'.format( accuracy_score(y_train, prediccion > .5) * 100 ))

In [None]:
"""
Y por último evaluamos la red con los pesos aprendidos con un nuevo conjunto
de datos
"""

print('Generamos nuevos datos aleatorios para la evaluación:')

x_test = np.random.random((100,2))
y_test = np.array([(0.5 * x_test[:,0] + 0.2 > x_test[:,1])]).astype(int).T


# Realizamos el paso Forward por la red
prediccion = nonlin(np.dot(x_test, weights0) + bias0)


# Calculamos el resultado obtenido y lo mostramos
prediccion = np.array(prediccion > .5).astype(int)

plot(x_test, y_test.T[0], prediccion.T[0])

print("Aciertos con los datos de evaluación: {:0.2f}%".format( accuracy_score(y_test, prediccion)*100 ))

<br>

* Pero para crear una red neuronal más compleja, con más capas y neuronas por capa, la implementación manual se complica.

<br>

![red neuronal](http://www.dlsi.ua.es/~jgallego/deepraltamira/neural_network.jpg)

<br>

* En las redes neuronales con más capas se han de combinar el resultado de muchas neuronas y funciones de activación.

* Además, para entrenar la red y ajustar los pesos de neuronas intermedias se han de realizar cálculos mucho más complejos, ya que el resultado de cada neurona (y por lo tanto el error cometido) depende del resto de neuronas.

* Para facilitar la implementación de redes neuronales más complejas podemos utilizar librerías que nos ayuden en esta labor.

* **[tf.Keras](https://keras.io/)** es una librería de alto nivel para el desarrollo de redes neuronales con las siguientes características:

 * Está escrita en Python.
 * Está enfocada en permitir la experimentación rápida, poder pasar de la idea al resultado con el menor retraso posible.
 * Incorpora los últimos avances: tipos de redes convolucionales, recurrentes, etc.
 * Puede funcionar con GPU y CPU.




# 2.1.1. Redes neuronales con tf.Keras

* En tf.Keras disponemos de las clases **`Sequential`** y **`Dense`** para crear una red neuronal tipo secuencial formada por capas de neuronas.

* La clase [`Sequential`](https://keras.io/models/sequential/) nos permite crear un modelo de red "secuencial" y además nos proporciona los siguientes métodos:

 * `compile`: compila la red para prepararla para el entrenamiento y evaluación. Además nos permite indicar el [optimizador](https://keras.io/optimizers/) (SGD, Adam, etc.) y función de pérdida (función utilizada para calcular el error cometido, también llamada *loss*) a utilizar.

 * `fit`: Inicia el entrenamiento de la red. En este método tenemos que indicar los datos de entrenamiento, el número de épocas y tamaño del batch a utilizar.

 * `evaluate`: Evalua la red usando la función de pérdida y métricas indicadas al compilar.

 * `predict`: Devuelve la predicción de la red para nuevas muestras.

* La clase [`Dense`](https://keras.io/api/layers/core_layers/dense/) nos permite añadir capas de neuronas a la red. Para esto solo tenemos que indicar como parámetro el número de neuronas de la capa y la función de activación a utilizar en cada neurona. Por ejemplo:

 * `Dense(10, activation='sigmoid')` --> Añade una capa a la red neuronal con 10 neuronas y activación sigmoidea.








<br>

&#10158; El código que tendríamos que escribir en tf.Keras para clasificar los mismos datos del ejemplo anterior sería:


In [None]:
# Cargamos las dependencias
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import SGD
import tensorflow as tf
tf.random.set_seed(42)  # Fijamos la semilla de TF


# Definimos la red tipo secuencial
model = Sequential()

# Añadimos una capa con 1 neurona.
# En esta misma capa indicamos que la entrada de la red será de dimensión 2.
model.add(Dense(1, activation='sigmoid', input_dim=2))


# Mostramos un resumen de la red
print(model.summary())


# La compilamos
model.compile(optimizer=SGD(learning_rate=.05), loss='mae', metrics=['accuracy'])


# Iniciamos el entrenamiento
model.fit(x_train, y_train, epochs=300, batch_size=64, verbose=2)


# Utilizamos el modelo aprendido para predecir el resultado del conjunto de test
prediccion = model.predict( x_test )


print("Datos de evaluación:")
prediccion = np.array(prediccion > .5).astype(int)
plot(x_test, y_test.T[0], prediccion.T[0])
print("Aciertos en la evaluación: {:0.2f}%".format( accuracy_score(y_test, prediccion)*100 ))

<br>

* Mediante las clases `Sequential` y `Dense` podemos definir el MLP como nosotros queramos.

* Podemos añadir más capas, por ejemplo crear una red con 3 capas ocultas de 100 neuronas, 50 neuronas de entrada y 10 de salida:

```
model = Sequential()
model.add(Dense(100, input_dim=50))
model.add(Dense(100))
model.add(Dense(100))
model.add(Dense(10))
```

* Podemos utilizar diferentes funciones de activación. Una de las funciones de activación más utilizadas actualmente es **ReLU**:

```
model = Sequential()
model.add(Dense(100, activation='relu', input_dim=50))
model.add(Dense(100, activation='relu'))
model.add(Dense(100, activation='relu'))
model.add(Dense(10, activation='softmax'))
```





## Activación de la capa de salida

* La función de activación a utilizar en la capa de salida dependerá del problema que pretendamos resolver.

 * Si pretendemos predecir un valor continuo --> **activación lineal** (sin activación)

 * Si vamos a clasificar múltiples categorías --> **softmax**

 * Para dos categorías podemos utilizar softmax o sigmoidea.


<br>

![Overfitting example](http://www.dlsi.ua.es/~jgallego/deepraltamira/fig_example_categorical.png)

<br>


### Clasificación categórica

* En los problemas de clasificación categórica tendremos una serie de etiquetas a clasificar, por ejemplo: "perro", "gato", "oso" y "pez".

* Estas etiquetas o clases las podemos representar (o codificar) mediante valores numéricos: 0="perro", 1="gato", 2="oso" y 3="pez".

* El problema es que esto representa una serie continua de valores que la red podría aprender, además la red también tendería a devolver etiquetas con valores más altos.

* Para evitar estos problemas se ha de transformar las etiquetas al formato "[One hot](https://en.wikipedia.org/wiki/One-hot)".

* En este formato, cada etiqueta se representa mediante un vector binario, donde todas las posiciones valen 0 excepto la de la clase a representar, que tendrá valor 1. Por ejemplo, para las clases del ejemplo con animales anterior tendríamos:
  * "0:perro"&nbsp; --> [1, 0, 0, 0]
  * "1:gato" &nbsp; --> [0, 1, 0, 0]
  * "2:oso" &nbsp;&nbsp; --> [0, 0, 1, 0]
  * "3:pez" &nbsp;&nbsp; --> [0, 0, 0, 1]

* Para realizar esta transformación utilizaremos la función [`keras.utils.to_categorical`](https://keras.io/api/utils/python_utils/#to_categorical-function).



In [None]:
from tensorflow.keras.utils import to_categorical

# Por ejemplo, tenemos el siguiente vector de etiquetas:

Y = [1, 3, 0, 2, 1, 0, 3]

numero_total_clases = 4    # Del 0 al 3

print('Vector de etiquetas antes de la conversión:')
print(Y)

Y = to_categorical(Y, numero_total_clases)

print('\nVector one-hot:')
print(Y)



## Entrenamiento y evaluación

* Para el entrenamiento y la evaluación de una red neuronal (y de cualquier algoritmo de aprendizaje en general) se recomienda dividir los datos a clasificar en dos conjuntos:

 * Un **conjunto** para el **entrenamiento** con aproximadamente el 80% del total de los datos.

 * Y otro **conjunto** para la **evaluación o test** con los datos restantes.

* De esta forma, una vez entrenado el modelo lo podemos validar con datos que no ha visto.  

* El resultado obtenido con un conjunto de test separado nos permite evaluar si el modelo **ha aprendido a generalizar** y, por lo tanto, a clasificar nueva información.

<br>

![Train and test split](http://www.dlsi.ua.es/~jgallego/deepraltamira/fig_train_test.png)

<br>


## Épocas y batch

* Como ya hemos visto, durante el entrenamiento se van suministrando muestras a la red, se calcula el error cometido entre la predicción de la red y las etiquetas reales, y se ajustan los pesos para reducir este error utilizando el algoritmo "backpropagation".

* Si este proceso lo realizamos muestra a muestra, una **época** de entrenamiento se refiere a cuando hemos suministrado todas las muestras de entrenamiento. Por lo tanto, realizar más épocas se refiere a volver a entrenar suministrando las mismas muestras una y otra vez.

* Además, en vez de realizar este proceso muestra a muestra, lo podemos realizar por lotes, grupos, o **batchs**, es decir, suministrando un grupo de muestras a la red y ajustando el error de forma conjunta para ese grupo.

* Este último método es el que utilizan la mayoría de optimizadores, como por ejemplo Stochastic Gradient Descent (SGD), RMSprop, Adagrad, Adadelta, Adam, etc.


## Overfitting

* Se denomina "*overfitting*" al efecto producido al sobreentrenar (o sobreajustar) un algoritmo de aprendizaje a unos ciertos datos para los que se conoce el resultado deseado.

* Cuando un sistema se sobreentrena el algoritmo puede quedar **ajustado a unas características muy específicas de los datos de entrenamiento** que no tienen relación causal con la función objetivo.

* En este caso el algoritmo no generaliza.


<br>

![Overfitting example](http://www.dlsi.ua.es/~jgallego/deepraltamira/overfitting_example.png)

<br>

* Este problema es bastante frecuente al entrenar redes neuronales (en general).

* El motivo suele ser:

 * Pocos datos de entrenamiento.

 * Uso de modelos de red no adecuados a la cantidad o variabilidad de los datos de entrenamiento.

* Si representamos en una gráfica el error cometido por la red durante el entrenamiento para la muestra de aprendizaje (training) y la de validación (validation), un ejemplo típico de overfitting sería:

<br>

![Overfitting curve](http://www.dlsi.ua.es/~jgallego/deepraltamira/overfitting_curve1.png)

<br>

* Tenemos diferentes soluciones para evitar este problema:

 * Detener el entrenamiento antes de que suceda (en la línea de puntos de la gráfica).

 * Si es demasiado pronto para detener el entrenamiento (porque el error todavía es alto) y tiene una **varianza alta** podríamos:

   * Añadir más datos o datos más variados al training set.
   * Aplicar aumentado de datos.
   * Reducir la complejidad de la red neuronal.
   * Usar técnicas para evitar el overfitting como **Dropout** o **Batch Normalization**.

* En los casos en los que tengamos un **bias alto** deberemos aumentar el tamaño de la red o modificar su topología.

### Dropout

* Esta operación consiste en desconectar aleatoriamente un porcentaje de las neuronas de la red en cada iteración del entrenamiento.

<br>

![Dropout](http://www.dlsi.ua.es/~jgallego/deepraltamira/dropout.png)

<br>

* En tf.Keras tenemos la clase [Dropout](https://keras.io/api/layers/regularization_layers/dropout/) que nos permite aplicar fácilmente esta técnica sobre las capas de la red.

* Esta clase recibe como parámetro el porcentaje (entre 0 y 1) de las neuronas a desactivar en cada iteración.

* Podemos añadir esta clase después de cada capa densa, por ejemplo:


```
model = Sequential()
model.add(Dense(100, activation='relu', input_dim=50))
model.add(Dropout(0.2))
model.add(Dense(100, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(10, activation='softmax'))
```



<br>
<br>


---

**[&#10158;  Vamos a practicar &#10158; ](https://colab.research.google.com/drive/1bXjwrGJtQG09AUGKTudIXtOXPCALiMkf)**

---

