# Clase IV: Redes neuronales


* La Inteligencia Artificial se ha basado en imitar la inteligencia de la misma manera que esta se produce.


* El cerebro es el órgano encargado de "gestionar la inteligencia" y por tanto parece sensato imitar su comportamiento para aprender a resolver determinadas tareas.


* Es muy poco lo que se conoce del cerebro, pero haciendo una gran abstracción podemos simplificar el cerebro como un conjunto de neuronas conectadas entre sí que se comunican mediante señales eléctricas y químicas. El cerebro humano está formado por:
    + $10^{11}$ Neuronas
    + $10^{14}$ Conexiones
    + Cada Neurona esta conectada a otras 1.000 y 200.000 Neuronas
    

* El funcionamiento (a un alto nivel de abstracción) de una neurona lo podemos describir de la siguiente manera:
    1. Una neurona recibe impulsos (tanto excitatorios como inhibidores) de diferente intensidad de muchas otras neuronas.
    2. La neurona suma (integra) los impulsos recibidos en el espacio y el tiempo.
    3. Si la señal integrada resultante está por encima de un umbral, la neurona se dispara; es decir, emite un impulso eléctrico de una determinada intensidad.
    6. La señal se transmite a la siguiente neurona en la red a través de una sinapsis (conexiones sinápticas) mediante neurotransmisores.
    

## El Perceptrón


* En 1957 el Psicólogo Frank Rosenblatt introduce el Perceptrón como un dispositivo hardware con capacidad de autoaprendizaje.

* Este Perceptrón que pretende imitar la arquitectura de un cerebro humano, consta de una red con:
    + Una capa de entrada con $N$ neuronas (i.e. $N$ variables de entrada -> variables independientes).
    + Una capa de salida de 1 neurona.
    + Interconexiones entre todas las neuronas de la capa de entrada con todas las neuronas de la capa de salida.
    + Aplica una combinación lineal de todas estas interconexiones.
    + La función de activación es de tipo signo:
    
  $$
        f(x)=\begin{cases} 0 & \text{si } x < 0 \\
        1 & \text{si } x \geq 0
        \end{cases}
  $$
    
<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_05_Perceptron.png?raw=1" style="width: 400px;"/>


* Generalizando el comportamiento de una Neurona Artificial, describimos el Perceptrón como:
    + '$N$' neuronas de entrada {$e_1$, ..., $e_n$}.
    + Conexión a masa $b_0$, también conocido como bias.
    + Pesos {$w_0$, $w_1$, ..., $w_n$} que interconectan las entradas con la neurona.
    + Función de entrada que es la suma de todas las entradas por sus pesos: $f_{entrada}= b_0 w_0 + \sum (e_i w_i)$
    + Salida dada por una función de activación $Funcion\ Activacion= F(f_{entrada})$
    
<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_08_Perceptron.png?raw=1" style="width: 500px;"/>


### Funciones de Activación


#### Para capas ocultas
* Una función de activación es una función que transmite la información generada por la combinación lineal de los pesos y las entradas.


* A continuación se muestran las funciones de activación más utilizadas:


<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_09_funciones_activacion.png?raw=1" style="width: 950px;"/>


* Dependiendo la función de activación que usemos, podremos resolver un tipo de problemas u otros.

### Para capa de salida:

- **Lineal** para problemas de regresión con posibles valores negativos.
- **ReLu** para porblemas de regresión con un dominio solo positivo.
- **Sigmoide** para clasificaciones binarias.
- **Softmax** para clasificaciones multi-clase.


<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_10_regresion.png?raw=1" style="width: 400px;"/>



<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_11_clasificacion.png?raw=1" style="width: 400px;"/>



Por tanto, un perceptrón puede servir tanto para problemas de **regresión** como de **clasificación** (entre otras cosas porque también para imágenes, aunque hay arquitecturas más específicas para este tipo de problemas, pero está bien saber que también pueden hacer eso).





<hr>


# El Perceptrón Multicapa


* Utilizar un Perceptrón con una sola neurona no nos permitiría resolver problemas de regresión y clasificación complejos. Para ello necesitamos combinar varios Perceptrones poniéndolos en paralelo (capas) y uniéndolas en serie (conectando capas).


* La unión de estos Perceptrones en capas en serie dio nombre al "Deep Learning", viniendo la palabra "Deep" de la profundidad que estas capas.


* Aunque el Perceptrón Multicapa ya se definió hace muchas décadas, su uso no se ha popularizado hasta la primera década del siglo XXI ya que hasta esa fecha no se habían definido "optimizadores" (algoritmos que calculan los pesos de la red neuronal) capaces de calcular (o ajustar) los millones de parámetros que pueden tener estas redes neuronales profundas capaces de resolver problemas complejos.


* Por tanto podemos ver un ***Perceptrón Multicapa*** como una ***estructura*** con las siguientes características:
    1. ***'N' Neuronas de Entrada***: 'N' será el número de variables de entrada que tenga nuestro problema a resolver.
    2. ***'C' capas ocultas con 'K' neuronas por capa oculta***: El número de capas ocultas y el número de neuronas por capa, se establecerán en función de lo complejo que sea el problema a resolver. Cuantas más capas y neuronas tenga nuestra red más complejo será nuestro modelo, pudiendo acarrear problemas de overfitting y por el contrario si tiene pocas capas oculta y pocas neuronas por capa, nuestro modelo será poco complejo y podrá acarrear problemas de underfitting. Por tanto hay que definir una arquitectura de red adecuada a la complejidad del problema que queramos resolver, intentando siempre encontrar una arquitectura de red lo más sencilla posible que sea capaz de resolver nuestro problema.
    3. ***'M' Neuronas de Salida***: El número de neuronas de salida dependerá del problema a resolver, siendo estos:
        - ***Problema de regresión***: Debe de tener ***1 neurona de salida con función de activación lineal***.
        - ***Problema de clasificación***:
            + ***Binaria: 1 Neurona con función de activación sigmoidal o tangente hiperbolica***.
            + ***Múltiple***: Tiene que tener ***tantas neuronas como clases a clasificar***. Se recomienda que la ***función de activación sea una softmax***.
            
<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_12_preceptron_multicapa.png?raw=1" style="width: 900px;"/>


## Overfitting

##### Regularización L1 y Regularizacion L2
- Penalizan pesos altos en las redes neuronales. Un peso alto conduce a un modelo a exagerar la importancia de una variable, pero más importante, a generar un modelo con una varianza alta y más complejo.


##### Dropout


* El Dropout es un método que se utiliza para la regularización, que tiene como objetivo reducir el overfitting.


* Consiste en perturbar la red en cada pasada de entrenamiento (feed-forward y backpropagation), eliminando al azar algunas de las unidades de cada capa.


* El objeto es que al introducir ruido en el proceso de entrenamiento evitamos el overfiting, pues en cada paso de la iteración estamos limitando el número de unidades que la red puede usar para ajustar las respuestas.


<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_16_dropout.png?raw=1" style="width: 1000px;"/>

## Otros hiperparámetros

##### Función de Coste / Función de Pérdida
Función, como en cualquier otro algoritmo de *Machine Learning*, para decirle matemáticamente al modelo:
- "Muy mal, hay que mejorar"
- "Te estás acercando, mejora un poco más"

##### Optimizador
Función complementaria a la función de coste. La función de coste te dice cómo de bien ha predicho el modelo en la última iteración y, por ende, si hay que mejorar/corregir los pesos. El optimizador es la función que impone cómo mejorar/corregir los pesos.


##### Learning Rate
El learning rate, $/alpha$, indica en qué grado se modifican los pesos para mejorar el modelo:
- Un learning alto implica que en cada iteración los pesos se van a modificar mucho.
- Un learning rate bajo implica que en cada iteración los pesos se van a modificar poco.


##### Epochs


* Los Epochs (las épocas en Castellano) es un hiperparámetro que indica el número de veces que la Red Neuronal aprenderá de todas las observaciones de Dataset.


* Por ejemplo, si tenemos un Dataset con 200 observaciones y le indicamos a la red que realice 50 epochs, esto significa que la Red Neuronal leerá y aprenderá 50 veces las 200 observaciones del Dataset; es decir, que leerá 10.000 observaciones (200 x 50).


<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_14_epoch.png?raw=1" style="width: 900px;"/>



##### Batch Size


* El Batch Size es un hiperparámetro que indica el número de observaciones que tiene que leer la Red Neuronal antes de actualizar el modelo (los pesos de la Red Neuronal).

* Por ejemplo, con un Batch Size de 100 lo que haremos será calcular la salida para 100 Observaciones y calcular sus errores en función de la predicción que realice la Red. Posteriormente se calcula el error medio de las 100 observaciones y se actualizan los pesos de la Red Neuronal.

* Consideraciones importantes:
    + Batch Size pequeño:  la Red Neuronal aprenda muy bien pero tardará mucho tiempo en calcular el modelo.
    + Barch Size grande: la Red Neuronal no aprenda tan bien pero tardará menos tiempo en calcular el modelo.


<img src="https://github.com/JCOQUE/ia_para_todos/blob/main/imgs/6_01_01_15_batchsize.png?raw=1" style="width: 900px;"/>

### Batch Normalization

Hiperparámetro que ayuda a mejorar la eficiencia de las redes neuronales. Consiste en normalizar los valores que se envían entre capa y capa de la red neuronal.



## ¿Cómo entrenar una red neuronal (Perceptron Multicapa)?


* Para entrenar una red neuronal es necesario seguir los siguientes pasos:

    1. ***Recopilar conjunto de datos*** (Cuantos más datos mejor).
    2. ***Diseñar una función de perdida*** (loss function) apropiada para el problema; por ejemplo:
        + ***MSE*** para problemas de regresión.
        + ***Cross Entropy*** para problemas de clasificación (Clasificación binaria: “binary crossentropy” y Clasificación Múltiple: “categorical_crossentropy”).
    3. ***Definir la arquitectura de la Red Neuronal*** y sus hiperparámetros.
        + Número de Capas y Neuronas por Capa.
        + Funciones de Activación.
        + Hiperparámetros: Learning Rate, Regularization Rate, Epochs, Batch Size, etc.
    4. ***Aplicar un algoritmo de optimización*** para minimizar la función de pérdida para que ajuste los pesos de la red (SGD: Stochastic Gradient Descent, RMSProp, Adam, etc.)





### 1.- Ejemplo de Clasificación con MLP (MultiLayer Perceptron)


* A continuación vamos a ver un ejemplo (paso por paso) de cómo resolver un problema de clasificación utilizando un perceptron multicapa.


* Recordemos que para entrenar una red neuronal es necesario seguir los siguientes pasos:

    1. ***Recopilar conjunto de datos***
    2. ***Diseñar una función de perdida***: Dado que estamos resolviendo un problema de clasificación, se propone utilizar como función de perdida:
        + binary crossentropy, para clasificación binaria
        + categorical_crossentropy, para clasificación multiple
    3. ***Definir la arquitectura de la Red Neuronal*** y sus hiperparámetros.
        + Capa de Entrada: Tantas neuronas como variables tenga nuestro problema
        + Numero de capas y neuronas por capa: Debemos de indicar una función de activación
        + ¿Dropout?¿Batch Normalization?
        + Capa de Salida: Al tratarse de un problema de clasificación, tendremos:
            - 1 Neurona si se trata de clasificación binaria. Se propone una función de activación sigmoidal.
            - 'N' Neuronas si se trata de una clasificación múltiple con 'N' clases. Se propone una función de activación softmax.
        + Hiperparámetros: Learning Rate, Regularization Rate, Epochs, Batch Size, etc.
    4. ***Aplicar un algoritmo de optimización*** para minimizar la función de pérdida para que ajuste los pesos de la red (SGD: Stochastic Gradient Descent, RMSProp, Adam, etc.)


* Vamos a resolver el problema de predicción de Churn


### 1.1.- Cargamos los datos

In [None]:
import pandas as pd

df = pd.read_csv("./sesion_IV/data/Churn.csv")
df.sample(5)

## 1.2.- Transformamos las variables categóricas y normalizamos los datos

* Cuando trabajamos con redes neuronales **es muy importante tener los datos normalizados** para facilitar el entrenamiento de la red neuronal.

In [None]:
from sklearn.preprocessing import LabelBinarizer, MinMaxScaler


# Binarizamos la varible género
lb = LabelBinarizer()
df['Gender'] = lb.fit_transform(df['Gender'])


# ONE-HOT encode de la variable Geography
df_dummy = pd.get_dummies(df['Geography'])
df = pd.concat([df, df_dummy], axis=1)
df = df.drop(columns='Geography')


# Ordenamos el DataFrame (features_cols + target_col)
target_col = 'Exited'
features_cols = df.loc[:, df.columns != target_col].columns.tolist()
df = df[features_cols + [target_col]]


# Normalizamos las variables - NO EL TARGET
min_max_scaler = MinMaxScaler()
df[features_cols] = min_max_scaler.fit_transform(df[features_cols])
df.sample(5)

## Partición datos en train y test

In [None]:
from sklearn.model_selection import train_test_split

X = df[features_cols]
y = df[target_col]

# División de datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### 1.4.- Definimos la arquitectura de la red neuronal


* Vamos a crear una red neuronal con la siguiente estructura:
    + Capa de Entrada: vamos a necesitar 12 neuronas en la capa de entrada - tenemos 12 variables
    + Capa oculta 1: 128 neuronas y función de activación 'relu'
    + Capa oculta 2: 64 neuronas y función de activación 'relu'
    + Capa oculta 3: 32 neuronas y función de activación 'relu'
    + Capa de salida: 1 neurona con función de activación Sigmoidal - problema de clasificación binaria - salida: {0, 1}
    
    
* Para definir la arquitectura de una red neuronal en TensorFlow lo hacemos con un objeto de la clase "Sequential" al que le vamos añadiendo capas "Densas" de neuronas.


* Al final con la función "summary()" nos muestra una descripción de la red neuronal. En esta caso es una red neuronal con 12033 pesos (parámetros) a ajustar:
    + Capa de entrada - Capa oculta 1 -> (12 neuronas) x (128 neuronas) + 128 bias = 1664 pesos
    + Capa oculta 1 - Capa oculta 2 -> (128 neuronas) x (64 neuronas) + 64 bias = 8256 pesos
    + Capa oculta 2 - Capa oculta 3 -> (64 neuronas) x (32 neuronas) + 32 bias = 2080 pesos
    + Capa oculta 3 - Capa de salida -> (32 neuronas) x (1 neurona) + 1 bias = 33 pesos
    + TOTAL = 1664 + 8256 + 2080 + 33 = 12033 pesos

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Definimos la Arquitectura de la Red Neuronal
# Creamos el modelo
model = Sequential()
model.add(Dense(128, input_dim=X_train.shape[1], activation='relu'))
model.add(Dense(64, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.summary()

### 1.5.- Diseño de la función de perdida y elección del optimizador - "compilación del modelo"


* Con el método "compile(*args)" vamos a definir:
    1. Función de perdida: Vamos a usar como función de perdida el binary_crossentropy al tratarse de un problema de clasificación binaria
    2. Optimizados: En este caso utilizaremos el optimizado Adam (optimizer='adam')
    
    
* Por otro lado también podemos definir que métricas de evaluación queremos monitorizar durante el entrenamiento de la red. En este caso particular vamos a monitorizar el Accuracy, la Precision y el Recall: Documentación a las métricas https://www.tensorflow.org/api_docs/python/tf/keras/metrics

In [None]:
from tensorflow.keras import metrics

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy',
                       metrics.Precision(),
                       metrics.Recall()])

### 1.6- Entrenamiento de la red neuronal

* Con el método "fit(*args)" entrenamos la red. A este método le vamos a pasar los siguientes parámetros:
    + `X`: conjunto de datos de entrenamiento
    + `y`: target del conjunto de datos de entrenamiento
    + `epochs`: indicar cuantas veces leerá el dataset para entrenar
    + `batch_size`: actuzalizará los pesos de la red tras evaluar el número de elementos del dataset que se le indique. Podemos indicar cuantos batches queremos tener en función del numero de elementos del dataset; por ejemplo, indicamos 150 batches diviendo el numero de elementos del dataset entre 150.
    + `class_weight`: dado que se trata de un problema de clasificación binaria desbalanceado, podemos indicarle el peso que damos a las clases como un diccionario de pesos. En la documentación de TensorFlow indica cómo calcular el peso de las clases: https://www.tensorflow.org/tutorials/structured_data/imbalanced_data?hl=es-419#class_weights

In [None]:
import numpy as np

num_class_0 = np.count_nonzero(y_train == 0)
num_class_1 = np.count_nonzero(y_train == 1)
num_total = len(y_train)
weight_0 = (1 / num_class_0) * (num_total / 2.0)
weight_1 = (1 / num_class_1) * (num_total / 2.0)

class_weight = {0: weight_0, 1: weight_1}

print('Elementos Clase 0: {} - Peso de la clase 0: {:.2f}'.format(num_class_0, weight_0))
print('Elementos Clase 1: {} - Peso de la clase 1: {:.2f}'.format(num_class_1, weight_1))

In [None]:
# Se fuerza a usar la CPU y no la GPU en caso de tener GPU en el ordenador
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '-1'

In [None]:
# Entrenamos el modelo
history =model.fit(X_train,
                   y_train,
                   epochs=50,
                   batch_size=int(X_train.shape[0]/150), # 8000 elementos / 150 batches -> batch_size 53 elementos
                   class_weight=class_weight,
                   verbose=1)

### 1.7.- Evaluación del Modelo


* Con la función "predict()" obtenemos las predicciones de los datos que les pasemos como parámetro. En este caso en el que estamos resolviendo un problema de clasificación, ***la predicción será el valor que nos devuelva la red neuronal que tiene como neurona de salida una función sigmoidal***, con lo cual no nos devolverá la etiqueta de la clase, si no que ***nos devolverá las probabilidad de pertenencia a la clase 1***. Para obtener la predicción de la clase debemos de:
    + Asignar clase 0 a aquellas salidas con valor menor o igual a 0.5
    + Asignar clase 1 a aquellas salidas con valor mayor a 0.5


* Con la función "evaluate()" obtenemos los valores de las métricas que hemos ido monitorizando durante el proceso de entrenamiento


* Con las predicciones podemos evaluar el rendimiento del modelo comparándolo con la salida esperada. Para ello podemos utilizar las funciones de evaluación proporcionadas por Scikit-Learn.


In [None]:
# Obtenemos las métricas con TensorFlow
metrics_train = model.evaluate(X_train, y_train)
metrics_test = model.evaluate(X_test, y_test)
print("\nNombres de las métricas: {}".format(model.metrics_names))
print("Resultados de las métricas Train: {}".format([round(elem, 4) for elem in metrics_train]))
print("Resultados de las métricas Test:  {}\n".format([round(elem, 4) for elem in metrics_test]))

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Obtenemos las predicciones
y_proba_predict_train = model.predict(X_train)
y_proba_predict_test = model.predict(X_test)
y_pred_train = np.where(y_proba_predict_train > 0.5, 1,0)
y_pred_test = np.where(y_proba_predict_test > 0.5, 1,0)

print("\nAccuracy train: {:.4f}".format(accuracy_score(y_true=y_train, y_pred=y_pred_train)))
print("Accuracy test: {:.4f}".format(accuracy_score(y_true=y_test, y_pred=y_pred_test)))
print("Precision train: {:.4f}".format(precision_score(y_true=y_train, y_pred=y_pred_train)))
print("Precision test: {:.4f}".format(precision_score(y_true=y_test, y_pred=y_pred_test)))
print("Recall train: {:.4f}".format(recall_score(y_true=y_train, y_pred=y_pred_train)))
print("Recall test: {:.4f}".format(recall_score(y_true=y_test, y_pred=y_pred_test)))
print("F1 train: {:.4f}".format(f1_score(y_true=y_train, y_pred=y_pred_train)))
print("F1 test: {:.4f}".format(f1_score(y_true=y_test, y_pred=y_pred_test)))


#### Matrices de confusión

In [None]:
import itertools
from sklearn.metrics import confusion_matrix

# Definimos el heatmap de la matriz de confusión
def plot_confusion_matrix(cm, classes, title, cmap=plt.cm.Greens):
    """
    This function prints and plots the confusion matrix.
    """
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, '{:.1f} %'.format(cm[i, j]), horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')


# Obtenemos las matrices de confusión
cfm_train = confusion_matrix(y_true=y_train, y_pred=y_pred_train)
cfm_train = (cfm_train.astype('float') / cfm_train.sum(axis=1)[:, np.newaxis]) * 100
cfm_test = confusion_matrix(y_true=y_test, y_pred=y_pred_test)
cfm_test = (cfm_test.astype('float') / cfm_test.sum(axis=1)[:, np.newaxis]) * 100

# Pintamos las matrices de confusión
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plot_confusion_matrix(cfm_train, classes=['0', '1'], title='Matriz de Confusión Datos Entrenamiento')
plt.subplot(1, 2, 2)
plot_confusion_matrix(cfm_test, classes=['0', '1'], title='Matriz de Confusión Datos Test')
plt.show()

##### Reglas no escritas
- El número de neuronas entre una capa oculta y la siguiente debe ser decreciente.
- El número de neuronas en  las capas ocultas es un número potencia de 2 (2, 4, 8, 16, etc.)
- La función de activación en las capas ocultas es ReLu (función que no satura la derivada y por tanto evita problemas de desvanecimiento de gradiente, pro puede provocar problemas con la explosión de gradiente).
- El batch size es una potencia de 2, y entre 32 y 512.
- Se normalizan los datos de entrada y se utiliza Batch Normalization siempre.



##### Links adicionales
[serie redes neuronales de DotCSV](https://www.youtube.com/watch?v=MRIv2IwFTPg&list=PL-Ogd76BhmcB9OjPucsnc2-piEE96jJDQ)

[Descenso del Gradiente](https://www.youtube.com/watch?v=A6FiCDoz8_4&pp=ygUdZGVzY2Vuc28gZGVsIGdyYWRpZW50ZSBkb3Rjc3Y%3D)

[serie redes neuronales de 3Blue1Brown (en  inglés)](https://www.youtube.com/watch?v=aircAruvnKk&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi)

[Playground redes neuronales](https://playground.tensorflow.org/)

[Open AI Microscope](https://openai.com/index/microscope/)

[TFG Javi Coque](https://github.com/JCOQUE/TFG-ingenieria/blob/main/Memoria/memoria-documento.pdf)
