<h1><font color="#113D68" size=6>Deep Learning con Python y Keras</font></h1>

<h1><font color="#113D68" size=5>Parte 3. Multilayer Perceptron</font></h1>

<h1><font color="#113D68" size=4>2. Desarrollar una red neuronal</font></h1>

<br><br>
<div style="text-align: right">
<font color="#113D68" size=3>Manuel Castillo Cara</font><br>

</div>

---

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>

* [0. Contexto](#section0)
* [1. Conjunto de datos](#section1)
* [2. Cargar datos](#section2)
* [3. Definir modelo](#section3)
* [4. Compilar modelo](#section4)
* [5. Ajustar modelo](#section5)
* [6. Evaluar modelo](#section6)
* [7. Hacer predicciones](#section7)


---
<a id="section0"></a>
# <font color="#004D7F" size=6> 0. Contexto</font>

En esta lección, diseñaremos nuestra primera red neuronal. Después de completar esta lección, sabrá:
* Cómo cargar un conjunto de datos para usar con Keras.
* Cómo diseñar y compilar un modelo de perceptrón multicapa en Keras.
* Cómo evaluar un modelo de Keras.

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section1"></a>
# <font color="#004D7F" size=6>1. Conjunto de datos</font>

En este tutorial vamos a utilizar el conjunto de datos Pima Indians Diabetes. Describe los datos de los registros médicos de los pacientes y si tuvieron una aparición de diabetes dentro de los cinco años. Es un problema de clasificación binaria (aparición de diabetes como 1 o 0 si no aparece). Las variables de entrada que describen a cada paciente son numéricas y tienen escalas variables.

Dado que todos los atributos son numéricos, es fácil de usar directamente con redes neuronales que esperan entradas y valores de salida numéricos.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Puede descargar el Dataset desde [Kaggle](https://www.kaggle.com/uciml/pima-indians-diabetes-database)

La precisión de la línea de base si se hacen todas las predicciones ya que no aparece la diabetes es del 65,1%. Los mejores resultados en el conjunto de datos están en el rango de 77,7% de precisión utilizando una validación cruzada de 10 veces.

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section2"></a>
# <font color="#004D7F" size=6>2. Cargar datos</font>

VAmos a cargar el archivo directamente usando la función `loadtxt()` de NumPy y establecer dividir las características y target.

In [3]:
import numpy as np

dataset = np.loadtxt('Datasets/pima-indians-diabetes.csv', delimiter=',') # array
X = dataset[:, 0:8] # características para determinar si tiene diabetes o no
y = dataset[:, 8] # variable de salida (clase=diabetes 1 o 0)

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section3"></a>
# <font color="#004D7F" size=6>3. Definir modelo</font>

Los modelos en Keras se definen como una secuencia de capas. Creamos un modelo **Secuencial** y agregamos capas de una en una hasta que estemos satisfechos con nuestra topología de red. 

Lo primero que debe hacer bien es asegurarse de que la capa de entrada tenga el número correcto de entradas. Esto se puede especificar al crear la primera capa con el argumento `input_dim` y establecerlo en 8. 

Pregunta, ¿Cómo sabemos la cantidad de capas que debemos usar y sus tipos? (prueba y error) 


En sí el procedimiento a utilizar será:
1. Las capas completamente conectadas se definen mediante la clase `Dense`. Se puede especificar:
    * El número de neuronas en la capa como primer argumento y 
    * Especificar la función de activación usando el parámetro `activation`.
2. Usaremos la función de activación ReLu en las dos primeras capas y la función de activación Sigmoidea en la capa de salida. 
3. Usamos una función de activación sigmoidea en la capa de salida para garantizar que la salida de nuestra red esté entre 0 y 1, al ser una clasificación binaria y poder ajustar fácilmente la probabilidad de acierto (ver propiedades de funciones). 

La siguiente figura proporciona una descripción de la estructura de la red.


<img src="images/2_redNeuronal.png" width="200" height="200" />

In [4]:
# La capa de entrada siempre debe poseer la misma cantidad de neuronas que de características, y la de salida la cantidad de posibles outputs o clasificaciones (1 si es binomial o 'n' si se trata de 'n' categorias)
from keras.models import Sequential # las capas van a estar determinadas de manera secuencial
from keras.layers import Dense # para poner capas conectadas entre si

# Definimos modelo keras
model = Sequential() 
model.add(Dense(12,input_dim=8,activation = 'relu')) # agregamos la primera capa oculta, la cual va a tener 12 neuronas (brindará 12 salidas) y recibirá 8 entradas (de las 8 características de la capa de entrada), tendrá tmb una función de activación relu
model.add(Dense(8,activation='relu')) # agregamos la segunda capa oculta, con 8 neuronas (salidas) y 12 entradas (de la capa oculta anterior), pero esta última no hace falta aclarar, ya que me la crea de manera secuancial a la anterior
model.add(Dense(1,activation='sigmoid')) # agregamos la capa de salida, con 1 neurona (salida) y función de activación sigmoid (0 o 1)

# El imput_dim solo se especifica en la primera capa oculta para indicar cuántas son las características de entrada, luego pasa a estar conectada
# Podemos probar variando la cantidad de capas ocultas, el número de neuronas en cada capa oculta y las funciones de activación para encontrar mayor acierto en las predicciones

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section4"></a>
# <font color="#004D7F" size=6>4. Compilar modelo</font>

Ahora que el modelo está definido, podemos compilarlo. 

Al compilar, debemos especificar algunas propiedades adicionales requeridas al entrenar la red (que es encontrar el mejor conjunto de pesos para hacer las mejores predicciones acerca del problema específico). 

Debemos especificar:
1. La función de pérdida que se utilizará para evaluar un conjunto de ponderaciones (métricas para evaluar algoritmos de Regresión y Clasificación), 
2. El optimizador utilizado para buscar entre diferentes ponderaciones para la red y
3. Cualquier métrica opcional que nos gustaría recopilar e informar durante el entrenamiento. 
    * En este caso usaremos la **pérdida logarítmica**, que para un problema de clasificación binaria se define como `binary_crossentropy`(función de pérdida para un problema de Clasificación Binaria). 
4. También usaremos el algoritmo de Gradiente Descendiente `adam` (para buscar los óptimos globales en la configuración de pesos)
5. Finalmente, debido a que es un problema de clasificación nuestra métrica será el Accuracy.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Obtenga más información sobre el algoritmo de optimización de Adam en el artículo [_Adam: A Method for Stochastic Optimization_](https://arxiv.org/abs/1412.6980)

In [7]:
# Compilamos el modelo de keras
model.compile(loss='binary_crossentropy',optimizer='adam', metrics=['accuracy']) # la función de pérdida para corregir los pesos es binary_crossentropy, el optimizador (GD) que usaremos es el adam (usarlo siempre) y las métricas a obtener para la evaluación de la red las agregamos a la lista (por ahora solo Accuracy, Clasificación)

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section5"></a>
# <font color="#004D7F" size=6>5. Ajustar modelo</font>

Hemos definido nuestro modelo y lo hemos compilado listo para un cálculo eficiente. Ahora es el momento de ejecutar el modelo en algunos datos llamando a la función `fit()`.
* El proceso de entrenamiento se ejecutará para un número fijo de iteraciones usando el argumento `epochs` (especificar). 
* También podemos establecer el número de instancias que se evalúan antes de que se realice una actualización de peso en la red, denominada tamaño de batch, y se establece mediante el argumento `batch_size` (para tender a la actualización de pesos globales). 

In [18]:
# Ajustamos nuestro modelo (específicamente su entrenamiento, mediante las características)
model.fit(X,y,epochs=150,batch_size=16) # Usamos 150 épocas y un tamaño de batch de 16 (podemos probar más épocas y mayor tamaño de batch)
# En este caso le estamos diciendo al modelo que elija de a 16 datos para corregir pesos
# Podemos ver en cada época la pérdida del modelo y su accuracy

Epoch 1/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7570 - loss: 0.5138
Epoch 2/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7657 - loss: 0.5069
Epoch 3/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7410 - loss: 0.5159
Epoch 4/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7524 - loss: 0.5170
Epoch 5/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7369 - loss: 0.5250
Epoch 6/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7566 - loss: 0.5279
Epoch 7/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7569 - loss: 0.5044
Epoch 8/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7560 - loss: 0.5086
Epoch 9/150
[1m48/48[0m [32m━━━━━━━━━━━━━━━━━

<keras.src.callbacks.history.History at 0x1bd775fcc50>

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section6"></a>
# <font color="#004D7F" size=6>6. Evaluar modelo</font>

Podemos evaluar tu modelo en tu conjunto de datos de entrenamiento usando la función de `evaluation()` y pasar la misma entrada y salida que usaste para entrenar el modelo.

In [19]:
# Vemos si el modelo (RN) efectivamente hace buenas predicciones o se ajusta poco a nuestros datos
_, accuracy = model.evaluate(X,y) # solo pedimos que nos muestre el accuracy
print(f'Accuracy: {accuracy*100:,.2f}%')

# El ajuste de nuestro modelo a los datos se ha establecido en torno al 78.26%
# El accuracy del modelo puede variar si ajustamos nuestro modelo nuevamente, ya que la asignación inicial de pesos sigue siendo aleatoria

[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1000us/step - accuracy: 0.7499 - loss: 0.4949
Accuracy: 78.26%


---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section7"></a>
# <font color="#004D7F" size=6>7. Hacer predicciones</font>

Podemos llamar a la función `predict_classes()` para predecir clases directamente, por ejemplo:

In [30]:
# Hacemos predicciones de clase con el modelo
# Podemos convertir la salida sigmoidal en una predicción binaria
predictions = (model.predict(X)> 0.5).astype("int32")  # guarda las predicciones para cada instancia que tenemos (datos no etiquetados)
predictions

[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step 


array([[1],
       [0],
       [1],
       [0],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
    

Veamos un ejemplo

In [31]:
# Vemos si predice bien nuestro set de datos
for i in range(10):
    print('%s ---> %d (real %d)' % (X[i].tolist(),predictions[i],y[i])) 
# Ponemos que nos muestre los 10 primeros valores de X (10 primeras instancias con sus 8 características) y luego nos muestre lo predicho por el modelo y entre parénteis lo real
# Podemos mejorar el resultado alternando las épocas, batch_size, capas ocultas, número de neuronas por capa oculta, funciones de activación (priorizar ReLu) y entrenando de vuelta el modelo para ver si con el factor de asignación aleatorio del principio me conduce a un mejor óptimo global
# Fijarse que pasa si añadimos otra capa oculta de 4 neuronas

[6.0, 148.0, 72.0, 35.0, 0.0, 33.6, 627.0, 50.0] ---> 1 (real 1)
[1.0, 85.0, 66.0, 29.0, 0.0, 26.6, 351.0, 31.0] ---> 0 (real 0)
[8.0, 183.0, 64.0, 0.0, 0.0, 23.3, 672.0, 32.0] ---> 1 (real 1)
[1.0, 89.0, 66.0, 23.0, 94.0, 28.1, 167.0, 21.0] ---> 0 (real 0)
[0.0, 137.0, 40.0, 35.0, 168.0, 43.1, 2288.0, 33.0] ---> 1 (real 1)
[5.0, 116.0, 74.0, 0.0, 0.0, 25.6, 201.0, 30.0] ---> 0 (real 0)
[3.0, 78.0, 50.0, 32.0, 88.0, 31.0, 248.0, 26.0] ---> 0 (real 1)
[10.0, 115.0, 0.0, 0.0, 0.0, 35.3, 134.0, 29.0] ---> 1 (real 0)
[2.0, 197.0, 70.0, 45.0, 543.0, 30.5, 158.0, 53.0] ---> 1 (real 1)
[8.0, 125.0, 96.0, 0.0, 0.0, 0.0, 232.0, 54.0] ---> 0 (real 1)


  print('%s ---> %d (real %d)' % (X[i].tolist(),predictions[i],y[i]))


Ejecutar el ejemplo no muestra la barra de progreso como antes, ya que hemos establecido el argumento `verbose` en 0. 

<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>