# 📝 **Práctica #1:** 🚀 Construcción de una red neuronal para la predicción de diabetes
[![Open in Colab](hhttps://colab.research.google.com/assets/colab-badge.svg)](hhttps://colab.research.google.com/github/LoboaTeresa/Workshop-COF/blob/master/Practica1_diabetes.ipynb)

### 1. Importar librerías necesarias

Usaremos [Keras](https://keras.io/) para la definición de nuestra red neuronal y [numpy](https://numpy.org/doc/stable/index.html) para varias operaciones matemáticas y lectura de nustro dataset.

In [None]:
import numpy
from sklearn.model_selection import train_test_split
from keras.models import Sequential
from keras.layers import Dense

seed = 7 # para la reproducibilidad del experimento
numpy.random.seed(seed)

### 2. Cargar el dataset: Pima Indians Diabetes Database

Este dataset procede del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales de EEUU. El objetivo de este dataset es diagnosticar si un paciente es diabético o no, basándose en 8 parámetros.

* 1990
* Dataset de clasificación binaria
* 8 parámetros reales y enteros
* 768 instancias
* 100% de os pacientes son mujeres, de la etnia india Pima y > 21 años de edad.


[link para descargar el dataset](https://www.kaggle.com/uciml/pima-indians-diabetes-database)




In [None]:
# Cargar el dataset de los indios Pima.
dataset = numpy.loadtxt("assets/pima-indians-diabetes.csv", delimiter=",")

# Dividir los datos en parámetros y label (o verdad).
X = dataset[:, 0:8]
Y = dataset[:, 8]

# Dividir los datos en entrenamiento y test.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, 
                                                    test_size=0.20, 
                                                    random_state=seed)

### 3. Definición de la arquitectura:

[Documentación de Keras](https://keras.io/api/layers/). Échale un ojo :)

Vamos a construir una red neuronal de 4 capas densas o completamente conectadas.

![Simple Network](assets/simple_network.png)

In [None]:
# Inicializamos el modelo de Keras
model = Sequential()

model.add(_INSERT_LAYER_HERE_(?, input_shape=?, activation='relu'))
model.add(_INSERT_LAYER_HERE_(?, activation='relu'))
model.add(_INSERT_LAYER_HERE_(?, activation='sigmoid'))

### 4. Compilar el modelo

Una vez que el modelo esta definido, se procede a compilarlo. Al compilar el modelo, se llama a las librerias en el backend, en nuestro caso Tensorflow. En este caso el backend automáticamente selecciona la mejor forma de representar la red neuronal para entrenamiento y realizar predicciones en el hardware. Cuando se compila el modelo, se deben definir algunas propiedades adicionales requeridas para el entrenamiento del modelo:

* **Función de pérdida** o loss function, que es utilizada para evaluar los pesos.
* **Optimizador** utilizado para buscar entre los pesos de la red y algunas métricas opcionales que se require colectar y reportar durante el entrenamiento.

En este ejemplo utilizaremos una función de perdida **binary cross entropy**, que es una función logarítmica de perdida. Se utilizará una función para los calcular los gradientes llamada **adam**.

Al ser un problema de clasificación binaria, se evaluará la precision de la clasificación utilizando accuracy (número de predicciones correctas/número de datos totales).

_Más info sobre binary cross entropy [aquí](https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a)._

_Más info sobre el optimizador Adam [aquí](https://machinelearningmastery.com/adam-optimization-algorithm-for-deep-learning/)_


In [None]:
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

### 5. Entrenar el modelo

Una vez que este definido y compilado tu modelo, es el momento de ejecutar el modelo con los datos.

El proceso de entrenamiento se ejecuta cierto numero de veces utilizando el dataset, este numero de veces es llamado epochs, y se define utilizando el parámetro _epochs_. También podemos definir el numero de instancias que son evaluadas antes de que los pesos sean actualizados en la red neuronal. Este parámetro se llama _batch size_.

En este problema se definirá un numero pequeño de epochs (150) y un valor relativamente pequeño de el batch (10).

In [None]:
model.fit(X_train, Y_train, epochs=150, batch_size=10)

### 6. Evalúa tu modelo

Ahora que hemos entrenado nuestro modelo utilizando el dataset completo, debemos evaluar el rendimiento de la red neuronal. Estos nos data una idea que tan bien modelamos nuestro dataset, pero no tendremos idea como se desempeñara el modelo con datos nuevos.

En la realidad se debe de separar el dataset de training y el dataset de testing.

In [None]:
_, accuracy = model.evaluate(X_test, Y_test, verbose=0)
print('Accuracy: %.2f' % (accuracy*100))

### 7. Realiza una predicción (inferencia)

In [None]:
# make class predictions with the model
predictions = (model.predict(X_test) > 0.5).astype(int)

# summarize the first 5 cases
for i in range(5):
 print('%s => %d (expected %d)' % (X[i].tolist(), predictions[i], Y[i]))

**¡BUEN TRABAJO!** Ahora que hemos entrenado nuestro modelo, podemos utilizarlo para realizar predicciones sobre datos nuevos.

### 8. Conclusión

Hemos seguido los siguientes pasos:

* Cargar datos.
* Definir el modelo de la red neuronal en Keras.
* Compilar el modelo.
* Entrenar el modelo.
* Evaluar el modelo con datos