<div style="width: 100%; clear: both;">
<div style="float: right; width: 40%;">
<img src="http://mat.uab.cat/~tonilb/aa2/img/logo_uab.png", alt="Logo UAB", align="left", width="500">
</div>
<div style="float: left; width: 60%;">
<p style="margin: 0; padding-top: 10px; font-size:24px; font-weight:bold;">Análisis de Datos en Salud</p>
<p style="margin: 0; padding-top: 10px; font-size:20px;">Inteligencia Artificial y Big Data en Salud</p>
<p style="margin: 0; padding-top: 5px; font-size:20px;">Curso 2020-2021</p>
</div>
</div>

# Actividad Unidad 8: Redes neuronales completamente conectadas

En esta actividad utilizaremos un conjunto de datos con registros médicos para entrenar una red neuronal que prediga cuando una paciente padece diabetes. La descripción del conjunto de datos se puede encontrar en el siguiente enlace:

[https://www.kaggle.com/uciml/pima-indians-diabetes-database](https://www.kaggle.com/uciml/pima-indians-diabetes-database)

La actividad consiste en analizar brevemente los datos y entrenar una red neuronal para la clasificación de las pacientes. La entrega se debe realizar a través del Campus Virtual antes del día 28 de marzo y debe consistir en un fichero zip con dos archivos:

* El notebook de Python descargado de la plataforma Kaggle con todo el código desarrollado para la actividad.
* Una presentación con 8-10 slides, en formato pdf, que contenga los siguientes apartados:
  * Análisis descriptivo de las variables que se consideren más importantes.
  * Descripción del preprocesado de las variables.
  * Especificación de la arquitectura de la red neuronal implementada.
  * Especificación de los parámetros utilizados en el entrenamiento (función de coste, optimizador, etc).
  * Resumen de los experimentos realizados.
  * Resultados y conclusiones.

## 0. Inicialización y carga de datos

In [None]:
# Cargamos las librerías necesarias

import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Leemos el conjunto de datos y mostramos por pantalla los primeros registros

df = pd.read_csv("/kaggle/input/pima-indians-diabetes-database/diabetes.csv")
df.head()

## 1. Preprocesado de datos

In [None]:
# Mostramos el número de registros y el número de variables en el conjunto de datos

print("Número de registros en el conjunto de datos: {}".format(len(df)))
print("Número de variables en cada registro: {}".format(len(df.columns)))

In [None]:
# Separamos la categoría de cada ejemplo en una nueva variable y calculamos el número de casos de cada categoría

outcome = df["Outcome"]
outcome.value_counts()

In [None]:
# Limpieza y preprocesado de datos: decido no eliminar variables, me parece que todas son relevantes para el análisis de la enfermedad que se queire detectar -Diabetes.
# Análisis descriptivo de variables

df.describe()

In [None]:
df["Age"].hist()
plt.show

In [None]:
df["Glucose"].replace(0,120.89)


In [None]:
df["BloodPressure"].replace(0,69.10)

In [None]:
df["SkinThickness"].replace(0,20.53)

In [None]:
df["Insulin"].replace(0,79.79)

In [None]:
df["BMI"].replace(0,31.99)

In [None]:
df["DiabetesPedegreeFunction"].replace(0,0.47)

In [None]:
df["Age"].replace(0,33.24)

In [None]:
#visualizo nuevo dataset con los datos reemplazados (imputación)

df.describe()

In [None]:
import pandas as pd
df = pd.read_csv("/kaggle/input/pima-indians-diabetes-database/diabetes.csv")

df1 = df.drop("Pregnancies", 1).drop("Outcome", 1).replace(0, df.mean())

pr = df["Pregnancies"]
ou = df["Outcome"]
df1 = df1.join(pr).join(ou)


In [None]:
df.describe()

In [None]:
# Normalizamos los valores de las variables para que tengan media 0 y varianza 1

df = (df - df.mean())/df.std()
df.head()

In [None]:
# No se requiere modificar la variable outcome / diagnóstico, porque viene representada en valores 0= no diabetes,  1= diabetes

## 2. Definición y entrenamiento de una red neuronal para clasificación

In [None]:
# Entrenamiento de la red neuronal

In [None]:
# Definimos la arquitectura de la red neuronal

model = tf.keras.Sequential()

model.add(tf.keras.layers.Dense(10, activation="relu", input_dim=(8)))
model.add(tf.keras.layers.Dense(10, activation="relu"))
model.add(tf.keras.layers.Dense(2, activation="softmax"))

model.compile(optimizer="Adam", loss="sparse_categorical_crossentropy", metrics=["accuracy"])

model.summary()

In [None]:
# Definimos funciones auxiliares para mostrar de forma gráfica la evolución del entrenamiento

def accuracy_plot(history):
    plt.plot(history.history["accuracy"])
    plt.plot(history.history["val_accuracy"])
    plt.title("Model accuracy")
    plt.ylabel("Accuracy")
    plt.xlabel("Epoch")
    plt.legend(["Train_acc", "Test_acc"], loc="upper left")
    plt.show()
    
def loss_plot(history):
    plt.plot(history.history["loss"])
    plt.plot(history.history["val_loss"])
    plt.title("Model loss")
    plt.ylabel("Loss")
    plt.xlabel("Epoch")
    plt.legend(["Train_loss", "Test_loss"], loc="upper left")
    plt.show()

In [None]:
# Mostramos las gráficas con la evolución de la función de coste y de la precisión

accuracy_plot(history)
loss_plot(history)

In [None]:
# Creamos un nuevo modelo utilizando únicamente la parte codificador del autoencoder

encoder = tf.keras.Model(inputs=autoencoder.input, outputs=autoencoder.get_layer("central").output)
encoder.summary()

In [None]:
# Definimos funciones auxiliares para mostrar de forma gráfica la evolución del entrenamiento

def accuracy_plot(history):
    plt.plot(history.history["accuracy"])
    plt.plot(history.history["val_accuracy"])
    plt.title("Model accuracy")
    plt.ylabel("Accuracy")
    plt.xlabel("Epoch")
    plt.legend(["Train_acc", "Test_acc"], loc="upper left")
    plt.show()
    
def loss_plot(history):
    plt.plot(history.history["loss"])
    plt.plot(history.history["val_loss"])
    plt.title("Model loss")
    plt.ylabel("Loss")
    plt.xlabel("Epoch")
    plt.legend(["Train_loss", "Test_loss"], loc="upper left")
    plt.show()