# Ejercicio 1. Red Neuronal en Keras y ScikitLearn

En este primer ejercicio tendrás que trabajar con **Keras** y **ScikitLearn** para construir una red neuronal artificial multicapa que se ajuste a los datos en el fichero CSV que se adjunta: *diabetes.csv*

Este fichero contiene el diagnóstico de diabetes de los indios Pima. Basado en datos personales (edad, número de
veces de embarazo) y los resultados de los reconocimientos médicos (por ejemplo, presión sanguínea, índice de masa corporal, resultado de la prueba de tolerancia a la glucosa, etc.), intenta decidir si un indio Pima tiene diabetes o no.

![pima](img/pima.jpg)

## 1. Enunciado

Basándote en la Práctica 3.2 (Keras vs SKLearn), y usando el dataset adjunto (ver apartado 3), crea **al menos 4** redes neuronales con arquitecturas distintas usando Keras. Como mínimo deben diferir **siempre** en los siguientes aspectos:
* Aspecto 1: El número de capas, nodos en ellas, y función de activación en las capas ocultas (pueden ser distintas según la capa).
* Aspecto 2: Factor de aprendizaje, número de épocas, y/o función de pérdida
* Aspecto 3: Método de optimización (SGD, Adam, RMSprop, Adagrad...).

Por ejemplo, una red debe tener un número distinto de capas, número de épocas y método de optimización. Esta vez estamos en un problema de *clasificación binaria*, por lo que no tienes que convertir a one-hot la variable objetivo. Según lo visto en el módulo 2, ¿Qué tipo de capa de salida necesitamos? Puedes hacer uso de la [referencia de Keras](https://keras.io/api/).

Particiona el conjunto de datos en subconjunto de entrenamiento y de test (indica el % que has usado para cada uno). Explica brevemente cada red diseñada y las razones de su configuración, así como los elementos empleados (es decir, explicar brevemente qué es ReLU si se utiliza, etc.) Analiza los resultados obtenidos para cada combinación. ¿Cuándo converge más?

## 2. Entrega

La entrega de este ejercicio se realiza a través de la tarea creada para tal efecto en Enseñanza Virtual. Tienes que __entregar un notebook, y el HTML generado__ a partir de él, cuyas celdas estén ya evaluadas.

La estructura del notebook debe contener los siguientes apartados:

0. Cabecera: nombre y apellidos.
1. Dataset: descripción y carga.
2. Preparación de los datos para ser usados en tensorflow.
3. Modelos creados en Keras (un sub-apartado para cada uno, explicando de forma razonada, con tus palabras y usando figuras, la arquitectura y su configuración, indicando además cómo los has implementado con tensorflow).
4. Entrenamiento y evaluación de cada modelo creado (un sub-apartado para cada uno).
5. Análisis de resultados.
6. Bibliografía utilizada (enlaces web, material de clase, libros, etc.).

### 2.1. Nota importante
-----
**HONESTIDAD ACADÉMICA Y COPIAS: un trabajo práctico es un examen, por lo que
debe realizarse de manera individual. La discusión y el intercambio de
información de carácter general con los compañeros se permite (e incluso se
recomienda), pero NO AL NIVEL DE CÓDIGO. Igualmente el remitir código de
terceros, OBTENIDO A TRAVÉS DE LA RED o cualquier otro medio, se considerará
plagio.**

**Cualquier plagio o compartición de código que se detecte significará
automáticamente la calificación de CERO EN LA ASIGNATURA para TODOS los
alumnos involucrados. Por tanto a estos alumnos NO se les conservará, para
futuras convocatorias, ninguna nota que hubiesen obtenido hasta el momento.
SIN PERJUICIO DE OTRAS MEDIDAS DE CARÁCTER DISCIPLINARIO QUE SE PUDIERAN
TOMAR.**

-----

## 3. El Dataset

El siguiente código cargará los datos del fichero CSV adjunto al completo en las variables `X`e `Y`. Deberás hacer una división para conjunto de test y de train, razonando debidamente por qué has elegido el tamaño de cada conjunto.

ANTONIO PACE

In [115]:
# Importamos los paquetes necesarios
import numpy as np
import pandas as pd

The dataset contained in "diabetes.csv" contains information about diabetes diagnosis of Pima indians, based on personal information and medical examinations like blood pressure and glucose concentration. The dataset has already been normalized and cleaned from missing values.

In [116]:
# Lectura del dataset
train = pd.read_csv("diabetes.csv")

In [117]:
X, Y = np.array(train.iloc[:,0:8]), np.array(train.iloc[:,9])

Split the dataset into **training set** and **test set**, 80%-20%

In [118]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

In [119]:
X_train

array([[0.529412 , 0.85     , 0.606557 , ..., 0.655738 , 0.13877  ,
        0.366667 ],
       [0.470588 , 0.56     , 0.590164 , ..., 0.351714 , 0.325363 ,
        0.616667 ],
       [0.588235 , 0.575    , 0.803279 , ..., 0.357675 , 0.403074 ,
        0.216667 ],
       ...,
       [0.352941 , 0.465    , 0.409836 , ..., 0.42772  , 0.118702 ,
        0.0333333],
       [0.0588235, 0.82     , 0.672131 , ..., 0.488823 , 0.112297 ,
        0.483333 ],
       [0.117647 , 0.55     , 0.606557 , ..., 0.482861 , 0.264731 ,
        0.1      ]])

Converting labels to float64.
I tried to create validation sets but we already have a small dataset so the results were not convenient.

In [120]:
y_train = np.asarray(y_train).astype('float64')
y_test = np.asarray(y_test).astype('float64')
#X_valid, X_train2 = X_train[:50], X_train[50:]
#y_valid, y_train2 = y_train[:50], y_train[50:]

Start creating the model. It's a binary classification problem (positive or negative to diabete) so we can use *sigmoid* as the activation function on the output layer. For a first try we use, other than the input layer, an hidden layer with 16 nodes and only one output layer since it's binary classification.

In [121]:
from tensorflow import keras

model = keras.models.Sequential()
model.add(keras.layers.Dense(16,activation="relu",input_shape=(X_train.shape[1],)))
model.add(keras.layers.Dense(1,activation="sigmoid"))

Again, since it's binary classification, we use binary crossentropy as *loss function*, for the optimizer we try with *adam*. The metric will be the accuracy of the prediction.

In [122]:
from keras.optimizers import SGD, Adam, RMSprop, Adagrad

model.compile(loss="binary_crossentropy",
              optimizer=Adagrad(),
              metrics=["accuracy"])

In [123]:
history = model.fit(X_train, y_train, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [124]:
model.evaluate(X_test, y_test)



[0.6559234261512756, 0.6623376607894897]

In [125]:
model.evaluate(X_train, y_train)



[0.6603580713272095, 0.653094470500946]

The accuracy is very low both in test and training set. Let's try with other parameters, adding a layer and adding nodes, using SGD as the optimizer.

In [126]:
model2 = keras.models.Sequential()
model2.add(keras.layers.Dense(64,activation="relu",input_shape=(X_train.shape[1],)))
model2.add(keras.layers.Dense(16,activation="sigmoid"))
model2.add(keras.layers.Dense(1,activation="sigmoid"))

In [127]:
model2.compile(loss="binary_crossentropy",
              optimizer="sgd",
              metrics=["accuracy"])

In [128]:
history2 = model2.fit(X_train, y_train, epochs=25,batch_size=64)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [129]:
model2.evaluate(X_test, y_test)



[0.6296935081481934, 0.6623376607894897]

In [130]:
model2.evaluate(X_train, y_train)



[0.6378808617591858, 0.6482084393501282]

With this setting the accuracy is  still not so satisfying.

In [170]:
model4 = keras.models.Sequential()
model4.add(keras.layers.Dense(200,activation="relu",input_shape=(X_train.shape[1],)))
model4.add(keras.layers.Dense(100,activation="relu"))
model4.add(keras.layers.Dense(50,activation="tanh"))
model4.add(keras.layers.Dense(1,activation="sigmoid"))

In [171]:
model4.compile(loss="binary_crossentropy",
              optimizer=Adam(),
              metrics=["accuracy"])

In [172]:
history4 = model4.fit(X_train, y_train, epochs=40,batch_size=64)

Epoch 1/40
Epoch 2/40
Epoch 3/40
Epoch 4/40
Epoch 5/40
Epoch 6/40
Epoch 7/40
Epoch 8/40
Epoch 9/40
Epoch 10/40
Epoch 11/40
Epoch 12/40
Epoch 13/40
Epoch 14/40
Epoch 15/40
Epoch 16/40
Epoch 17/40
Epoch 18/40
Epoch 19/40
Epoch 20/40
Epoch 21/40
Epoch 22/40
Epoch 23/40
Epoch 24/40
Epoch 25/40
Epoch 26/40
Epoch 27/40
Epoch 28/40
Epoch 29/40
Epoch 30/40
Epoch 31/40
Epoch 32/40
Epoch 33/40
Epoch 34/40
Epoch 35/40
Epoch 36/40
Epoch 37/40
Epoch 38/40
Epoch 39/40
Epoch 40/40


In [168]:
model4.evaluate(X_test, y_test)



[0.6727242469787598, 0.6623376607894897]

In [169]:
model4.evaluate(X_train, y_train)



[0.690226674079895, 0.6482084393501282]

Still very bad results.

In [178]:
model3 = keras.models.Sequential()
model3.add(keras.layers.Dense(100,activation="relu",input_shape=(X_train.shape[1],)))
model3.add(keras.layers.Dense(50,activation="relu"))
model3.add(keras.layers.Dense(25,activation="relu"))
model3.add(keras.layers.Dense(1,activation="sigmoid"))

In [179]:
model3.compile(loss="binary_crossentropy",
              optimizer=RMSprop(learning_rate=0.001),
              metrics=["accuracy"])

In [180]:
history3 = model3.fit(X_train, y_train, epochs=50,batch_size=64)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


In [181]:
model3.evaluate(X_test, y_test)



[0.5417773723602295, 0.7922077775001526]

In [182]:
model3.evaluate(X_train, y_train)



[0.42708754539489746, 0.7964169383049011]

We reached 80% of accuracy, better than before. The strange thing is an accuracy so low on the training set, maybe because in the dataset there are several 0 values.