# Ejercicio 1. Red Neuronal en Keras y ScikitLearn

En este primer ejercicio tendrás que trabajar con **Keras** y **ScikitLearn** para construir una red neuronal artificial multicapa que se ajuste a los datos en el fichero CSV que se adjunta: *diabetes.csv*

Este fichero contiene el diagnóstico de diabetes de los indios Pima. Basado en datos personales (edad, número de 
veces de embarazo) y los resultados de los reconocimientos médicos (por ejemplo, presión sanguínea, índice de masa corporal, resultado de la prueba de tolerancia a la glucosa, etc.), intenta decidir si un indio Pima tiene diabetes o no.

![pima](img/pima.jpg)

## 1. Enunciado

Basándote en la Práctica 3.2 (Keras vs SKLearn), y usando el dataset adjunto (ver apartado 3), crea **al menos 4** redes neuronales con arquitecturas distintas usando Keras. Como mínimo deben diferir **siempre** en los siguientes aspectos:
* Aspecto 1: El número de capas, nodos en ellas, y función de activación en las capas ocultas (pueden ser distintas según la capa).
* Aspecto 2: Factor de aprendizaje, número de épocas, y/o función de pérdida
* Aspecto 3: Método de optimización (SGD, Adam, RMSprop, Adagrad...).

Por ejemplo, una red debe tener un número distinto de capas, número de épocas y método de optimización. Esta vez estamos en un problema de *clasificación binaria*, por lo que no tienes que convertir a one-hot la variable objetivo. Según lo visto en el módulo 2, ¿Qué tipo de capa de salida necesitamos? Puedes hacer uso de la [referencia de Keras](https://keras.io/api/).

Particiona el conjunto de datos en subconjunto de entrenamiento y de test (indica el % que has usado para cada uno). Explica brevemente cada red diseñada y las razones de su configuración, así como los elementos empleados (es decir, explicar brevemente qué es ReLU si se utiliza, etc.) Analiza los resultados obtenidos para cada combinación. ¿Cuándo converge más?

## 2. Entrega

La entrega de este ejercicio se realiza a través de la tarea creada para tal efecto en Enseñanza Virtual. Tienes que __entregar un notebook, y el HTML generado__ a partir de él, cuyas celdas estén ya evaluadas.

La estructura del notebook debe contener los siguientes apartados:

0. Cabecera: nombre y apellidos.
1. Dataset: descripción y carga.
2. Preparación de los datos para ser usados en tensorflow.
3. Modelos creados en Keras (un sub-apartado para cada uno, explicando de forma razonada, con tus palabras y usando figuras, la arquitectura y su configuración, indicando además cómo los has implementado con tensorflow).
4. Entrenamiento y evaluación de cada modelo creado (un sub-apartado para cada uno).
5. Análisis de resultados.
6. Bibliografía utilizada (enlaces web, material de clase, libros, etc.).

### 2.1. Nota importante
-----
**HONESTIDAD ACADÉMICA Y COPIAS: un trabajo práctico es un examen, por lo que
debe realizarse de manera individual. La discusión y el intercambio de
información de carácter general con los compañeros se permite (e incluso se
recomienda), pero NO AL NIVEL DE CÓDIGO. Igualmente el remitir código de
terceros, OBTENIDO A TRAVÉS DE LA RED o cualquier otro medio, se considerará
plagio.** 

**Cualquier plagio o compartición de código que se detecte significará
automáticamente la calificación de CERO EN LA ASIGNATURA para TODOS los
alumnos involucrados. Por tanto a estos alumnos NO se les conservará, para
futuras convocatorias, ninguna nota que hubiesen obtenido hasta el momento.
SIN PERJUICIO DE OTRAS MEDIDAS DE CARÁCTER DISCIPLINARIO QUE SE PUDIERAN
TOMAR.**

-----

## 3. El Dataset

El siguiente código cargará los datos del fichero CSV adjunto al completo en las variables `X`e `Y`. Deberás hacer una división para conjunto de test y de train, razonando debidamente por qué has elegido el tamaño de cada conjunto.

In [1]:
# Importamos los paquetes necesarios
import numpy as np
import pandas as pd

In [2]:
# Lectura del dataset
train = pd.read_csv("diabetes.csv")

In [3]:
X, Y = np.array(train.iloc[:,0:8]), np.array(train.iloc[:,9])

In [4]:
X.shape

(768, 8)

In [5]:
Y.shape

(768,)

In [6]:
# print(X[0:10])

In [7]:
print(Y[0:10])

[0 1 1 1 1 0 0 1 1 1]


# Alfonso Alarcón Tamayo

# Dataset: descripción y carga.




# Descripción

Para este primer ejercicio vamos a aprender a extraer,manejar e interpretar la información que se encuentra dentro del archivo "diabetes.csv"

Este fichero contiene el diagnóstico de los indios Pima indicando según características si esa persona padece o no diabetes. Los datos que se han estudiado para determinar si una persona padece o no diabetes son: 

* veces que ha estado embarazada (times_pregnant)
* concentracion de glucosa (glucose_concentration)
* presion arterial (blood_pressure)
* grosor de la piel (skin_thickness)
* nivel de insulina (serum_insulin)
* peso/masa corporal (body_mass)
* antecedentes familiares relacionados con la diabetes (diabetes_pedigree)
* edad (age)

Todos las características estudiadas están presentadas como variables numéricas

El dataset es para crear una red neuronal a partir de la información del .csv, el cual trae 768 indios con características o antecedentes familiares y una clasificación binaria de si esa persona sufre diabetes, con el fin de aprender  y crear la red neuronal que ayude a encontrar


![pima](img/pima.jpg)

# Carga de los datos

Bueno en primer lugar voy a importar varios métodos y librerias que voy a necesitar en la carga y creación de los modelos

In [8]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

#Keras
from tensorflow import keras
from keras.models import Sequential
from keras.layers import Activation, Dense
from keras.utils import to_categorical, normalize
from keras.optimizers import SGD,Adam,RMSprop,Adagrad




Para la lectura de los datos vamos a cargar la información del documento .csv como hemos visto en las prácticas, en primer lugar usaremos el método read_csv de pandas para cargar la información del excel en una variable.

Con el comando train.shape podemos ver la estructura que tiene train, el cual consta de 768 personaslas cuales tienen 10 características

In [9]:
# Lectura del dataset
train = pd.read_csv("diabetes.csv")
print(train.shape)

(768, 10)


Vamos a ver la estructura llamando directamente a train

In [10]:
train

Unnamed: 0,times_pregnant,glucose_concentration,blood_pressure,skin_thickness,serum_insulin,body_mass,diabetes_pedigree,age,diabetes,no_diabetes
0,0.176471,0.605,0.426230,0.00,0.000000,0.536513,0.020922,0.066667,1,0
1,0.352941,0.720,0.590164,0.27,0.269504,0.505216,0.075576,0.316667,0,1
2,0.117647,0.875,0.721311,0.00,0.000000,0.341282,0.105892,0.016667,0,1
3,0.705882,0.605,0.639344,0.17,0.000000,0.394933,0.077284,0.683333,0,1
4,0.117647,0.535,0.606557,0.30,0.118203,0.500745,0.139197,0.033333,0,1
...,...,...,...,...,...,...,...,...,...,...
763,0.117647,0.280,0.459016,0.28,0.053192,0.360656,0.108454,0.016667,0,1
764,0.117647,0.545,0.754098,0.00,0.000000,0.636364,0.327498,0.550000,0,1
765,0.176471,0.450,0.639344,0.00,0.000000,0.636364,0.205380,0.000000,0,1
766,0.058824,0.510,0.606557,0.00,0.000000,0.588674,0.091802,0.350000,1,0


## Preparación de los datos para ser usados en tensorflow.


Como hemos visto en teoría los datos para utilizar los datos con keras y tensorflow, tenemos que hacer una serie de preparativos para que los datos nos proporcionen información de manera correcta:

* Lo primero que tendríamos que tener en cuenta es que Keras no acepta cadenas de texto como etiquetas por lo que tendríamos que codificar las etiquetas si fuese necesario para que devolviesen un valor de forma numérica, en nuestro caso los datos devuelven un valor 1 o 0 si sufre o no diabetes por lo que en este caso no sería necesario, un ejemplo que tendríamos que cambiar las etiquetas es si nos devolviesen diabetes tipo 1 o tipo 2, en este caso tendríamos que transformarlo a forma binaria, siendo el caso que es un 1 y el resto 0.

* En segundo lugar en keras es necesario *Normalizar* las variables de entrada,como hemos visto en la parte teórica las redes neuronales son sensibles a las escalas de las caracteristicas y bueno, como el gradiente tiene en cuenta los valores de entrada, unos valores que difieran mucho o muy grandes pueden provocar cambios bruscos

Del conjunto no todas las caracteristicas nos sirven de la misma manera ya que las últimas dos hacen referencia a si la persona es diabetica o no, por lo que separaremos en dos conjuntos, los valores de las caractertisticas en dos conjuntos (X) y la clasificación si es diabética (y)

In [11]:
X, y = np.array(train.iloc[:,0:8]), np.array(train.iloc[:,9])

Finalmente con train_test_split podemos crear los subconjuntos de entrenamiento y de prueba. Con train test podemos especificar como queremos hacer la distribución de las muestras entre los dos conjuntos, en este caso al disponer de 768 muestras considero que el conjunto es pequeño y la distribución deberia hacerse de un 75% para entrenamiento y 25% para prueba

In [12]:
train_X, test_X, train_y, test_y = train_test_split(X, y, train_size=0.75, test_size=0.25, random_state=0)


# Modelos creados en Keras (un sub-apartado para cada uno, explicando de forma razonada, con tus palabras y usando figuras, la arquitectura y su configuración, indicando además cómo los has implementado con tensorflow).

Los parámetros que vamos a cambiar en nuestros modelos son:

    Número de capas: Como su nombre indica representa el número de capas de la red neuronal
    Nodos de las capas: Son las neuronas que tiene cada capa
    
    Factor de aprendizaje: Con este hiper parámetro controlamos el número de pasos que toma el optimizador desde el 
    Numero de épocas: Indica cuantas veces vamos a recorrer el conjunto durante el entrenamiento
    Función de pérdida: Es la que mide la diferencia entre las predicciones del modelo y las salida real durante el entrenamiento. Para problemas de clasificación binaria, 'binary_crossentropy' es la más común pero como en el enunciado piden que para cada caso sea distinto probaremos con distintas
    
    Método de optimización: Es el algoritmo que calcula los pesos durante el entrenamiento
    
    
    Para implementar tensorflow tenemos que definir el modelo, que será como hemos visto un conjunto de capas, esto se hace con un modelo secuencial (model = Sequential()), después tenemos que especificar la capa de entrada con el nº de características de entrada (8 en este ejemplo) y su respectiva función de activación. para cada capa debemos añadir la función y el número de neuronas.
    La última capa será la de salida que en este ejemplo será de sigmoide ya que estamos en clasificación binaria.
    
    
    


 ##  <center> Modelo 1 </center>


* Aspecto 1: 
    * El número de capas, nodos en ellas : 2 capas una oculta (16 neuronas) y una de salida(1 neurona)
    * función de activación en las capas ocultas: una sola capa softmax
    
* Aspecto 2: 
    * Factor de aprendizaje : 0.002
    * número de épocas : 225
    * función de pérdida : binary_crossentropy (buena para clasificación binaria)
    
* Aspecto 3: Método de optimización
    * Adam: Mejora el rendimiento con parametros dispersos y se adapta bien cuando hay ruido. Adam  es un algoritmo de optimización que combina las ventajas de los algoritmos RMSprop y Momentum para mejorar el proceso de aprendizaje.

* Softmax: aunque se suele usar en problemas multiclase de salida, devuelve las % de que pertenezca a la clase siendo la suma de todas las % de 1 (ej: 0,7 diabetes+0,3Nodiabetes=1)

In [13]:
model1 = Sequential()
# Capa oculta
model1.add(Dense(16, input_shape=(8,)))
model1.add(Activation('softmax'))
#Capa salida
model1.add(Dense(1))
model1.add(Activation('sigmoid'))


model1.compile(optimizer=Adam(learning_rate=0.002), loss='binary_crossentropy', metrics=["accuracy"])

model1.summary()


Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 16)                144       
                                                                 
 activation (Activation)     (None, 16)                0         
                                                                 
 dense_1 (Dense)             (None, 1)                 17        
                                                                 
 activation_1 (Activation)   (None, 1)                 0         
                                                                 
Total params: 161 (644.00 Byte)
Trainable params: 161 (644.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


 ##  <center> Modelo 2 </center>


* Aspecto 1: 
    * El número de capas, nodos en ellas : 3 capas, 2 ocultas (16,8 neuronas respectivamente) y una de salida(1 neurona)
    * función de activación en las capas ocultas: las dos ocultas con tahn
    
* Aspecto 2: 
    * Factor de aprendizaje : 0.01
    * número de épocas : 150
    * función de pérdida : mean_squared_error
    
* Aspecto 3: Método de optimización
    * SDG: es el Descenso de Gradiente Estocástico este en cada iteracion coje un ejemplo aleatorio lo que evita minimos locales pero hace muchos calculos redundantes
   
* tanh : esta función limita los valores en -1 y 1, asi que los valores muy altos/bajos se aproximarán a esos números respectivamente aunque si se satura afecta al gradiente

In [14]:
model2 = Sequential()
# Capa oculta
model2.add(Dense(16, input_shape=(8,)))
model2.add(Activation('tanh'))
#capa oculta 2
model2.add(Dense(8))
model2.add(Activation('tanh'))
#Capa salida
model2.add(Dense(1))
model2.add(Activation('sigmoid'))


model2.compile(optimizer=SGD(learning_rate=0.01, momentum=0.9), loss='mean_squared_error', metrics=["accuracy"])

model2.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 16)                144       
                                                                 
 activation_2 (Activation)   (None, 16)                0         
                                                                 
 dense_3 (Dense)             (None, 8)                 136       
                                                                 
 activation_3 (Activation)   (None, 8)                 0         
                                                                 
 dense_4 (Dense)             (None, 1)                 9         
                                                                 
 activation_4 (Activation)   (None, 1)                 0         
                                                                 
Total params: 289 (1.13 KB)
Trainable params: 289 (1.1

 ##  <center> Modelo 3 </center>


* Aspecto 1: 
    * El número de capas, nodos en ellas : 4 capas, 3 ocultas (64,32,16 neuronas respectivamente) y una de salida(1 neurona)
    * función de activación en las capas ocultas: las tres con relu
    
* Aspecto 2: 
    * Factor de aprendizaje : 0.001
    * número de épocas : 75
    * función de pérdida : mean_absolute_error
    
* Aspecto 3: Método de optimización
    * RMSprop:  Bueno para problemas que recibimos constantes datos, es bueno para problemas donde el gradiente varie
    
* relu : Da una salida igual a cero cuando la entrada es negativa, y una salida igual a la entrada cuando es positiva, no se satura y es muy eficiente pero matar neuronas(que no se activen más)

In [15]:
from tensorflow.keras.optimizers import RMSprop

model3 = Sequential()
model3.add(Dense(64, input_shape=(8,), activation='relu'))
model3.add(Dense(32, activation='relu'))
model3.add(Dense(16, activation='relu'))
model3.add(Dense(1, activation='sigmoid'))

model3.compile(optimizer=RMSprop(learning_rate=0.001,momentum=0.1), loss='mean_absolute_error', metrics=['accuracy'])

model3.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_5 (Dense)             (None, 64)                576       
                                                                 
 dense_6 (Dense)             (None, 32)                2080      
                                                                 
 dense_7 (Dense)             (None, 16)                528       
                                                                 
 dense_8 (Dense)             (None, 1)                 17        
                                                                 
Total params: 3201 (12.50 KB)
Trainable params: 3201 (12.50 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


 ##  <center> Modelo 4 </center>


* Aspecto 1: 
    * El número de capas, nodos en ellas : 5 capas, 4 ocultas (128,64,32,16 neuronas) y una de salida(1 neurona)
    * función de activación en las capas ocultas: Sigmoid
    
* Aspecto 2: 
    * Factor de aprendizaje : 0.0000000001
    * número de épocas : 20
    * función de pérdida : hinge
    
* Aspecto 3: Método de optimización
    * Adagrad: este método calcula un learning rate  para cada parametro en función de los anteriores, a los atributos más dispersos les da un learning rate más alto
    
    
* Sigmoid : Es la que se suele usar siempre para claisficación binaria, si se saturan las neuronas pueden matar el gradiente y es muy costoso computacionalmente

In [16]:
model4 = Sequential()
model4.add(Dense(128,  input_shape=(8,), activation='sigmoid'))
model4.add(Dense(64, activation='sigmoid'))
model4.add(Dense(32, activation='sigmoid'))
model4.add(Dense(16, activation='sigmoid'))
model4.add(Dense(1, activation='sigmoid'))

model4.compile(optimizer=Adagrad(learning_rate=0.0000000001), loss='hinge', metrics=['accuracy'])


model4.summary()

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_9 (Dense)             (None, 128)               1152      
                                                                 
 dense_10 (Dense)            (None, 64)                8256      
                                                                 
 dense_11 (Dense)            (None, 32)                2080      
                                                                 
 dense_12 (Dense)            (None, 16)                528       
                                                                 
 dense_13 (Dense)            (None, 1)                 17        
                                                                 
Total params: 12033 (47.00 KB)
Trainable params: 12033 (47.00 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


# Entrenamiento y evaluación de cada modelo creado (un sub-apartado para cada uno).

 ##  <center> Modelo 1 </center>


In [17]:
model1.fit(train_X, train_y, epochs=225, batch_size=55, verbose=0)

loss, accuracy = model1.evaluate(test_X, test_y, verbose=0)
print("Accuracy = {:.2f}".format(accuracy))



Accuracy = 0.75


 ##  <center> Modelo 2 </center>


In [18]:
model2.fit(train_X, train_y, epochs=150, batch_size=1, verbose=0)

loss, accuracy = model2.evaluate(test_X, test_y, verbose=0)
print("Accuracy = {:.2f}".format(accuracy))

Accuracy = 0.81


 ##  <center> Modelo 3 </center>


In [19]:
model3.fit(train_X, train_y, epochs=75, batch_size=35, verbose=0)

loss, accuracy = model3.evaluate(test_X, test_y, verbose=0)
print("Accuracy = {:.2f}".format(accuracy))

Accuracy = 0.66


 ##  <center> Modelo 4 </center>

In [20]:
model4.fit(train_X, train_y, epochs=20, batch_size=10, verbose=0)

loss, accuracy = model4.evaluate(test_X, test_y, verbose=0)
print("Accuracy = {:.2f}".format(accuracy))

Accuracy = 0.34


# Análisis de resultados.


El número de epochs y batch influye en gran medida el coste computacional, ya que para entrenar un modelo con un batch_size de 1 mas variabilidad por lo que el modelo tarda mucho más tiempo en calcular el rendimiento.(cuanto mas pequeño más varía pero el coste es mayor), se puede ver en el modelo 2 que le paso un batch=1 y el modelo tarda mucho más que los otros.

La elección del número de capas es otro aspecto crítico y su impacto depende en gran medida del problema, por ejemplo, aumentar el número de capas en una red neuronal puede aumentar su capacidad para aprender patrones complejos,pero también existe el riesgo de sobreajuste(el cual podremos combatir con dropout o la regularización l1 o l2)

La función de activación influye en el rendimiento del modelo ya que dependiendo del tipo de ejercicio necesitaremos una u otra. En este caso necesitamos de salida una sigmoid ya que es un problema de clasificación binaria

La tasa de aprendizaje y el nº de epocas están muy relacionadas, si la tasa es muy baja y el nº de epochs es muy pequeño puede provocar un rendimiento muy deficiente, ya que la convergencia es muy lenta y no le da tiempo

El último caso es un rendimiento muy malo ya que he puesto un learning rate muy muy bajo, esto provoca que tarde mucho en converger, por lo que voy a necesitar muchas epochs, en este caso como he especificado pocas, el rendimiento es bastante malo como he comentado en el párrafo anterior

# Bibliografía utilizada (enlaces web, material de clase, libros, etc.).

https://colab.research.google.com/github/miguelamda/DL/blob/master/3.%20Frameworks%20Software/Practica3.2.%20Keras%20versus%20SKLearn.ipynb#scrollTo=LLfjBX8gJRnU

https://www.freecodecamp.org/news/how-to-pick-the-best-learning-rate-for-your-machine-learning-project-9c28865039a8/

https://datascience.stackexchange.com/questions/26792/difference-between-rmsprop-with-momentum-and-adam-optimizers#:~:text=Adam%20is%20slower%20to%20change,both%20use%20the%20same%20learning_rate).

https://www.sabrepc.com/blog/Deep-Learning-and-AI/Epochs-Batch-Size-Iterations