# EJERCICIO 1. ENTRENAMIENTO DE RED NEURONAL

En este primer ejercicio tendrás que trabajar con **PyTorch** y **Pandas** para construir una red neuronal artificial multicapa que se ajuste a los datos en el fichero CSV que se adjunta: *diabetes.csv*

Este fichero contiene el diagnóstico de diabetes de los indios Pima. Basado en datos personales (edad, número de veces de embarazo) y los resultados de los reconocimientos médicos (por ejemplo, presión sanguínea, índice de masa corporal, resultado de la prueba de tolerancia a la glucosa, etc.), intenta decidir si un indio Pima tiene diabetes o no.

![](img/pima.jpg)

## 1. Enunciado

Basándote en las prácticas del módulo 3, y usando el dataset adjunto (ver apartado 3), crea **al menos 3** redes neuronales con arquitecturas distintas. Como mínimo deben diferir **siempre** en los siguientes aspectos (elige una opción dentro de cada aspecto):
* **Aspecto 1**: El número de capas (profundidad), número de nodos en ellas (anchura), y función de activación en las capas ocultas (pueden ser distintas según la capa).
* **Aspecto 2**: Factor de aprendizaje, número de épocas, y/o función de pérdida
*** Aspecto 3**: Método de optimización (SGD+momentum, Adam, AdamW, RMSprop, Adagrad...).

Por ejemplo, puedes probar una red con 2 capas ocultas, 20 épocas y usando SGD, y después una red con 3 capas, 40 épocas y RMSprop. Recuerda que estamos en un problema de *clasificación binaria*.

Haz un breve estudio exploratorio de los datos para saber si el **dataset está balanceado**, y si requiere  o no **preprocesamiento**. **Particiona** el conjunto de datos en subconjunto de entrenamiento y de validación/test (indica el % que has usado para cada uno, puedes usar el mismo split para las 3 combinaciones). Explica brevemente cada red diseñada y las razones de su configuración, indicando qué esperas conseguir con cada combinación (por ejemplo, más épocas para mejorar el ajuste del modelo a los datos). Analiza los resultados obtenidos para cada red. ¿Qué red converge mejor? ¿Hay sobreajuste? ¿Qué optimizador funciona mejor?

## 2. Entrega

La entrega de este ejercicio se realiza a través de la tarea creada para tal efecto en Enseñanza Virtual. Tienes que __entregar un notebook, y el HTML generado__ a partir de él, cuyas celdas estén **ya evaluadas**.

La estructura del notebook debe contener los siguientes apartados:

0. Cabecera: nombre y apellidos.
1. Dataset: descripción, exploración básica y carga.
2. Preparación de los datos para ser usados en PyTorch.
3. Modelos creados en PyTorch (un sub-apartado para cada uno, explicando de forma razonada, con tus palabras y usando figuras, la arquitectura y su configuración, indicando además cómo los has implementado con PyTorch).
4. Entrenamiento y evaluación de cada modelo creado (un sub-apartado para cada uno).
5. Análisis de resultados.
6. Bibliografía utilizada (enlaces web, material de clase, libros, etc.).

### 2.1. Nota importante
-----
**HONESTIDAD ACADÉMICA Y COPIAS: un trabajo práctico es un examen, por lo que
debe realizarse de manera individual. La discusión y el intercambio de
información de carácter general con los compañeros se permite (e incluso se
recomienda), pero NO AL NIVEL DE CÓDIGO. Igualmente el remitir código de
terceros, OBTENIDO A TRAVÉS DE LA RED o cualquier otro medio, se considerará
plagio.** 

**Cualquier plagio o compartición de código que se detecte significará
automáticamente la calificación de CERO EN LA ASIGNATURA para TODOS los
alumnos involucrados. Por tanto a estos alumnos NO se les conservará, para
futuras convocatorias, ninguna nota que hubiesen obtenido hasta el momento.
SIN PERJUICIO DE OTRAS MEDIDAS DE CARÁCTER DISCIPLINARIO QUE SE PUDIERAN
TOMAR.**

-----

## 3. El Dataset

El siguiente código cargará los datos del fichero CSV adjunto al completo en las variables `X`e `Y`. Deberás hacer una división para conjunto de test y de train, razonando debidamente por qué has elegido el tamaño de cada conjunto.

In [1]:
# Importamos los paquetes necesarios
import numpy as np
import pandas as pd

In [17]:
# Lectura del dataset
train = pd.read_csv("diabetes.csv")

In [18]:
X, Y = np.array(train.iloc[:,0:8]), np.array(train.iloc[:,9])

In [19]:
X.shape

(768, 8)

In [20]:
Y.shape

(768,)

In [21]:
print(X[0:10])

[[0.176471  0.605     0.42623   0.        0.        0.536513  0.0209223
  0.0666667]
 [0.352941  0.72      0.590164  0.27      0.269504  0.505216  0.0755764
  0.316667 ]
 [0.117647  0.875     0.721311  0.        0.        0.341282  0.105892
  0.0166667]
 [0.705882  0.605     0.639344  0.17      0.        0.394933  0.0772844
  0.683333 ]
 [0.117647  0.535     0.606557  0.3       0.118203  0.500745  0.139197
  0.0333333]
 [0.882353  0.68      0.57377   0.32      0.130024  0.552906  0.0320239
  0.366667 ]
 [0.470588  0.545     0.622951  0.39      0.134752  0.415797  0.239966
  0.166667 ]
 [0.117647  0.405     0.491803  0.22      0.        0.412817  0.0905209
  0.0666667]
 [0.235294  0.985     0.57377   0.39      0.879433  0.546945  0.961144
  0.166667 ]
 [0.        0.525     0.737705  0.        0.        0.441133  0.0508113
  0.416667 ]]


In [22]:
print(Y[0:10])

[0 1 1 1 1 0 0 1 1 1]
