Predicción de la evolución de la diabetes en pacientes usando MLP
===

Se desea construir um modelo de regresión no lineal (redes neuronales artificiales) que permita pronósticar el progreso de la diabetes con un horizonte de doce meses con base en variables físicas y pruebas de laboratorio. Véase https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

En este problema se tiene una base de datos de diez variables base (edad, sexo, índice de masa corporal, presión arterial, y seis variables medidas en sangre) para 442 pacientes, y un índice que mide el progreso de la diabetes un año después de la prueba. La columna Y es la variable explicada.

In [1]:
#
# La muestra se encuentra dividida en tres partes:
#
#   * X_train, y_true_train: es la muestra para estimar los parametros optimos
#
#   * X_test, y_true_test: es la muestra para seleccionar la mejor configuración
#
#   * X_val, y_true_val: es la muestra para probar el modelo en productivo
#
import warnings

import pandas as pd
import pytest
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error

warnings.filterwarnings("ignore")

df = pd.read_csv("https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/diabetes.csv")
print(df.columns)
y_true = df.pop('target')
y_true_fit = df[:350]
y_true_test = df[350:400]
y_true_val = df[400:]

X_fit = df[:350]
X_test = df[350:400]
X_val = df[400:]



Index(['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6',
       'target'],
      dtype='object')


In [2]:
#
# Use la muestra (X_train, y_true_train) para la estimación
# de los pesos óptimos de la red neuronal.
#
# Seleccione el modelo óptimo como aquel que minimice el error
# cuadrático medio para la muestra (X_test, y_true_test).
#
# Considere únicamente modelos desde una (1) hasta (5) 
# neuronas en la capa oculta. Considere únicamente las
# siguientes semillas para inicializar la red neuronal
# 1000, 1001, 1002, 1003, 1004, 1005.
#
# Compute el error cuadrático medio para la muestra
# (X_val, y_true_val). Esta muestra representa la operación
# del modelo en productio
# 
# Rta/
# True
#

# >>> Inserte su codigo aquí >>>
from sklearn.model_selection import train_test_split

seeds = [1000, 1001, 1002, 1003, 1004, 1005]
mse_opt=float("inf")
hls_opt=0
for hls in seeds:
  reg = MLPRegressor(hidden_layer_sizes=hls).fit(X_fit, y_true_fit)
  mse = mean_squared_error(y_true_test, reg.predict(X_test))
  if mse < mse_opt:
    mse_opt = mse
    hls_opt = hls

reg_opt = MLPRegressor(hidden_layer_sizes=hls_opt).fit(X_fit, y_true_fit)
mse_val = mean_squared_error(y_true_val, reg_opt.predict(X_val))
print('MSE validation set:', mse_val)

# <<<

# ---->>> Evaluación ---->>>
pytest.approx(mse_val, 0.0001) == 0.009535

MSE validation set: 0.00022904341477834474


False