**Implementación de un Modelo de Clasificación utilizando MLP**

*John Atkinson*

Este programa permite implementar una red neuronal multi-capa del tipo MLP (Multi-Layer Perceptron) para un problema de predicción simple. El modelo  aprende desde un conjunto de datos de entrenamiento (*training dataset*) y luego  prueba las predicciones sobre un conjunto de datos de prueba (*test dataset*).

El problema se trata de predecir si es que un paciente cobrará seguros (1 o 0) dependiendo de sus condiciones de salud  (edad, sexo, indice de masa corporal-IMC, número de hijos, fumador, región, costos médicos -en dólares, y variable de predicción - SolicitaSeguro). Para esto se deberá cargar un dataset en excel con datos para el problema ("*Seguros.xlsx*").

El método a utilizar es un clasificador binario (cobra -1- o no cobra -0- seguro) llamado **MLPClassifier** de la biblioteca de Machine Learning [sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html).


Primero, importamos algunas librerías relevantes para graficar, cargar datos, y luego las necesarias de SKLEARN para entrenar y evaluar un clasificador perceptron multi-layer (MLP). Note que el método para entrenar un clasificador MLP se llama *MLPClassifier*:

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

Primero, definimos la función **CargarDatos(..)** para cargar los datos desde un conjunto de datos (dataset) de entrenamiento de datos de seguros. Cada registro viene con las variables independientes y la variable dependiente de predicción (*SolicitaSeguro*) que se carga en un dataframe panda:

In [12]:
def CargarDatos():
  df     = pd.read_excel('Seguros.xlsx')
  data   = df.drop(['SolicitaSeguro'],axis=1)
  labels = df.SolicitaSeguro
  return(data,labels)

Comenzamos el programa principal, cargando nuestros datos:

In [35]:
data, labels = CargarDatos()

Ahora separamos los datos al azar en un dataset  de entrenamiento (70%) y otro de prueba (30%):

In [39]:
train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size=0.3)

Primero inicializamos nuestro modelo usando el método *MLPClassifier*, especificando la velocidad de aprendizaje *alpha*, el tamaño de cada capa  oculta (ej. *(5,2)* significa dos capas ocultas donde la 1era posee 5 neuronas y la 2da posee 2), el método de optimización de los pesos pues existen varios (ej. descenso de gradiente estocástico - *sgd*, optimizador basado en algoritmo de Newton - *lbfgs*, optimizador por descenso de gradiente - *adam*) y *max_iter* que corresponde al número de epochs:

In [78]:
Clasificador = MLPClassifier(solver='sgd',
                    alpha=1e-5,
                    hidden_layer_sizes=(5,2),
                    max_iter = 300,
                    activation ='relu')

Ahora, entrenamos el modelo de clasificación con los datos de entrenamiento (*train_data*) y sus respectivos labels (*train_labels*):

In [79]:
tmp = Clasificador.fit(train_data, train_labels)

Una vez entrenado, revisamos el rendimiento del entrenamiento (usualmente *accuracy*):

In [None]:
Clasificador.score(train_data, train_labels)

Ahora evaluamos el modelo entrenado con los datos de prueba:

In [None]:
predicciones  = Clasificador.predict(test_data)
accuracy      = accuracy_score(predicciones, test_labels)
print("Accuracy sobre los datos de prueba: ", accuracy)