## Práctico de Introducción a Machine Learning

En este práctico implementaremos modelos sencillos de clasificiación para intentar predecir el ausentismo en los turnos. Vamos a experimentar con modelos lineales y con árboles de decisión. Nuestro objetivo no será construir el mejor modelo, sino ganar un poco más de intuición sobre nuestro conjunto de datos, y tomar algunas decisiones sobre las que profundizaremos en el próximo práctico.

### Preprocesamiento

Antes de aplicar los modelos, haremos un filtrado de los datos. Se sugiere seguir los siguientes pasos, pero pueden experimentar ustedes también otras alternativas

- Seleccionar sólo los registros cuyo estado de turno sea "Ausente" o "Atendido". Esta variable será nuestra variable objetivo, sobre la cual buscaremos hacer predicciones.

- Remover los siguientes registros:

    - Turnos con pacientes menores de edad. 

    - Turnos en días domingo.

    - Pacientes sin datos en columna "Sexo"

    - Consultas de guardia

    - Consultas de pediatría

    - Registros cuyo centro de atención sea "1" o "2"
    
- Crear los siguientes features:

    - **Anticipación de reserva**. Diferencia entre la fecha del turno y la fecha de otorgado. En caso de que la fecha de otorgado sea mayor a la del turno, colocar el valor 0.
    
    - **Día de la semana**. 
    
    - **Consulta médica**. Variable binaria construida a partir del campo "Prestación asignada", que vale 1 si la prestación es una consulta médica, o 0 si es de otro tipo.
    
    - **Consumidor final**. Variable binaria construida a partir del campo "Prestador", que vale 1 si se trata de un consumidor final, o 0 si cuenta con obra social o prepaga.
    
Una vez realizados los pasos previos (o los que ustedes consideren pertinentes) debemos decidir qué hacer con los valores nulos que hayan quedado. Dado que los modelos no pueden recibir valores nulos, es necesario tomar una decisión (descartarlos, reemplazarlos por algún valor representativo, descartar alguna columna, etc.). Utilicen el criterio que consideren adecuado en este caso.

Una vez que el dataset resultante no tenga valores nulos, es necesario transformar las variables categóricas en variables numéricas (es decir, realizar un encoding de los datos). Las recomendaciones en este caso son:

- Realizar one-hot encoding para los campos

    - Día de la semana 
    - Tipo de turno
    - Centro de atención
    
    
- Transformar en variables binarias los campos

    - Estado del turno ("Ausente" == 1, "Atendido" = 0)
    - Sexo
    - Es sobre turno
    - Consulta médica
    - Consumidor final
    
Pueden ver más sobre encoding [acá](https://towardsdatascience.com/categorical-encoding-using-label-encoding-and-one-hot-encoder-911ef77fb5bd).

### Elección de los modelos

Con los pasos anteriores, nuestro dataset debería ser una tabla con valores numéricos y sin valores nulos. Ahora, deberán separar el conjunto de datos en conjunto de entrenamiento (train) y conjunto de prueba (test). Por ahora, no utilizaremos conjunto de validación. Se recomienda utilizar el método `train_test_split` de `scikitlearn`, con un 80% para train y 20% para test.

Una vez divididos los datos, construimos los modelos predictivos. Deberán elegir (al menos) dos modelos [lineales](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model) y dos modelos basados en [árboles de decisión](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble). Entrenen cada modelo utilizando el conjunto de entrenamiento y los parámetros por defecto y evaluen la predicción utilizando las cuatro métricas descriptas más adelante. ¿Qué diferencias hay entre los distintos modelos? ¿Qué tan buenas son las predicciones?

Jueguen un poco variando algunos parámetros (no es necesario hacer una búsqueda sistemática). ¿Qué parámetros influyen más en el desempeño de los clasificadores? ¿Por qué les parece que algunos parámetros influyen más que otros?

Repitan el proceso pero normalizando los datos de entrada (pueden usar, por ejemplo `MinMaxScaler` o `StandardScaler`). ¿Hay alguna diferencia en el resultado de los modelos? ¿A qué se debe?

Finalmente, intenten mejorar las predicciones agregando o quitando features, o variando el tipo de encoding. En base a los resultados que vayan obteniendo, determinen los features que ustedes consideren que son más informativos (aquellos que ayudan a mejorar la predicción) y aquellos que sean redundantes, o que empeoren el resultado.

### Elección de métricas

Un aspecto fundamental del aprendizaje automático es la elección de métricas para evaluar los modelos predictivos. En este práctico vamos a explorar las siguientes cuatro métricas:

- Accuracy
- F1
- AUC ROC
- AUC Precision-Recall

Para cada uno de los modelos que utilicen, calculen las cuatro métricas. ¿Qué información brinda cada una? ¿Hay algún inconveniente en utilizar alguna de ellas? ¿Cuáles les parece que pueden ser de utilidad para nuestra problemática? Pueden encontrar información sobre las últimas dos [acá](https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/).




In [1]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score

Separación en conjunto de entrenamiento y conjunto de prueba

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=22)

Modelos lineales

In [None]:
model = LogisticRegression()

model.fit(X_train, y_train)

y_pred = model.Predict(X_test)

print('Accuracy score = ', accuracy_score(y_test, y_pred))
print('F1 score = ', f1_score(y_test, y_pred))

Árboles de desición

In [None]:
model = RandomForestClassifier()

model.fit(X_train, y_train)

y_pred = model.Predict(X_test)

print('Accuracy score = ', accuracy_score(y_test, y_pred))
print('F1 score = ', f1_score(y_test, y_pred))