# Lab 2: Comparación de modelos

## ¡Bienvenido/a!

Te invitamos a realizar el primer trabajo.
- Objetivo: comparar modelos de regresión y clasificación en Python.
- Tipo de actividad: Individual
- Tipo de evaluación: Sumativa 
- Ponderación: 12%
- Puntaje: 100 puntos
- Calificación: Escala de 1 a 7, con una exigencia de 50%. La nota mínima para aprobar es 4.0.

### Objetivo

El propósito de esta tarea es profundizar en los conceptos de validación cruzada en los contextos de regresión y clasificación. Asimismo, se pretende que el estudiante comprenda la relevancia de la selección y comparación de modelos en la resolución de problemas de aprendizaje automático.

En el caso del problema de la regresión, se llevará a cabo una comparación entre la regresión lineal, el k-NN y los árboles de regresión. Para el problema de clasificación, se realizará una comparación entre la regresión logística, el k-NN y los árboles de clasificación.

In [None]:
# Módulos básicos para análisis y manipulación de datos
import numpy as np
import pandas as pd

# Modelos de regresión y clasificación
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeRegressor
from sklearn.tree import DecisionTreeClassifier

# Preprocesamiento de datos
from sklearn.preprocessing import MinMaxScaler

# Módulos para evaluación de modelos
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn import metrics

# Bases de datos del Lab
import faraway.datasets.ozone as ozone
import faraway.datasets.prostate as prostate 

# Problema 1

Responda a las siguientes preguntas utilizando el conjunto de datos ozone. Considere $O^3$ como variable respuesta, mientras que las demás variables serán consideradas como variables explicativas

In [None]:
ozone_data = ozone.load()  # El objeto data contiene los datos para el problema 1

1.1 - Realizar una descomposición aleatoria de la base de datos con la proporción 70%-30% para train y test, respectivamente. Utilice el número 111 como semilla de aleatorización.

Guardar la información en los siguientes objetos:
- `train`: partición de entrenamiento    (incluyendo todas las variables).
- `test`: partición para la validacíon   (incluyendo todas las variables).

Recuerde respetar la semilla de aleatorización, la proporción de la partición y el nombre de los objetos. Además, utilice `train_test_split(ozone_data, ...)` para obtener de inmediato las particiones de entrenamiento y validación con todas las variables.

In [None]:
train = None      # Variable que debe modificar
test = None       # Variable que debe modificar

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 1.1

In [None]:
# Test 2 - P 1.1

1.2 - Utilizando la partición de entrenamiento, ajuste los siguientes modelos:
- Regresión lineal múltiple con intercepto.
- k-NN con $k=10$ (`n_neighbors=10`) y utilizando como métrica la distancia euclidiana (`metric='euclidean'`). Para este modelo, además, estandarizar las variables utilizando el método min-max (`MinMaxScaler()`).
- Árbol de regresión con profundidad máxima de 4 (`max_depth=4`) y número mínimo para realizar una partición en 20 (`min_samples_split=20`). Además, utilice la semilla de aleatorización 123 (`random_state=123`).

Luego de ajustar los modelos, calcule el error cuadrático medio (MSE) de cada uno de ellos sobre la partición de entrenamiento, el cual 
representará que tan bien se ajusta el modelo a los datos de entrenamiento, y el error cuadrático medio sobre la partición de validación, el cual representará la capacidad de predicción y generalización del modelo.

Recuerde que el MSE se calcula como:
$$
MSE = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2
$$
donde $y_i$ es el valor real de la variable respuesta y $\hat{y}_i$ es el valor predicho por el modelo.

Para esta pregunta, se espera que usted entregue dos vectores de largo 3, uno para el MSE de entrenamiento y otro para el MSE de validación. El primer elemento de cada vector corresponde al MSE de la regresión lineal, el segundo elemento corresponde al MSE del k-NN y el tercer elemento corresponde al MSE del árbol de regresión. 

Los nombres de los vectores deben ser `mse_train` y `mse_test`, respectivamente.

In [None]:
mse_train = None       # Variable que debe modificar
mse_test = None        # Variable que debe modificar

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 1.2

In [None]:
# Test 2 - P 1.2

1.3 - Con los resultados obtenidos en la pregunta anterior: ¿qué modelo debería elegir?. Base su respuesta en el error cuadrático medio tanto para la partición de entrenamiento como de validación.

Para responder esta pregunta, debe entregar un string con el nombre `best_model_train` para la elección utilizando la muestra de entrenamiento y otro con el nombre `best_model_test` para la elección con la muestra de validación, estos string deben contener el nombre del modelo elegido. 

Los nombres de los modelos en el string pueden ser los siguientes: "LM", "k-NN" y "DTree" para la regresión lineal, k-NN y árbol de regresión, respectivamente. Por ejemplo, si el modelo elegido es la regresión lineal, entonces debe entregar el string "LM".

Además, responda, en el string `Interpretacion` una de las siguientes alternativas:
- "Como los modelos difieren se prefiere utilizar el modelo escogido con la muestra de validación ya que tiene menos posibilidad de caer en un sobreajuste."
- "Como los modelos difieren se prefiere utilizar el modelo escogido con la muestra de entrenamiento ya que se ajusta mejor a los datos."
- "En ambos casos se escoge el mismo modelo."

In [None]:
best_model_train = None      # Variable que debe modificar
best_model_test = None       # Variable que debe modificar
Interpretacion = None        # Variable que debe modificar

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 1.3

In [None]:
# Test 2 - P 1.3

In [None]:
# Test 3 - P 1.3

1.4 - Utilizando la partición de entrenamiento, realice una validación cruzada k-fold con $k=5$ para cada uno de los modelos de la pregunta anterior. Utilice el MSE como métrica de desempeño. Debe reportar el error cuadrático medio promedio y la desviación estándar del error cuadrático medio para cada modelo. Utilice la función `cross_val_score` para realizar la validación cruzada k-fold.

Se espera que usted entregue dos vectores de largo 3, uno para el MSE promedio y otro para la desviación estándar del MSE. El primer elemento de cada vector corresponde al MSE de la regresión lineal, el segundo elemento corresponde al MSE del k-NN y el tercer elemento corresponde al MSE del árbol de decisión.

El nombre de los vectores deben ser `mse_cv_mean` y `mse_cv_std`, respectivamente.

La desviación estándar del MSE será utilizada para determinar la variabilidad del error de predicción del modelo. Por lo tanto, un modelo con menor desviación estándar del MSE será preferible. Esta medida de variabilidad es importante, ya que nos permite determinar si el modelo es robusto o no. Ya que si el modelo es robusto, entonces el error de predicción no variará mucho al cambiar la partición de entrenamiento. En caso contrario, cuando los modelos están sobreajustados, el error de predicción variará mucho al cambiar la partición de entrenamiento.


**Observación**: En el caso del k-vecino más cercano "k-NN" determine mediante la validación cruzada el número de vecinos óptimos utilizado el MSE como medida de error y como métrica la distancia "euclidiana" de las variables de entrada estandarizadas por MinMax. Guarde el número de vecinos en `K` donde la búsqueda del óptimo se realiza en la grilla de 1 a 15, es decir, K debe ser un valor entero entre 1 y 15.

Para los otros métodos debe utilizar los mismos parámetros de la pregunta anterior, es decir, la profundidad máxima del árbol debe ser 4 y el número mínimo para realizar una partición debe ser 20. Además, debe utilizar la semilla de aleatorización 123 como parámetro del modelo de árbol de regresión (`random_state=123`).

In [None]:
mse_cv_mean = None       # Variable que debe modificar
mse_cv_std = None        # Variable que debe modificar
K = None                 # Variable que debe modificar

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 1.4

In [None]:
# Test 2 - P 1.4

In [None]:
# Test 3 - P 1.4

1.5 - Según los resultados obtenidos en la pregunta anterior, ¿qué modelo debería elegir?. Base su respuesta en el error cuadrático medio promedio de la validación cruzada. 

Además, para el modelo seleccionado cuantificar el error de generalización mediante el RMSE.

Recuerde que el RMSE se calcula como:
$$
RMSE = \sqrt{MSE}=\sqrt{\frac{1}{m}\sum_{i=1}^{m}e_i^2},\quad\text{donde}\quad e_i=y_i-\hat{y}_i,~~i=1,\dots,m.
$$


Para responder esta pregunta, debe entregar un string con el nombre `best_model_cv` que corresponda al nombre del modelo elegido, mientras que el error de generalización medido a través del RMSE debe quedar guardado en `best_rmse_test`. 

Los nombres de los modelos en el string deben ser los siguientes: "LM", "k-NN" y "DTree" para la regresión lineal, k-NN y árbol de regresión, respectivamente. 

In [None]:
best_model_cv = None       # Variable que debe modificar
best_rmse_test = None      # Variable que debe modificar

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 1.5

In [None]:
# Test 2 - P 1.5

1.6 - Con respecto al arbol de regresión, sería interesante determinar la importancia de las variables, es decir, que tan importante es cada variable en la predicción de la variable respuesta. Para ello, ajuste un árbol de regresión con profundidad máxima de 4 y número mínimo para realizar una partición en 20 (`max_depth=4`, `min_samples_split=20`) utilizando todas las variables explicativas. Luego, calcule la importancia de las variables utilizando el método `feature_importances_` del modelo ajustado. Finalmente, ordene las variables de mayor a menor importancia y seleccione las 5 variables más importantes. ¿Coinciden con las variables significativas del modelo de regresión lineal? (`p-value < 0.05`). Para responder esto último, debe ajustar un modelo de regresión lineal utilizando todas las variables explicativas (con intercepto) y luego calcular el p-value de cada variable del modelo ajustado.

Para esta pregunta, se espera que usted entregue un vector de largo 5 con los nombres de las variables más importantes. El nombre del vector debe ser `top5` y 
debe estar ordenado de mayor a menor importancia. Además, debe entregar un vector booleano de largo 5 con los valores `True` y `False` que indiquen si la variable correspondiente al vector `top5` es significativa en el modelo de regresión lineal. El nombre del vector debe ser `top5_significance`.

**Importante**: para esta pregunta, debe utilizar la semilla de aleatorización 123 como parámetro del modelo de árbol de regresión (`random_state=123`).

In [None]:
top5 = None                     # Variable que debe modificar
top5_significance = None        # Variable que debe modificar

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 1.6

In [None]:
# Test 2 - P 1.6

# Problema 2

Para esta segunda sección, se utilizará el conjunto de datos `prostate`. Este conjunto de datos contiene información sobre 97 pacientes con cáncer de próstata. Considere la variable respuesta como `svi` (seminal vesicle invasion). Esta variable indica si el cáncer se ha extendido a la vesícula seminal (1) o no (0). Las demás variables serán consideradas como variables explicativas. 

El objetivo es ajustar y comparar diferentes modelos de clasificación para predecir si el cáncer se ha extendido a la vesícula seminal o no. Para ello, se utilizarán los siguientes modelos:

- Regresión logística.
- k-NN.
- Árbol de clasificación.

Los datos se cargarán automáticamente en la siguiente celda, con el nombre `prostate_data`.

In [None]:
prostate_data = prostate.load()  # cargamos los datos del problema 2

2.1 - Realizar una descomposición aleatoria estratificada (por la variable respuesta) de la base de datos con la proporción 70%-30% para train y test, respectivamente. Utilice el número 12345 como semilla de aleatorización. Esta descomposición estratificada es necesaria para que la proporción de 1's y 0's sea la misma en ambas particiones. Utilice el argumento `stratify` para crear la partición estratificada.

Guardar la información en los siguientes objetos:
- `train2`: partición de entrenamiento    (incluyendo todas las variables).
- `test2`: partición para la validacíon   (incluyendo todas las variables).

Recuerde respetar la semilla de aleatorización, la proporción de la partición y el nombre de los objetos. Además, utilice `train_test_split(prostate_data, ...)` para obtener de inmediato las particiones de entrenamiento y validación con todas las variables.

In [None]:
train2 = None      # Variable que debe modificar
test2 = None       # Variable que debe modificar

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 2.1

In [None]:
# Test 2 - P 2.1

2.2 - Utilizando la partición de entrenamiento (`train2`), ajuste los siguientes modelos:
- Regresión logística con intercepto (`fit_intercept=True`) y método de optimización `newton-cg` (`solver='newton-cg'`).
- k-NN con $k=10$ (`n_neighbors=10`) y utilizando como métrica la distancia euclidiana (`metric='euclidean'`). Para este modelo, además, normalice las variables utilizando el método min-max (`MinMaxScaler()`).
- Árbol de clasificación con profundidad máxima de 4 (`max_depth=4`) y número mínimo para realizar una partición en 10 (`min_samples_split=10`). Además, utilice como semilla de aleatorización el número 123 (`random_state=123`).

Luego de ajustar los modelos, calcule la exactitud (`accuracy`), sensibilidad (`recall`), presición (`precision`) y el $F_1\text{-}Score$ de cada uno de ellos sobre los datos de validación (`test2`).

Para esta pregunta, se espera que usted entregue un `data frame` de 3 filas y 4 columnas. Las filas corresponden a los modelos y las columnas corresponden a las métricas. Los nombres de las filas deben ser `logit`, `knn` y `dtree`, respectivamente. Los nombres de las columnas deben ser `accuracy`, `recall`, `precision` y `f1_score`, respectivamente.

El data frame debe llamarse `performance_metrics`.

Nota: para la clasificación de las observaciones, se debe utilizar el umbral de 0.5. Es decir, si la probabilidad de que la observación pertenezca a la clase 1 es mayor o igual a 0.5, entonces se clasifica como 1. En caso contrario, se clasifica como 0.

In [None]:
performance_metrics = pd.DataFrame(columns=['accuracy', 'recall', 'precision', 'f1_score'], index=['logit', 'knn', 'dtree'])

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 2.2

In [None]:
# Test 2 - P 2.2

2.3 - En el contexto del problema anterior, la clasificación correcta de los pacientes en los cuales el cáncer se ha extendido a la vesícula seminal es más importante que la clasificación correcta de los pacientes en los cuales el cáncer no se ha extendido. Por lo tanto, es necesario ajustar los modelos de clasificación para que tengan un mejor desempeño en la clasificación de los pacientes en los cuales el cáncer se ha extendido a la vesícula seminal. Para ello, se utilizará la muestra de entrenamiento (`train2`) con la técnica de validación cruzada k-fold con $k=5$ para ajustar cada uno de los modelos de clasificación. Además, como es crucial detectar los casos positivos, se utilizará el $F_{\beta}$-score con $\beta=10$ como métrica de desempeño. De esta manera, se le dará más peso a la sensibilidad (`recall`). 

Se espera que usted entregue un `data frame` de 2 filas y 3 columnas. Las columnas corresponden a los modelos y las las filas corresponden a las métricas. Las métricas son el $F_{\beta}$-score promedio y la desviación estándar del $F_{\beta}$-score. Los nombres de las columnas deben ser `logit`, `knn` y `dtree`, respectivamente. Los nombres de las filas deben ser `f_score_mean` y `f_score_std`, respectivamente.

El data frame debe llamarse `f_score`.

**Nota**: utilizar la semilla de aleatorización 123 para el modelo de árbol de clasificación (`random_state=123`). Además, recordar utilizar `solver='newton-cg'` y `fit_intercept=True` para el modelo de regresión logística. Por último, utilizar `n_neighbors=10` y `metric='euclidean'` para el modelo de k-NN, y `max_depth=4` , `min_samples_split=10` para el modelo de árbol de clasificación.

Utilice la función `cross_val_score` para realizar la validación cruzada k-fold y dentro de la opción de la función `metrics.fbeta_score` utilizar `zero_division=0`.


In [None]:
f_score = pd.DataFrame(columns=['logit', 'knn', 'dtree'], index=['f_score_mean', 'f_score_std'])

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 2.3

In [None]:
# Test 2 - P 2.3

2.4 - Según los resultados obtenidos en la pregunta anterior, ¿qué modelo debería elegir?. 

Además, medir el error de generalización del modelo escogido mediante el accuracy.

Para responder esta pregunta, debe entregar un string con el nombre `best_model` que corresponda al nombre del modelo elegido, y un objeto con el nombre `best_accuracy` con el valor del accuracy como una medida de la generalización del modelo escogido. 

Los nombres de los modelos en el string pueden ser los
siguientes: "logit", "knn" y "dtree" para la regresión logística, k-NN y árbol de clasificación, respectivamente.

In [None]:
best_model = None          # Variable que debe modificar
best_accuracy = None       # Variable que debe modificar

# your code here
raise NotImplementedError

In [None]:
# Test 1 - P 2.4

In [None]:
# Test 2 - P 2.4 