En esta clase, aprenderá a utilizar la validación cruzada para obtener mejores medidas del rendimiento del modelo.

### Introducción

El aprendizaje automático es un proceso iterativo.

Tendrá que elegir qué variables predictivas utilizar, qué tipos de modelos utilizar, qué argumentos proporcionar a esos modelos, etc. Hasta ahora, ha tomado estas decisiones basándose en datos midiendo la calidad del modelo con una validación (o reserva) configurado.

Pero este enfoque tiene algunos inconvenientes. Para ver esto, imagina que tienes un conjunto de datos con 5000 filas. Normalmente mantendrá aproximadamente el 20% de los datos como conjunto de datos de validación, o 1000 filas. Pero esto deja cierta posibilidad aleatoria a la hora de determinar las puntuaciones del modelo. Es decir, un modelo podría funcionar bien en un conjunto de 1000 filas, incluso si sería inexacto en 1000 filas diferentes.

En un caso extremo, podría imaginarse tener solo 1 fila de datos en el conjunto de validación. Si comparas modelos alternativos, cuál hace las mejores predicciones sobre un único punto de datos será principalmente una cuestión de suerte.

En general, cuanto mayor sea el conjunto de validación, menos aleatoriedad (también conocida como "ruido") habrá en nuestra medida de la calidad del modelo y más confiable será. Desafortunadamente, solo podemos obtener un conjunto de validación grande eliminando filas de nuestros datos de entrenamiento, ¡y conjuntos de datos de entrenamiento más pequeños significan peores modelos!

¿Qué es la validación cruzada?

En la validación cruzada, ejecutamos nuestro proceso de modelado en diferentes subconjuntos de datos para obtener múltiples medidas de la calidad del modelo.

Por ejemplo, podríamos comenzar dividiendo los datos en 5 partes, cada una de las cuales representa el 20% del conjunto de datos completo. En este caso decimos que hemos dividido los datos en 5 "pliegues".

Luego, realizamos un experimento para cada pliegue:

* En el Experimento 1, utilizamos el primer pliegue como conjunto de validación (o reserva) y todo lo demás como datos de entrenamiento. Esto nos da una medida de la calidad del modelo basada en un conjunto de reservas del 20%.

* En el Experimento 2, guardamos datos del segundo pliegue (y usamos todo excepto el segundo pliegue para entrenar el modelo). Luego, el conjunto de reservas se utiliza para obtener una segunda estimación de la calidad del modelo.

* Repetimos este proceso, usando cada pliegue una vez como conjunto de reserva. En conjunto, el 100 % de los datos se utiliza como reserva en algún momento, y terminamos con una medida de la calidad del modelo que se basa en todas las filas del conjunto de datos (incluso si no usamos todas las filas simultáneamente) .

### Ejemplo

Trabajaremos con los mismos datos que en el tutorial anterior. Cargamos los datos de entrada en X y los datos de salida en y.

### ¿Cuándo debería utilizar la validación cruzada?

La validación cruzada brinda una medida más precisa de la calidad del modelo, lo cual es especialmente importante si se toman muchas decisiones de modelado. Sin embargo, puede tardar más en ejecutarse porque estima varios modelos (uno para cada pliegue).

Entonces, dadas estas compensaciones, ¿cuándo debería utilizar cada enfoque?

Para conjuntos de datos pequeños, donde la carga computacional adicional no es gran cosa, debe ejecutar una validación cruzada.
Para conjuntos de datos más grandes, un único conjunto de validación es suficiente. Su código se ejecutará más rápido y es posible que tenga suficientes datos para que no sea necesario reutilizar algunos de ellos para reservarlos.
No existe un umbral sencillo para determinar qué constituye un conjunto de datos grande o pequeño. Pero si su modelo tarda un par de minutos o menos en ejecutarse, probablemente valga la pena cambiar a la validación cruzada.

Alternativamente, puede ejecutar una validación cruzada y ver si las puntuaciones de cada experimento parecen cercanas. Si cada experimento arroja los mismos resultados, probablemente un único conjunto de validación sea suficiente.

In [1]:
import pandas as pd

# Read the data
data = pd.read_csv('/kaggle/input/melbourne-housing-snapshot/melb_data.csv')

# Select subset of predictors
cols_to_use = ['Rooms', 'Distance', 'Landsize', 'BuildingArea', 'YearBuilt']
X = data[cols_to_use]

# Select target
y = data.Price

Luego, definimos una canalización que utiliza un imputador para completar los valores faltantes y un modelo de bosque aleatorio para hacer predicciones.

Si bien es posible realizar una validación cruzada sin canalizaciones, ¡es bastante difícil! El uso de una canalización hará que el código sea notablemente sencillo.

In [4]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

my_pipeline = Pipeline(steps=[('preprocessor', SimpleImputer()),
                              ('model', RandomForestRegressor(n_estimators=50,
                                                              random_state=0))
                             ])

Obtenemos las puntuaciones de validación cruzada con la función cross_val_score() de scikit-learn. Establecemos el número de pliegues con el parámetro cv.

In [5]:
from sklearn.model_selection import cross_val_score

# Multiply by -1 since sklearn calculates *negative* MAE
scores = -1 * cross_val_score(my_pipeline, X, y,
                              cv=5,
                              scoring='neg_mean_absolute_error')

print("MAE scores:\n", scores)

MAE scores:
 [301628.7893587  303164.4782723  287298.331666   236061.84754543
 260383.45111427]


El parámetro de puntuación elige una medida de la calidad del modelo para informar: en este caso, elegimos el error absoluto medio negativo (MAE). Los documentos de scikit-learn muestran una lista de opciones.

Es un poco sorprendente que especifiquemos MAE negativo. Scikit-learn tiene una convención en la que todas las métricas están definidas, por lo que un número alto es mejor. El uso de negativos aquí les permite ser consistentes con esa convención, aunque el MAE negativo es casi inaudito en otros lugares.

Normalmente queremos una medida única de la calidad del modelo para comparar modelos alternativos. Entonces tomamos el promedio de los experimentos.

In [6]:
print("Average MAE score (across experiments):")
print(scores.mean())

Average MAE score (across experiments):
277707.3795913405


### Conclusión

El uso de la validación cruzada produce una medida mucho mejor de la calidad del modelo, con el beneficio adicional de limpiar nuestro código: tenga en cuenta que ya no necesitamos realizar un seguimiento de los conjuntos de capacitación y validación por separado. Entonces, especialmente para conjuntos de datos pequeños, ¡es una buena mejora!