# Evaluación del modelo utilizando validación cruzada

La validación cruzada (Cross-validation) es un método estadístico usado para evaluar el desempeño de un modelo en un conjunto de datos independiente. 
- Implica dividir los datos en múltiples pliegues (*folds*) o subconjuntos, utilizando uno de estos pliegues como un conjunto de validación y entrenando el modelo en los pliegues restantes. 
- Este proceso se repite varias veces cada vez utilizando un pliegue diferente como conjunto de validación. 
- Finalmente, los resultados de cada paso de validación se promedian para producir una estimación más sólida del rendimiento del modelo.

![image.png](attachment:image.png)

El objetivo principal de la validación cruzada es evitar el **sobreajuste**. 
- Al evaluar el modelo en múltiples conjuntos de validación, la validación cruzada proporciona una estimación más realista del rendimiento de generalización del modelo
- es decir, su capacidad para desempeñarse bien en datos nuevos, no vistos por el modelo.

Discutiremos los aspectos prácticos de evaluar el rendimiento de generalización de nuestro modelo a través de la validación cruzada en lugar de una sola división de entrenamiento-prueba.

## Preparación de datos

In [None]:
import pandas as pd

adult_census = pd.read_csv("../../data/adult-census-numeric/train.csv")

In [None]:
target_name = "class"


In [None]:
numerical_columns = ["age", "capital-gain", "capital-loss", "hours-per-week"]


In [None]:
# podemos crear un modelo utilizando make_pipeline para encadenar el preprocesamiento y
# el estimador en cada iteración de la validación cruzada.

from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

model = make_pipeline(StandardScaler(), LogisticRegression())

# Validación cruzada
La función `cross_validate` permite hacer validación cruzada y debemos pasarle el modelo, los datos y el target.

- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html

In [None]:
%%time


La salida de cross_validate es un diccionario de Python, que por defecto contiene tres entradas:

- **fit_time**: el tiempo para entrenar el modelo en los datos de entrenamiento para cada pliegue.
- **score_time**: El tiempo para predecir con el modelo en los datos de prueba para cada pliegue.
- **test_score**: La puntuación predeterminada en los datos de prueba para cada pliegue.

In [None]:
# Extraemos los puntajes calculados en el pliegue de prueba de cada ronda de validación cruzada del diccionario cv_result 
# y calculamos la precisión media y la variación de la precisión entre los pliegues.


## Estrategias de validación cruzada

Hay varias formas de realizar validación cruzada y, dependiendo del modelo, la disponibilidad de datos y el tipo de problema con el que estemos trabajando será un factor decisivo sobre qué técnica funcionará mejor.

Algunas de las técnicas más importantes son las siguientes:
- Holdout Cross-Validation
- Stratified K-Fold CV
- Leave P Out CV
- Monte Carlo Cross Validation/Shuffle Split
- Time Series CV
- K Fold Cross-Validation

*Ver anexo: Técnicas Validación Cruzada*

> **Saber más - métricas**: https://neptune.ai/blog/performance-metrics-in-machine-learning-complete-guide