# Evaluación del modelo utilizando validación cruzada

Discutiremos los aspectos prácticos de evaluar el rendimiento de generalización de nuestro modelo a través de la validación cruzada en lugar de una sola división de prueba de tren.

## Preparación de datos

In [2]:
import pandas as pd

adult_census = pd.read_csv("../../data/adult-census-numeric/train.csv")

In [3]:
target_name = "class"
target = adult_census[target_name]
data = adult_census.drop(columns=target_name)

In [4]:
numerical_columns = ["age", "capital-gain", "capital-loss", "hours-per-week"]
data_numeric = data[numerical_columns]

In [5]:
# podemos crear un modelo utilizando la herramienta Make_Pipeline para encadenar el preprocesamiento y
# el estimador en cada iteración de la validación cruzada.

from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

model = make_pipeline(StandardScaler(), LogisticRegression())

# Validación cruzada
La función `cross_validate` permite hacer validación cruzada y debemos pasarle el modelo, los datos y el target.

In [6]:
%%time
from sklearn.model_selection import cross_validate

model = make_pipeline(StandardScaler(), LogisticRegression())
cv_result = cross_validate(model, data_numeric, target, cv=5)
cv_result

CPU times: total: 219 ms
Wall time: 237 ms


{'fit_time': array([0.04215336, 0.0380702 , 0.03404975, 0.03143406, 0.03654122]),
 'score_time': array([0.00600076, 0.0060215 , 0.00452113, 0.00592589, 0.00551081]),
 'test_score': array([0.79373001, 0.80383877, 0.79923225, 0.80125416, 0.80074226])}

La salida de cross_validate es un diccionario de Python, que por defecto contiene tres entradas:

- **fit_time**: el tiempo para entrenar el modelo en los datos de entrenamiento para cada pliegue.
- **score_time**: El tiempo para predecir con el modelo en los datos de prueba para cada pliegue.
- **test_score**: La puntuación predeterminada en los datos de prueba para cada pliegue.

In [7]:
# Extraemos los puntajes calculados en el pliegue de prueba de cada ronda de validación cruzada del diccionario cv_result 
# y calculamos la precisión media y la variación de la precisión entre los pliegues.

scores = cv_result["test_score"]
print(
    "La precisión media de la validación cruzada es: "
    f"{scores.mean():.3f} ± {scores.std():.3f}"
)

La precisión media de la validación cruzada es: 0.800 ± 0.003
