# **Validación Cruzada (Cross-Validation)**
La validación cruzada (cross-validation) es una técnica utilizada para evaluar el rendimiento de un modelo de manera más robusta. Esta metodología no solo divide los datos en train/test una vez, sino que se realizan múltiples particiones para asegurar que todas las observaciones participen en el entrenamiento y en la validación.

Entonces, en lugar de entrenar el modelo una sola vez y evaluarlo sobre un test fijo, la validación cruzada divide los datos en múltiples subconjuntos (llamados folds) y realiza varios entrenamientos y evaluaciones.

Hay varias estrategias para realizar las particiones:
- KFold: División estándar en k partes.
- StratifiedKFold: Clasificación con clases desbalanceadas.
- TimeSeriesSplit: Modelos con series temporales.
- LeaveOneOut: Máxima granularidad, una observación por fold.

La metodología detras de este método (con KFold) viene dada por los siguientes pasos:

1. Se divide el dataset en k partes o folds del mismo tamaño.
2. Se repite el entrenamiento del modelo k veces:
 - En cada iteración se usa un fold diferente como conjunto de validación.
 - Los k-1 folds restantes se usan como entrenamiento.
3. Se calcula la métrica de interés en cada fold.
4. Se obtiene el promedio de las k métricas y así se obtiene el rendimiento final del modelo.

Entre sus ventajas destaca una mayor fiabilidad en comparació a realizar una única divisón train/test, reduce la varianza de la estimación de desempeño y ayuda a detectar overfitting y underfitting.

Se recomiendo realizar una validación cruzada antes de hacer GridSearchCV o RandomizedSearchCV y también para comparar modelos entre sí.


Realicemos un ejemplo para visualizar la metodología

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
import numpy as np

Dataset

In [None]:
X, y = load_iris(return_X_y=True)

Modelo

In [None]:
model = RandomForestClassifier(random_state=42)

Evaluación usando validación cruzada (k=5)

In [None]:
scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')

Métricas

In [None]:
print("Accuracy en cada fold:", scores)
print("Promedio:", np.mean(scores))
print("Desviación estándar:", np.std(scores))

Accuracy en cada fold: [0.96666667 0.96666667 0.93333333 0.96666667 1.        ]
Promedio: 0.9666666666666668
Desviación estándar: 0.02108185106778919


Ahora, veamos un ejemplo pero con 2 métricas

In [None]:
from sklearn.model_selection import cross_validate
from sklearn.linear_model import LogisticRegression

Modelo

In [None]:
model = LogisticRegression(max_iter=1000)

Evalua múltiples métricas

In [None]:
results = cross_validate(
    model, X, y,
    cv=5,
    scoring=['accuracy', 'f1_macro'],
    return_train_score=True
)

Resultados

In [None]:
print("Accuracy promedio:", np.mean(results['test_accuracy']))
print("F1-macro promedio:", np.mean(results['test_f1_macro']))

Accuracy promedio: 0.9666666666666668
F1-macro promedio: 0.9664818612187034
