# Ejemplo de Validación Cruzada (Cross-Validation)

La **validación cruzada** es una técnica para evaluar el rendimiento de un modelo de machine learning de una manera más robusta que con una simple división de datos en entrenamiento y prueba (train/test split).

**¿Por qué es necesaria?**
Una única división train/test puede dar resultados muy optimistas o pesimistas dependiendo de qué muestras caen en cada conjunto. La validación cruzada resuelve esto dividiendo los datos en múltiples `pliegues` (folds) y entrenando el modelo varias veces, usando un pliegue diferente para la prueba en cada iteración.

**K-Fold Cross-Validation**
Es la técnica más común. Los pasos son:
1. Dividir el conjunto de datos en `k` pliegues (por ejemplo, k=5).
2. En cada iteración, usar `k-1` pliegues para entrenar y el pliegue restante para probar.
3. Repetir el proceso `k` veces.
4. El rendimiento final es el promedio de los resultados de las `k` iteraciones.

In [None]:
import pandas as pd
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

### 1. Cargar y Preparar los Datos
Nuevamente, usamos el dataset del Titanic.

In [None]:
df = pd.read_csv("../train.csv")

# Preprocesamiento simple
features = ["Pclass", "Sex", "Age", "SibSp", "Parch"]
target = "Survived"

df["Sex"] = df["Sex"].map({"male": 0, "female": 1})
df = df.dropna(subset=features)

X = df[features]
y = df[target]

### 2. Comparación: Train/Test Split vs. Validación Cruzada

Primero, evaluaremos un modelo con una única división para ver su resultado. Luego, usaremos validación cruzada para obtener una medida más fiable.

In [None]:
# Modelo a evaluar
model = LogisticRegression(random_state=42, max_iter=1000)

# a) Evaluación con un único Train/Test Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
model.fit(X_train, y_train)
accuracy = accuracy_score(y_test, model.predict(X_test))
print(f"Precisión con un único Train/Test Split: {accuracy:.4f}")

# b) Evaluación con Validación Cruzada (k=5)
# `cv=5` indica que se usarán 5 pliegues
scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')

print("
Resultados de la Validación Cruzada (k=5):")
print(f"  - Puntuaciones de cada pliegue: {scores}")
print(f"  - Precisión Promedio: {scores.mean():.4f}")
print(f"  - Desviación Estándar: {scores.std():.4f}")

### Conclusión

- La precisión con un único split fue de **0.7907**. Este es solo un número y podría ser engañoso.

- La validación cruzada nos da una visión mucho más completa:
  - Vemos que el rendimiento del modelo varía en cada pliegue (desde ~76% hasta ~84%).
  - La **precisión promedio (0.7955)** es una estimación más realista del rendimiento del modelo en datos nuevos.
  - La **desviación estándar (0.0265)** nos indica qué tan consistentes son los resultados. Una desviación baja significa que el rendimiento del modelo es estable.

La validación cruzada es la forma estándar y más confiable de evaluar un modelo antes de desplegarlo.