| **Inicio** | **atrás 11** | **Siguiente 13** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./11_K-Vecinos.ipynb)| [⏩](./13_K-means.ipynb)|

# **12. Cross-validation (o Validación Cruzada) para Evaluar Modelos de Machine Learning con Python**

## **Evaluación tradicional**

La validación cruzada (cross-validation en inglés) es una técnica fundamental en la evaluación de modelos de machine learning para estimar su rendimiento de manera más robusta y precisa. Ayuda a evitar problemas de sobreajuste y proporciona una mejor estimación del rendimiento del modelo en datos no vistos. En esta explicación, te guiaré a través de los conceptos de la validación cruzada y te proporcionaré un ejemplo práctico utilizando Python y la librería Scikit-Learn.

**Concepto de Validación Cruzada**:

La validación cruzada implica dividir el conjunto de datos en múltiples subconjuntos llamados "pliegues" o "folds". Luego, se entrenan y evalúan los modelos en diferentes combinaciones de pliegues para estimar su rendimiento. El objetivo es obtener una medida más precisa y confiable del rendimiento general del modelo en datos no vistos.

**Pasos de la Validación Cruzada**:

1. **Dividir los datos**: Los datos se dividen en k pliegues (folds). Cada pliegue se utiliza como conjunto de prueba una vez, mientras que los restantes se utilizan para entrenamiento.

2. **Entrenar y evaluar**: Se entrena el modelo en k-1 pliegues y se evalúa en el pliegue restante. Esto se repite k veces, utilizando cada pliegue como conjunto de prueba una vez.

3. **Calcular métricas**: Se calculan las métricas de evaluación (por ejemplo, precisión, exactitud, F1-score) para cada iteración y se promedian para obtener una estimación del rendimiento del modelo.

**Ejemplo de Validación Cruzada con Python**:

In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

# Cargar el conjunto de datos Iris
iris = load_iris()
X = iris.data
y = iris.target

# Crear un modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)

# Realizar validación cruzada con 5 pliegues
scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')

# Imprimir las puntuaciones de cada pliegue
print("Puntuaciones de validación cruzada:", scores)

# Calcular la precisión promedio
average_accuracy = np.mean(scores)
print("Precisión promedio:", average_accuracy)

Puntuaciones de validación cruzada: [0.96666667 0.96666667 0.93333333 0.96666667 1.        ]
Precisión promedio: 0.9666666666666668


En este ejemplo, utilizamos el conjunto de datos Iris y un modelo KNN. La función `cross_val_score` realiza validación cruzada con 5 pliegues (cv=5) y utiliza la métrica de precisión ("accuracy") como medida de evaluación. La variable `scores` contiene las puntuaciones de cada pliegue, y luego calculamos la precisión promedio.

**Ventajas de la Validación Cruzada**:

- Proporciona una estimación más confiable del rendimiento del modelo en datos no vistos.
- Ayuda a evitar problemas de sobreajuste y subajuste.
- Utiliza todos los datos para entrenamiento y prueba en diferentes combinaciones.

La validación cruzada es una técnica esencial para evaluar modelos de machine learning de manera robusta y confiable, lo que la convierte en una herramienta importante en el proceso de desarrollo y selección de modelos.

## **Validación cruzada ¿Por qué?**

La validación cruzada es una técnica fundamental en el proceso de evaluación de modelos de machine learning por varias razones clave:

1. **Estimación robusta del rendimiento**: Al dividir los datos en múltiples pliegues y realizar evaluaciones en diferentes subconjuntos, la validación cruzada proporciona una estimación más robusta y precisa del rendimiento del modelo en datos no vistos. Esto ayuda a reducir la posibilidad de obtener una evaluación sesgada debido a una división específica de los datos.

2. **Mejor uso de los datos**: La validación cruzada utiliza todos los datos tanto para entrenamiento como para prueba en diferentes iteraciones. Esto es especialmente útil cuando se dispone de un conjunto de datos limitado, ya que maximiza la utilización de los datos disponibles para la evaluación del modelo.

3. **Evaluación del rendimiento real**: La validación cruzada proporciona una evaluación más realista del rendimiento del modelo en situaciones del mundo real. Cada iteración de prueba utiliza datos no vistos durante el entrenamiento, lo que permite evaluar cómo se comportará el modelo en situaciones reales de predicción.

4. **Evitar sobreajuste y subajuste**: La validación cruzada ayuda a identificar si el modelo está sobreajustando o subajustando los datos. Si el modelo tiene un rendimiento consistente en diferentes pliegues, es más probable que esté generalizando bien.

5. **Selección de hiperparámetros**: La validación cruzada es crucial para la selección de hiperparámetros óptimos. Permite comparar diferentes configuraciones de hiperparámetros y elegir la que proporciona el mejor rendimiento promedio en diferentes pliegues.

6. **Información adicional**: La validación cruzada proporciona información adicional sobre la variabilidad del rendimiento del modelo. Las desviaciones estándar y las diferencias en las puntuaciones entre pliegues pueden dar una idea de la estabilidad del modelo en diferentes situaciones.

En resumen, la validación cruzada es esencial para obtener una evaluación precisa y confiable del rendimiento de un modelo de machine learning. Proporciona una estimación más realista del rendimiento en datos no vistos y ayuda en la toma de decisiones informadas sobre la selección de modelos y configuraciones de hiperparámetros.

## **Validación cruzada ¿Cómo?**

La validación cruzada es un enfoque que implica dividir el conjunto de datos en múltiples partes, llamados pliegues o "folds", y luego realizar iteraciones en las que cada pliegue se utiliza alternativamente como conjunto de prueba mientras que los demás pliegues se utilizan como conjunto de entrenamiento. Esto nos permite obtener una estimación más precisa del rendimiento del modelo en datos no vistos.

A continuación, te mostraré cómo realizar la validación cruzada en Python utilizando la librería scikit-learn:

In [3]:
import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# Cargar el conjunto de datos (por ejemplo, Iris)
iris = load_iris()
X = iris.data
y = iris.target

# Escalar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Crear un modelo (por ejemplo, Regresión Logística)
model = LogisticRegression(max_iter=1000)  # Aumentar el número de iteraciones

# Realizar validación cruzada con 5 pliegues
scores = cross_val_score(model, X_scaled, y, cv=5)

# Imprimir los resultados de cada pliegue
for i, score in enumerate(scores):
    print(f"Pliegue {i+1}: Precisión = {score:.2f}")

# Imprimir la precisión promedio
print(f"Precisión promedio: {np.mean(scores):.2f}")

Pliegue 1: Precisión = 0.97
Pliegue 2: Precisión = 1.00
Pliegue 3: Precisión = 0.93
Pliegue 4: Precisión = 0.90
Pliegue 5: Precisión = 1.00
Precisión promedio: 0.96


En este ejemplo, utilizamos el conjunto de datos Iris y un modelo de Regresión Logística como ejemplo. `cross_val_score` realiza automáticamente la validación cruzada con el número de pliegues especificado (`cv=5` en este caso). El resultado es una lista de puntuaciones de precisión para cada pliegue.

La validación cruzada se encarga de dividir los datos en pliegues, entrenar y evaluar el modelo en cada pliegue, y luego devuelve las puntuaciones de rendimiento para cada iteración. Finalmente, calculamos y mostramos la precisión promedio.

Esta técnica permite obtener una mejor estimación del rendimiento del modelo en datos no vistos y es especialmente útil para evitar resultados sesgados debido a una división particular de los datos.

| **Inicio** | **atrás 11** | **Siguiente 13** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./11_K-Vecinos.ipynb)| [⏩](./13_K-means.ipynb)|