# Validación cruzada (Cross Validation)

Explicación extraída de `ChatGPT`:

La **validación cruzada (cross-validation)** es una técnica utilizada en el aprendizaje automático para evaluar la capacidad de generalización de un modelo. Específicamente, mide cómo se desempeñará el modelo en datos no vistos al dividir el conjunto de datos en partes y realizar múltiples iteraciones de entrenamiento y prueba. Esto ayuda a reducir el riesgo de sobreajuste (overfitting) y subajuste (underfitting).

## ¿Cómo funciona?

1. División del conjunto de datos:

    * El conjunto de datos se divide en varias partes o "pliegues" (folds). Por ejemplo, si utilizas una validación cruzada de 5 pliegues (5-fold cross-validation), el conjunto de datos se divide en 5 partes aproximadamente iguales.

2. Iteraciones de entrenamiento y prueba:

    * En cada iteración, se utiliza uno de los pliegues como conjunto de prueba, y los restantes como conjunto de entrenamiento.
    * Este proceso se repite tantas veces como pliegues existan, asegurando que cada pliegue se utilice exactamente una vez como conjunto de prueba.

3. Promedio del desempeño:

    * Una vez completadas todas las iteraciones, se calcula el promedio de las métricas de evaluación (como precisión, F1-score, error cuadrático medio, etc.). Este promedio proporciona una estimación más confiable del desempeño del modelo.


## Ejemplo de validación cruzada en un contexto cotidiano

Imagina que eres un maestro y quieres evaluar si tus estudiantes entienden un tema. Tienes un conjunto de preguntas (equivalente al conjunto de datos) y decides hacer múltiples pruebas para obtener una evaluación precisa.

### 1. Dividir el conjunto de datos
Supongamos que tienes 10 preguntas. Divides estas preguntas en 5 grupos de 2 preguntas cada uno. Cada grupo representa un "pliegue" (*fold*).

- **Grupo 1**: Pregunta 1 y Pregunta 2  
- **Grupo 2**: Pregunta 3 y Pregunta 4  
- **Grupo 3**: Pregunta 5 y Pregunta 6  
- **Grupo 4**: Pregunta 7 y Pregunta 8  
- **Grupo 5**: Pregunta 9 y Pregunta 10  

### 2. Entrenamiento y prueba en iteraciones
Ahora, haces 5 evaluaciones. En cada evaluación:

- Tomas 8 preguntas para "enseñar" a los estudiantes (equivalente al entrenamiento del modelo).
- Usas las 2 preguntas restantes para "probar" a los estudiantes (equivalente al conjunto de prueba).

Por ejemplo:

- **Primera evaluación**:
  - Enseñas con las preguntas de los Grupos 2, 3, 4 y 5.
  - Evalúas con las preguntas del Grupo 1.
  
- **Segunda evaluación**:
  - Enseñas con las preguntas de los Grupos 1, 3, 4 y 5.
  - Evalúas con las preguntas del Grupo 2.

Repite este proceso hasta que cada grupo haya sido utilizado como conjunto de prueba una vez.

### 3. Promediar los resultados
Después de las 5 evaluaciones, observas el desempeño de los estudiantes en cada grupo de prueba y calculas el promedio. Esto te da una idea más precisa de cuánto han aprendido, ya que cada pregunta fue evaluada en un contexto diferente.

---

### ¿Qué logramos con esto?

1. **Menos sesgo**:  
   Si usaras siempre el mismo conjunto de preguntas para evaluar (como usar siempre el Grupo 1), podrías sobreestimar o subestimar lo aprendido, dependiendo de la dificultad de esas preguntas.

2. **Evaluación completa**:  
   Cada pregunta tuvo la oportunidad de ser parte del conjunto de prueba, asegurando que todas contribuyan a evaluar el entendimiento general.

Esto es exactamente lo que hace la validación cruzada en aprendizaje automático: entrena y prueba un modelo en diferentes subconjuntos del conjunto de datos para garantizar que se evalúe su capacidad de generalización de manera justa y precisa.


## Ejemplo con Python

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier # podemos usar cualquier otro modelo de regresion o clasificacion
from sklearn.model_selection import cross_val_score

In [4]:
personas = pd.read_csv("../datos/salario.csv")
print(personas.shape)
personas.head()

(100, 3)


Unnamed: 0,edad,estudio,ingreso
0,27,9,0
1,30,9,0
2,34,8,0
3,26,13,0
4,23,4,0


In [9]:
bosque = RandomForestClassifier()
bosque.fit(personas[["edad", "estudio"]].values, personas["ingreso"].values)

# validacion o score poco representativo y no muy real
print(bosque.score(personas[["edad", "estudio"]].values, personas["ingreso"].values))

# validacion mas acertada con la realidad
print(cross_val_score(bosque, 
                      personas[["edad", "estudio"]].values, 
                      personas["ingreso"].values,
                      cv=5) # cantidad de pliegues o subgrupos
                      .mean())

0.97
0.78
