# Validación cruzada

Estado del apunte: elaboración en curso.


Aprender los parámetros de una función de predicción y probarla con los mismos datos es un error metodológico: un modelo que simplemente repita las etiquetas de las muestras que acaba de analizar obtendrá una puntuación perfecta, pero no predecirá nada útil con datos aún no analizados. Esta situación se denomina sobreajuste. Para evitarlo, es habitual, al realizar un experimento de aprendizaje automático (supervisado), conservar parte de los datos disponibles como conjunto de prueba X_test, y_test. Cabe destacar que el término "experimento" no se limita a su uso académico, ya que incluso en entornos comerciales, el aprendizaje automático suele comenzar de forma experimental. A continuación, se presenta un diagrama de flujo de un flujo de trabajo típico de validación cruzada en el entrenamiento de modelos. Los mejores parámetros se pueden determinar mediante técnicas de búsqueda en cuadrícula (grid-search).

![Diagrama de flujo de entrenamiento de modelos](https://scikit-learn.org/stable/_images/grid_search_workflow.png)

Referencia: https://scikit-learn.org/stable/modules/cross_validation.html#

## Lectura introductoria

https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada

## Validacion cruzada en sklearn

https://qu4nt.github.io/sklearn-doc-es/modules/cross_validation.html

## Un resumen

### Diferencias entre KFold y ShuffleSplit para validación cruzada en sklearn

Tanto `KFold` como `ShuffleSplit` son estrategias de validación cruzada en scikit-learn, pero funcionan de manera diferente:

## KFold
- **Cómo funciona**: Divide el conjunto de datos en K particiones consecutivas (folds)
- **Características**:
  - Cada muestra aparece exactamente una vez en el conjunto de prueba
  - Las particiones son bloques contiguos por defecto (a menos que se mezclen)
  - Conserva el orden de las muestras a menos que se active `shuffle=True`
  - Ideal para conjuntos de datos pequeños donde quieres usar todos los datos tanto para entrenamiento como para prueba



![K-fold cross validation](https://scikit-learn.org/stable/_images/grid_search_cross_validation.png)



## ShuffleSplit
- **Cómo funciona**: Divide los datos aleatoriamente en conjuntos de entrenamiento y prueba en cada iteración
- **Características**:
  - Cada iteración realiza una división aleatoria independiente
  - Las muestras pueden aparecer múltiples veces en los conjuntos de prueba
  - No garantiza que todas las muestras estarán en algún conjunto de prueba
  - Ideal para conjuntos grandes o cuando necesitas control sobre los tamaños de train/test

## Diferencias principales

| Característica   | KFold                          | ShuffleSplit                   |
|------------------|-------------------------------|--------------------------------|
| Uso de muestras  | Cada muestra se prueba 1 vez  | Muestras pueden probarse varias veces o nunca |
| Orden           | Conservado (a menos que shuffle=True) | Siempre aleatorio |
| Tamaños         | Particiones iguales (o casi)  | Tamaños personalizables de train/test |
| Solapamiento    | Sin solapamiento entre folds  | Posible solapamiento en tests  |
| Recomendado para| Datasets pequeños             | Datasets grandes              |

## Ejemplos de uso (mi pequeño machete)

```python
from sklearn.model_selection import KFold, ShuffleSplit

# Ejemplo KFold (5 particiones)
kf = KFold(n_splits=5)
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    # entrenar y evaluar modelo

# Ejemplo ShuffleSplit (5 divisiones, 20% para test)
ss = ShuffleSplit(n_splits=5, test_size=0.2)
for train_index, test_index in ss.split(X):
    X_train, X_test = X[train_index], X[test_index]
    # entrenar y evaluar modelo
```

**Tip**: Elige `KFold` cuando necesites un muestreo exhaustivo (cada muestra se prueba exactamente una vez) y `ShuffleSplit` cuando prefieras mayor flexibilidad o trabajes con conjuntos de datos grandes.

# ¿ Cuál esquema de cross-validation utilizar ?

La respuesta corta es **depende** de los datos.

Sugiero que revises el capítulo del curso cross-validation choise del curso https://inria.github.io/scikit-learn-mooc/



a) https://inria.github.io/scikit-learn-mooc/python_scripts/cross_validation_stratification.html

b) https://inria.github.io/scikit-learn-mooc/python_scripts/cross_validation_grouping.html

c) https://inria.github.io/scikit-learn-mooc/python_scripts/cross_validation_time.html

# Piensa y responde

A) ¿ cuál esquema de validación cruzada usarías si

1. tienes pocos datos?
2. es un problema de regresión ?
3. tu dataset tiene sus clases desbalanceadas?
4. tus datos tienen sus clases balanceadas ?
5. tus datos son NO i.i.d ? Explica y da ejemplos de este tipo de datos.

Para cualquiera de las respuestas, justifica de forma más completa.

B) ¿se te ocurre algún otro caso no expuesto o presentado en este apunte o contemplado en las preguntas anteriores? De ser así, compártelo.