# Cross-Validation: Una Guía Completa

## Introducción

La **Validación Cruzada (Cross-Validation)** es una técnica utilizada en Machine Learning para evaluar el rendimiento de un modelo de manera robusta. Divide los datos en diferentes subconjuntos, permitiendo entrenar y validar el modelo en diferentes combinaciones de datos. Esto ayuda a garantizar que el modelo generalice bien a datos no vistos.

---

## Concepto Fundamental

La validación cruzada implica dividir los datos en "k" subconjuntos (o *folds*). En cada iteración:
1. Se selecciona un subconjunto como datos de prueba.
2. Los otros subconjuntos se utilizan como datos de entrenamiento.
3. El proceso se repite k veces, asegurando que cada subconjunto sea usado como datos de prueba exactamente una vez.

El rendimiento promedio de todas las iteraciones se utiliza como métrica final del modelo.

---

## Método de Feynman

Imagina que estás aprendiendo a jugar ajedrez. Para mejorar, decides practicar contra diferentes amigos. Primero, juegas contra el amigo 1, mientras observas las estrategias de los demás. Luego, cambias y juegas contra el amigo 2, y así sucesivamente. Al final, evalúas tus habilidades considerando cómo te fue con cada amigo. Esto es como Cross-Validation: el modelo "aprende" en diferentes combinaciones de datos y se evalúa en las restantes.

---

## Tipos de Cross-Validation

### 1. **k-Fold Cross-Validation**

Divides los datos en $k$ *folds*. En cada iteración:
- Uno de los folds se usa para prueba.
- Los $k-1$ folds restantes se usan para entrenamiento.

#### Fórmula:

$$
\text{Métrica Promedio} = \frac{1}{k} \sum_{i=1}^{k} \text{Métrica}_i
$$

#### Aplicación:
- Bueno para conjuntos de datos pequeños o medianos.
- Ejemplo: Evaluar un modelo de clasificación de clientes.

---

### 2. **Leave-One-Out Cross-Validation (LOOCV)**

En este método, cada muestra se utiliza como conjunto de prueba exactamente una vez, mientras el resto se usa para entrenamiento. Es un caso extremo de $k$-fold donde $k = n$.

#### Aplicación:
- Bueno para conjuntos de datos muy pequeños.
- Computacionalmente costoso.

---

### 3. **Stratified k-Fold Cross-Validation**

Es una variación de $k$-fold donde se asegura que la proporción de clases en cada fold sea similar a la del conjunto original. Es útil para problemas de clasificación desbalanceados.

#### Aplicación:
- Problemas de clasificación con clases desbalanceadas.

---

### 4. **Time Series Cross-Validation**

En problemas con datos temporales, no se pueden usar datos futuros para predecir el pasado. Este método asegura que la validación respete la secuencia temporal.

#### Aplicación:
- Modelos de series de tiempo (e.g., predicción de ventas).

---

## Comparación de Métodos

| **Método**                   | **Ventajas**                                      | **Limitaciones**                                    | **Aplicaciones Comunes**           |
|-------------------------------|--------------------------------------------------|----------------------------------------------------|-------------------------------------|
| **k-Fold**                   | Balance entre tiempo de cómputo y precisión.     | Puede no funcionar bien con datos desbalanceados.  | Clasificación y regresión general. |
| **LOOCV**                    | Utiliza todo el conjunto de datos.               | Muy costoso para grandes conjuntos de datos.       | Conjuntos pequeños.                |
| **Stratified k-Fold**        | Proporciones de clases consistentes.             | Computacionalmente más costoso que $k$-fold.     | Clasificación desbalanceada.       |
| **Time Series Cross-Validation** | Respeta la secuencia temporal de los datos.    | No puede mezclar datos de manera aleatoria.         | Series temporales.                 |

---

## Ejemplo Práctico en Python

### Configuración del entorno

In [1]:
from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
import numpy as np

# Cargar datos de ejemplo
data = load_iris()
X = data.data
y = data.target

# Modelo de regresión logística
model = LogisticRegression(max_iter=200)

### 1. k-Fold Cross-Validation

In [2]:
# Configuración de 5 folds
kf = KFold(n_splits=5, shuffle=True, random_state=24)

# Validación cruzada
scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')

print("Accuracy en cada fold:", scores)
print("Accuracy promedio:", np.mean(scores))

Accuracy en cada fold: [1.         0.96666667 1.         0.93333333 0.93333333]
Accuracy promedio: 0.9666666666666668


### 2. Stratified k-Fold Cross-Validation

In [3]:
# Configuración de 5 folds estratificados
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada
stratified_scores = cross_val_score(model, X, y, cv=skf, scoring='accuracy')

print("Accuracy en cada fold (estratificado):", stratified_scores)
print("Accuracy promedio (estratificado):", np.mean(stratified_scores))

Accuracy en cada fold (estratificado): [1.         0.96666667 0.93333333 1.         0.93333333]
Accuracy promedio (estratificado): 0.9666666666666668


### 3. Time Series Cross-Validation (Simulación)

In [4]:
from sklearn.model_selection import TimeSeriesSplit

# Configuración de 3 divisiones de series temporales
tscv = TimeSeriesSplit(n_splits=3)

# Validación cruzada
time_series_scores = cross_val_score(model, X, y, cv=tscv, scoring='accuracy')

print("Accuracy en cada fold (series temporales):", time_series_scores)
print("Accuracy promedio (series temporales):", np.mean(time_series_scores))

Accuracy en cada fold (series temporales): [       nan 0.64864865 0.75675676]
Accuracy promedio (series temporales): nan


1 fits failed out of a total of 3.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
1 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\juanp\OneDrive\Documentos\TripleTen\QAGeneral\Lib\site-packages\sklearn\model_selection\_validation.py", line 888, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\juanp\OneDrive\Documentos\TripleTen\QAGeneral\Lib\site-packages\sklearn\base.py", line 1473, in wrapper
    return fit_method(estimator, *args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\juanp\OneDrive\Documentos\TripleTen\QAGeneral\Lib\site-packages\sklearn\linear_model\_logistic.py", line 1301, in fit
    raise ValueError(
ValueError:

## Consejos Prácticos
1. **Usa stratified k-fold para datos desbalanceados**: Esto asegura que la proporción de clases sea consistente en los folds.
2. **Respeta el orden temporal**: En problemas de series temporales, usa métodos que respeten la secuencia.
3. **No uses los datos de validación para ajustar el modelo**: Siempre separa datos de prueba para evaluar el modelo final.