# Validacion Cruzada Estratificada

Es una tecnica que se usa para evaluar modelos de manera mas confiable. Es una variante de la validacion K-Fold donde la division en folds se hace de tal manera que se preservan las proporciones de las clases en cada fold. Esto es especialmente util cuando se trabaja con conjuntos de datos desbalanceados.

## Proceso de la Validacion Cruzada Estratificada

Supongamos que tenemos el siguiente conjunto de datos que consta de una variable predictora (*X*) y una variable objetivo (*y*) que contiene dos clases: 0 y 1.

- Datos (X) : [*Muestra1, Muestra2, Muestra3, Muestra4, Muestra5, Muestra6, Muestra7, Muestra8, Muestra9, Muestra10*]

- Etiquetas (y) : [0, 0, 0, 0, 1, 1, 1, 1, 1, 1]

Vamos a realizar una validacion cruzada estratificada K-Fold con $k = 2$. El proceso general de este metodo es el siguiente:

### 1.- Dividir el conjunto de datos por clase

Separamos los datos por clase

- Clase 0 : [*Muestra1, Muestra2, Muestra3, Muestra4*]
- Clase 1 : [*Muestra5, Muestra6, Muestra7, Muestra8, Muestra9, Muestra10*]

### 2.- Dividir cada clase en $k$ Folds
Dividimos cada clase en $k$ folds. En este caso, $k=2$

**Para la clase 0 tenemos 4 muestras**:
- Fold 1 : [*Muestra1, Muestra2*]
- Fold 2 : [*Muestra3, Muestra4*]

**Para la clase 1 tenemos 6 muestras**:
- Fold 1 : [*Muestra5, Muestra6, Muestra7*]
- Fold 2 : [*Muestra8, Muestra9, Muestra10*]

### 3.- Combinar los Folds para crear conjuntos de entrenamiento y prueba

En cada iteracion, combinamos los folds de ambas clases para crear los conjuntos de entrenamiento y prueba

**Iteracion 1:**
- Conjunto test : [*Muestra1, Muestra2, Muestra5, Muestra6, Muestra7*]
- Conjunto train : [*Muestra3, Muestra4, Muestra8, Muestra9, Muestra10*]

**Iteracion 2:**
- Conjunto test : [*Muestra3, Muestra4, Muestra8, Muestra9, Muestra10*]
- Conjunto train : [*Muestra1, Muestra2, Muestra5, Muestra6, Muestra7*]

Este proceso garantiza que cada fold tiene una representación proporcional de cada clase, lo que es crucial para evaluar de manera justa el rendimiento del modelo, especialmente en problemas de clasificación con clases desbalanceadas.

## Implementacion Manual

Vamos a trabajar sobre los datos anteriores: X e y

In [2]:
# libreria para operar arrays
import numpy as np
import pandas as pd

# Datos de ejemplo

# variable predictora
X = np.array(['Muestra1', 'Muestra2', 'Muestra3', 'Muestra4', 'Muestra5', 
              'Muestra6', 'Muestra7', 'Muestra8', 'Muestra9', 'Muestra10'])
#variable objetivo
y = np.array([0, 0, 0, 0, 1, 1, 1, 1, 1, 1])

# dataframe con las variables
df = pd.DataFrame({'Muestra': X, 'y':y})

# mostrar dataframe
df

Unnamed: 0,Muestra,y
0,Muestra1,0
1,Muestra2,0
2,Muestra3,0
3,Muestra4,0
4,Muestra5,1
5,Muestra6,1
6,Muestra7,1
7,Muestra8,1
8,Muestra9,1
9,Muestra10,1


Seleccionamos la cantidad de folds que requerimos

In [3]:
# numero de folds
k = 2

### 1.- Dividir los datos por clase
Seleccionamos los indices de cada clase, que en este caso son dos: Clase de tipo 0 y clase de tipo 1

In [4]:
# indice de cada clase
index_clase0 = np.where(y == 0)[0]
index_clase1 = np.where(y == 1)[0]
print(index_clase0, ' ', index_clase1)

[0 1 2 3]   [4 5 6 7 8 9]


Mezclamos los indices de cada clase para asegurar aleatoriedad en la seleccion

In [5]:
# mezcla aleatoria de los indices
np.random.shuffle(index_clase0)
np.random.shuffle(index_clase1)


### 2.- Dividimos cada clase en $k$ folds
Dividimos los indices en $k$ folds que en este caso decidimos que fueran 2 folds

In [6]:
fold_clase0 = np.array_split(index_clase0, k)
fold_clase1 = np.array_split(index_clase1, k)
print(fold_clase0, ' ', fold_clase1)

[array([1, 3]), array([2, 0])]   [array([6, 7, 5]), array([4, 9, 8])]


### 3.- Combinar los folds
Creamos los folds combinando las clases estratificadas

In [8]:
folds = []
for i in range(k):
    fold = np.concatenate((fold_clase0[i], fold_clase1[i]))
    folds.append(fold)
print(folds)


[array([1, 3, 6, 7, 5]), array([2, 0, 4, 9, 8])]


### 4.- Crear los conjuntos de entrenamiento y preba
Generamos los conjuntos de entrenamiento y de prueba

In [10]:
for i in range(k):
    # indices de observaciones para prueba
    test_index = folds[i]
    # indice de observaciones para entrenamiento
    train_index = np.concatenate([folds[j] for j in range(k) if j != i])
    # datos de entrenamiento
    X_train, y_train = X[train_index], y[train_index]
    # datos de prueba
    X_test, y_test = X[test_index], y[test_index]
    
    # mostrar conjuntos de cada iteracion
    print(f'Iteracion {i+1}')
    print('Datos de prueba: ', X_test, y_test)
    print('Datos de entrenamiento: ', X_train, y_train)
    print(' ')

Iteracion 1
Datos de prueba:  ['Muestra2' 'Muestra4' 'Muestra7' 'Muestra8' 'Muestra6'] [0 0 1 1 1]
Datos de entrenamiento:  ['Muestra3' 'Muestra1' 'Muestra5' 'Muestra10' 'Muestra9'] [0 0 1 1 1]
 
Iteracion 2
Datos de prueba:  ['Muestra3' 'Muestra1' 'Muestra5' 'Muestra10' 'Muestra9'] [0 0 1 1 1]
Datos de entrenamiento:  ['Muestra2' 'Muestra4' 'Muestra7' 'Muestra8' 'Muestra6'] [0 0 1 1 1]
 
