# Validación por k-folds Cross-Validation

Se divide los datos en K grupos del mismo tamaño. Para cada grupo i-esimo, entrenamos un modelo con los K-1 grupos restantes y lo evaluamos con el grupo i.

<img src="https://miro.medium.com/v2/resize:fit:1400/format:webp/1*AAwIlHM8TpAVe4l2FihNUQ.png" width="600" height="900">

In [2]:
from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

In [6]:
import numpy as np

# Codificación
def vectorize_sequence(sequences, dimension=10000):
    res = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        res[i, sequence] = 1
    return res

In [7]:
x_train = vectorize_sequence(train_data)
x_test = vectorize_sequence(test_data)

In [21]:
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

In [18]:
from sklearn.model_selection import KFold
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

In [25]:
def create_model():
    # Crear y retornar un nuevo modelo
    modelo = Sequential([
        Dense(64, activation='relu', input_shape=(x_train.shape[1],)),
        Dense(64, activation='relu'),
        Dense(1, activation='sigmoid'),
    ])
    modelo.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return modelo

In [26]:
# Número de folds
k = 5
# Definición de K-fold cross validation
kfold = KFold(n_splits=k, shuffle=True, random_state=1)
# Lista para almacenar resultados
resultados = []

In [29]:
for train, test in kfold.split(x_train, y_train):
    # Crear modelo
    modelo = create_model()
    # Entrenar el modelo
    modelo.fit(x_train[train], y_train[train], epochs=50, batch_size=32, verbose=0)
    # Evaluar el modelo
    score = modelo.evaluate(x_train[test], y_train[test], verbose=0)
    # Almacenar resultados
    resultados.append(score[1])

In [32]:
print(f'Resultados por fold: {resultados}')
print(f'Resultado final: {np.mean(resultados)} ± {np.std(resultados)}')

Resultados por fold: [0.5041999816894531, 0.5116000175476074, 0.49959999322891235, 0.49559998512268066, 0.4984000027179718]
Resultado final: 0.501879996061325 ± 0.005596578508045747


## Barajar los datos

In [30]:
import numpy as np

# Supongamos que x_train es tu matriz de datos de forma (2500, 10000)
# y_train y es tu vector de etiquetas de forma (2500,)

# Crear un array de índices y barajarlo
indices = np.arange(x_train.shape[0])
np.random.shuffle(indices)

# Aplicar los índices barajados a X e y
X = x_train[indices]
y = y_train[indices]

Este método asegura que los datos y las etiquetas correspondientes sigan estando alineados después del barajado.

## A tener en cuenta

- __Representatividad de los datos__. El conjunto de datos de entrenamiento como pruebas debe ser representativo.
- __Flecha del tiempo__: Si se desea predecir el futuro dado el pasado, no se debe mezclar los datos aleatoriamente antes de dividirlos, dado que se crearía una fuga de información y, se entrenaría con datos del futuro. Se debe verificar que los datos del conjunto de prueba son posteriores a los del conjunto de entrenamiento.
- __Redundancia de datos__: Los conjuntos de entrenamiento y validación deben ser diferente.