# Cross Validation con método K Fold

La validación cruzada con el método K Fold busca relizar <strong>ciclos de prueba y entrenamiento</strong> a los modelos predictivos para mirar su <strong>comportamiento en un conjunto de datos K</strong>; según la cantidad de ciclos se toma una muestra para hacer pruebas y las demás para entrenamiento, sustituyendo la posición de cada conjunto K (en pruebas) hasta culminar el ciclo

<table>
    <thead>
    <tr>
        <th>Ciclo (K)</th>
        <th>Fold 1</th>
        <th>Fold 2</th>
        <th>Fold 3</th>
    </tr>
    </thead>
    <tbody>
        <tr>
            <td>1</td>
            <td style="background:grey;font-weight:bold;">Test</td>
            <td>Train</td>
            <td>Train</td>
        </tr>
        <tr>
        <td>2</td>
            <td>Train</td>
            <td style="background:grey;font-weight:bold;">Test</td>
            <td>Train</td>
        </tr>
        <tr>
            <td>3</td>
            <td>Train</td>
            <td>Train</td>
            <td style="background:grey;font-weight:bold;">Test</td>
        </tr>
    </tbody>
</table>


<p>
<span style="display:inline-block;width:12px;height:12px;border:1px solid;margin-right:4px;"></span>
Entrenamiento &nbsp;&nbsp;
<span style="display:inline-block;width:12px;height:12px;background: grey;border:1px solid;margin-right:4px;"></span>
Prueba (Test)
</p>

In [1]:
import numpy as np
from sklearn.model_selection import KFold

In [2]:
x = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([11, 12, 13, 14])

In [None]:
kf = KFold(n_splits=2)
"""
n_splits=n          ->       número de folds que se harán (2 < dataset <= len(dateset))
random_state=None   ->       es la  ** semilla **  para generar una misma aleatoriedad (shuffle == True)
shuffle=False       ->       determina si los folds se mezclarán antes de la iteración

cabe aclarar que el ciclo empieza desde el final del dataset, es decir, se ejecuta de derecha a izquierda
"""
kf

KFold(n_splits=2, random_state=None, shuffle=False)

In [None]:
# Se recorren los ciclos de kf para asignar cada valor a train y test según el n_splits asignado
for train_index, test_index in kf.split(x):
    # Esto imprime las posiciones dentro del dataset de los datos que se están usando en cada caso
    print(f"Train: {train_index}, Test: {test_index}\n")
    x_train, x_test = x[train_index], x[test_index]


Train: [2 3], Test: [0 1]

Train: [0 1], Test: [2 3]



In [37]:
print(f"Valores de X:\nTRAIN:\n{x_train}\n\nTEST:\n{x_test}")

Valores de X:
TRAIN:
[[1 2]
 [3 4]]

TEST:
[[5 6]
 [7 8]]


In [None]:
# El random_state le dice al shuffle desde qué "seed" hará cada mezcla de la iteracion, es decir, que todas parten desde el mismo randomizer asignado, si solo estuviera shuffle en True entonces cada iteración sería diferente
kf_y = KFold(n_splits=4, random_state=7, shuffle=True)

In [36]:
for train_index, test_index in kf_y.split(y):
    print(f"TRAIN: {train_index}, TEST: {test_index}")
    y_train, y_test = y[train_index], y[test_index]


TRAIN: [0 1 3], TEST: [2]
TRAIN: [0 2 3], TEST: [1]
TRAIN: [1 2 3], TEST: [0]
TRAIN: [0 1 2], TEST: [3]


In [38]:
print(f"Valores de Y:\nTRAIN:\n{y_train}\n\nTEST:\n{y_test}")

Valores de Y:
TRAIN:
[11 12 13]

TEST:
[14]
