In [2]:
# Importamos las librerías.
import numpy as np
from sklearn.model_selection import train_test_split, StratifiedKFold

In [36]:
# Vamos a crear un conjunto de datos, que tendrá:
# - 10 atributos numéricos.
# - 1 clase binaria.
# La clase binaria estará altamente desbalanceada.
np.random.seed(0)
N_SAMPLES_NEG = 950
N_SAMPLES_POS = 50
X = np.random.rand(N_SAMPLES_NEG + N_SAMPLES_POS, 10)
y = np.array([0] * N_SAMPLES_NEG + [1] * N_SAMPLES_POS)

In [39]:
# Vamos a comenzar realizando una división train/test "normal".
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

# Comprobemos ahora la distribución de las clases.
n_pos_pct = N_SAMPLES_POS / (N_SAMPLES_POS + N_SAMPLES_NEG)
n_pos_train_pct = np.sum(y_train) / len(y_train)
n_pos_test_pct = np.sum(y_test) / len(y_test)

print(f"Hay un {100 * n_pos_train_pct:.1f} % de instancias positivas en train.")
print(f"Hay un {100 * n_pos_test_pct:.1f} % de instancias positivas en test.")
print(f"Hay un {100 * n_pos_pct:.1f} % de instancias positivas en total.")

Hay un 5.2 % de instancias positivas en train.
Hay un 4.0 % de instancias positivas en test.
Hay un 5.0 % de instancias positivas en total.


In [40]:
# Ahora realizaremos una división estratificada.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify=y)

# Comprobemos ahora la distribución de las clases.
n_pos_pct = N_SAMPLES_POS / (N_SAMPLES_POS + N_SAMPLES_NEG)
n_pos_train_pct = np.sum(y_train) / len(y_train)
n_pos_test_pct = np.sum(y_test) / len(y_test)

print(f"Hay un {100 * n_pos_train_pct:.1f} % de instancias positivas en train.")
print(f"Hay un {100 * n_pos_test_pct:.1f} % de instancias positivas en test.")
print(f"Hay un {100 * n_pos_pct:.1f} % de instancias positivas en total.")

Hay un 5.0 % de instancias positivas en train.
Hay un 5.0 % de instancias positivas en test.
Hay un 5.0 % de instancias positivas en total.


In [42]:
# Ahora vamos a realizar un proceso de validación cruzada estratificada.
cv = StratifiedKFold(n_splits=5)

n_fold = 1
for train_ix, test_ix in cv.split(X_train, y_train):
  y_train_train = y_train[train_ix]
  y_train_test = y_train[test_ix]
  n_pos_traintrain_pct = np.sum(y_train_train) / len(y_train_train)
  n_pos_traintest_pct = np.sum(y_train_test) / len(y_train_test)
  print(f"FOLD {n_fold}:")
  print(f"Hay un {100 * n_pos_traintrain_pct:.1f} % de instancias positivas en train-train.")
  print(f"Hay un {100 * n_pos_traintest_pct:.1f} % de instancias positivas en train-test.")
  n_fold += 1

FOLD 1:
Hay un 5.0 % de instancias positivas en train-train.
Hay un 5.0 % de instancias positivas en train-test.
FOLD 2:
Hay un 5.0 % de instancias positivas en train-train.
Hay un 5.0 % de instancias positivas en train-test.
FOLD 3:
Hay un 5.0 % de instancias positivas en train-train.
Hay un 5.0 % de instancias positivas en train-test.
FOLD 4:
Hay un 5.0 % de instancias positivas en train-train.
Hay un 5.0 % de instancias positivas en train-test.
FOLD 5:
Hay un 5.0 % de instancias positivas en train-train.
Hay un 5.0 % de instancias positivas en train-test.
