### Notebook para crear las rutas y etiquetas del dataset y tenerlo en formato .npz (más rapido de leer)

In [1]:
import pathlib
import numpy as np

In [2]:
# Funcion para obtener rutas y etiquetas del dataset
def obtener_rutas_y_etiquetas(dir):
    rutas, etiquetas = [],[]

    for clase in [0,1]:
        dir_clase = dir/str(clase)
        for ruta_img in dir_clase.glob("*.jpg"):
            rutas.append(str(ruta_img))
            etiquetas.append(clase)

    return rutas, etiquetas

In [3]:
# Rutas de las imagenes
DATASET_DIR = pathlib.Path("dataset")

TRAIN_DIR = DATASET_DIR / "train"
TEST_DIR = DATASET_DIR / "test"

# Listas con rutas y etiquetas
train_rutas, train_etiquetas = obtener_rutas_y_etiquetas(TRAIN_DIR)
test_rutas, test_etiquetas = obtener_rutas_y_etiquetas(TEST_DIR)

In [4]:
# Lo guardamos en un archivo .npz
np.savez(
    "dataset_rutas_etiqueta.npz",
    train_rutas = train_rutas,
    train_etiquetas = train_etiquetas,
    test_rutas = test_rutas,
    test_etiquetas = test_etiquetas
)

In [5]:
# Genero tambien un subset para empezar a entrenar con una cantidad mas pequeña de imagenes
import random

def crear_subset(rutas, etiquetas, n_por_clases):
    subset_rutas = []
    subset_etiquetas = []

    for clase in [0,1]:
        idx = [i for i, y in enumerate(etiquetas) if y == clase]
        chosen = random.sample(idx, n_por_clases)
        for i in chosen:
            subset_rutas.append(rutas[i])
            subset_etiquetas.append(etiquetas[i])
    
    return subset_rutas, subset_etiquetas

In [6]:
# Rutas de las imagenes
DATASET_DIR = pathlib.Path("dataset")

TRAIN_DIR = DATASET_DIR / "train"
TEST_DIR = DATASET_DIR / "test"

# Listas con subrutas y subetiquetas
train_subrutas, train_subetiquetas = crear_subset(train_rutas, train_etiquetas, 10000)
test_subrutas, test_subetiquetas = crear_subset(test_rutas, test_etiquetas, 10000)

In [7]:
# Lo guardamos en un archivo .npz
np.savez(
    "dataset_rutas_etiqueta_20k.npz",
    train_rutas = train_subrutas,
    train_etiquetas = train_subetiquetas,
    test_rutas = test_subrutas,
    test_etiquetas = test_subetiquetas
)