#### Convertir dataset a formato ArrowSplit con librería Datasets

In [1]:
from datasets import load_dataset, DatasetDict
from sklearn.model_selection import train_test_split
import os

# Ruta al conjunto de datos original
data_dir = '/Volumes/m2/Memoria/Code/PMM/BeningMalignant_Masses-Preprocessing/data/processed/subset_datos/inbreastmiasvinddsm/'

# Verificar que la ruta existe
if not os.path.exists(data_dir):
    raise FileNotFoundError(f"La ruta especificada no existe: {data_dir}")

# Cargar el dataset asumiendo que está organizado en subdirectorios por clase
# Utilizamos 'imagefolder' que automáticamente infiere las etiquetas a partir de los nombres de las carpetas
dataset = load_dataset('imagefolder', data_dir=data_dir)

# Verificar las clases encontradas
print("Clases encontradas:", dataset['train'].features['label'].names)

# Obtener todas las muestras del dataset
all_samples = dataset['train']

# Obtener los índices y etiquetas para la división
labels = all_samples['label']

# Realizar la división utilizando sklearn para mantener la proporción de clases
train_indices, test_indices = train_test_split(
    range(len(all_samples)),
    test_size=0.2,
    stratify=labels,
    random_state=42
)

# Crear los conjuntos de entrenamiento y prueba
train_dataset = all_samples.select(train_indices)
test_dataset = all_samples.select(test_indices)

# Crear un DatasetDict con los conjuntos divididos
split_dataset = DatasetDict({
    'train': train_dataset,
    'test': test_dataset
})

# Ruta donde se guardarán los conjuntos divididos
output_dir = '/Volumes/m2/Memoria/Code/PMM/BeningMalignant_Masses-Preprocessing/data/processed/subset_datos/inbreastmiasvinddsm_arrowsplit/'

# Crear el directorio de salida si no existe
os.makedirs(output_dir, exist_ok=True)

# Guardar el DatasetDict en el directorio especificado
split_dataset.save_to_disk(output_dir)

print(f"Conjuntos de datos guardados en formato Arrow en: {output_dir}")


Resolving data files:   0%|          | 0/29576 [00:00<?, ?it/s]

Downloading data:   0%|          | 0/29576 [00:00<?, ?files/s]

Generating train split: 0 examples [00:00, ? examples/s]

Clases encontradas: ['Benign Masses', 'Malignant Masses']


Saving the dataset (0/1 shards):   0%|          | 0/23660 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/5916 [00:00<?, ? examples/s]

Conjuntos de datos guardados en formato Arrow en: /Volumes/m2/Memoria/Code/PMM/BeningMalignant_Masses-Preprocessing/data/processed/subset_datos/inbreastmiasvinddsm_arrowsplit/


### Visualiamos las etiquetas guardadas

In [2]:
from datasets import load_from_disk

# Ruta al directorio donde se guardaron los conjuntos divididos
output_dir = '/Volumes/m2/Memoria/Code/PMM/BeningMalignant_Masses-Preprocessing/data/processed/subset_datos/inbreastmiasvinddsm_arrowsplit/'

# Cargar el conjunto de datos desde el disco
loaded_dataset = load_from_disk(output_dir)

# Imprimir la estructura general del conjunto de datos
print(loaded_dataset)

# Acceder y imprimir las etiquetas del conjunto de entrenamiento
labels = loaded_dataset['train'].features['label'].names
print("\nEtiquetas encontradas en el conjunto de datos:")
for idx, label in enumerate(labels):
    print(f"{idx}: {label}")

# Acceder y imprimir las etiquetas del conjunto de prueba
test_labels = loaded_dataset['test'].features['label'].names
print("\nEtiquetas encontradas en el conjunto de prueba:")
for idx, label in enumerate(test_labels):
    print(f"{idx}: {label}")

# Obtener todas las etiquetas únicas en todo el conjunto de datos
unique_labels = set()
for split in loaded_dataset:
    labels_split = loaded_dataset[split].unique('label')
    unique_labels.update(labels_split)

print("\nTodas las etiquetas únicas en el conjunto de datos:")
for label in unique_labels:
    print(label)

# Inspeccionar una muestra del conjunto de entrenamiento y prueba
print("\nMuestra del conjunto de entrenamiento:")
print(loaded_dataset['train'].select([0]))

print("\nMuestra del conjunto de prueba:")
print(loaded_dataset['test'].select([0]))



DatasetDict({
    train: Dataset({
        features: ['image', 'label'],
        num_rows: 23660
    })
    test: Dataset({
        features: ['image', 'label'],
        num_rows: 5916
    })
})

Etiquetas encontradas en el conjunto de datos:
0: Benign Masses
1: Malignant Masses

Etiquetas encontradas en el conjunto de prueba:
0: Benign Masses
1: Malignant Masses

Todas las etiquetas únicas en el conjunto de datos:
0
1

Muestra del conjunto de entrenamiento:
Dataset({
    features: ['image', 'label'],
    num_rows: 1
})

Muestra del conjunto de prueba:
Dataset({
    features: ['image', 'label'],
    num_rows: 1
})
