In [11]:
import os
import struct
import numpy as np
from PIL import Image

def read_idx(filename):
    """Legge un file UBYTE e restituisce un array numpy."""
    with open(filename, 'rb') as f:
        header = f.read(4)
        if len(header) != 4:
            raise ValueError(f"Errore nel leggere il file {filename}: il buffer letto è di {len(header)} byte, ma ci si aspettavano 4 byte.")
        
        zero, data_type, dims = struct.unpack('>HBB', header)
        print(f"Header del file {filename}: zero={zero}, data_type={data_type}, dims={dims}")

        shape = []
        for d in range(dims):
            dim_size = f.read(4)
            if len(dim_size) != 4:
                raise ValueError(f"Errore nel leggere la dimensione {d} del file {filename}: il buffer letto è di {len(dim_size)} byte, ma ci si aspettavano 4 byte.")
            shape.append(struct.unpack('>I', dim_size)[0])
        
        shape = tuple(shape)
        print(f"Forma del dataset nel file {filename}: {shape}")

        data = f.read()
        print(f"Numero di byte letti dal file {filename}: {len(data)}")
        
        return np.frombuffer(data, dtype=np.uint8).reshape(shape)


def save_images(images, labels, output_dir):
    """Salva le immagini in cartelle corrispondenti alle etichette."""
    num_images = images.shape[0]
    img_dim = (images.shape[1], images.shape[2])
    
    for i in range(num_images):
        label = labels[i]
        label_dir = os.path.join(output_dir, str(label))
        os.makedirs(label_dir, exist_ok=True)
        
        img = Image.fromarray(images[i])
        img_path = os.path.join(label_dir, f'{i}.png')
        img.save(img_path)

def process_dataset(image_file, label_file, output_dir):
    """Elabora i file UBYTE e salva le immagini in formato PNG."""
    images = read_idx(image_file)
    labels = read_idx(label_file)
    save_images(images, labels, output_dir)

# Percorsi ai file UBYTE
train_images_file = 'dataset-ubyte/emnist-balanced-train-images-idx3-ubyte'
train_labels_file = 'dataset-ubyte/emnist-balanced-train-labels-idx1-ubyte'
test_images_file = 'dataset-ubyte/emnist-balanced-test-images-idx3-ubyte'
test_labels_file = 'dataset-ubyte/emnist-balanced-test-labels-idx1-ubyte'

# Cartelle di output
train_output_dir = 'emnist_train'
test_output_dir = 'emnist_test'

# Elaborazione dei dataset
process_dataset(train_images_file, train_labels_file, train_output_dir)
process_dataset(test_images_file, test_labels_file, test_output_dir)

print("Immagini estratte e salvate con successo!")


Header del file dataset-ubyte/emnist-balanced-train-images-idx3-ubyte: zero=0, data_type=8, dims=3
Forma del dataset nel file dataset-ubyte/emnist-balanced-train-images-idx3-ubyte: (112800, 28, 28)
Numero di byte letti dal file dataset-ubyte/emnist-balanced-train-images-idx3-ubyte: 88435200
Header del file dataset-ubyte/emnist-balanced-train-labels-idx1-ubyte: zero=0, data_type=8, dims=1
Forma del dataset nel file dataset-ubyte/emnist-balanced-train-labels-idx1-ubyte: (112800,)
Numero di byte letti dal file dataset-ubyte/emnist-balanced-train-labels-idx1-ubyte: 112800
Header del file dataset-ubyte/emnist-balanced-test-images-idx3-ubyte: zero=0, data_type=8, dims=3
Forma del dataset nel file dataset-ubyte/emnist-balanced-test-images-idx3-ubyte: (18800, 28, 28)
Numero di byte letti dal file dataset-ubyte/emnist-balanced-test-images-idx3-ubyte: 14739200
Header del file dataset-ubyte/emnist-balanced-test-labels-idx1-ubyte: zero=0, data_type=8, dims=1
Forma del dataset nel file dataset-ubyt

: 