In [3]:
import numpy as np
import os
from tqdm.auto import tqdm # Barra di caricamento
import sys

# Ottieni il percorso assoluto della cartella genitore (la root del progetto)
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))

# Aggiungilo al path di Python se non c'è già
if project_root not in sys.path:
    sys.path.append(project_root)

# Verifica (opzionale)
print(f"Project Root aggiunta al path: {project_root}")

from src import config, generation

# Configurazione Dataset
N_SAMPLES_TRAIN = 5000  # Nel paper usano di più, ma per testare 5k vanno bene
OUTPUT_FILE = "../data/processed/train_class0_5k.npy"

# Assicuriamoci che la cartella esista
os.makedirs(os.path.dirname(OUTPUT_FILE), exist_ok=True)

print(f"Inizio generazione di {N_SAMPLES_TRAIN} campioni di Classe 0 (Rumore/RFI)...")

data_list = []

for _ in tqdm(range(N_SAMPLES_TRAIN)):
    # Generiamo solo Classe 0 perché l'Autoencoder si addestra solo su questo
    data, _ = generation.create_false_sample()
    
    # data ha shape (6, 16, 512, 1). 
    # Il VAE lavora su singoli frame o sulla sequenza? 
    # Nel paper, l'Encoder processa i frame 16x512 INDIPENDENTEMENTE.
    # Quindi possiamo salvare i dati come (N_SAMPLES * 6, 16, 512, 1)
    # oppure mantenerli divisi per cadenza. 
    # Manteniamoli (6, 16, 512, 1) per flessibilità futura.
    data_list.append(data)

# Convertiamo in numpy array
full_dataset = np.array(data_list)

print(f"Generazione completata. Shape finale: {full_dataset.shape}")
print(f"Salvataggio in {OUTPUT_FILE}...")

np.save(OUTPUT_FILE, full_dataset)

print("Fatto! Dataset pronto per il training.")

Project Root aggiunta al path: /home/filippo/TirocinioSETI/ML-SRT-SETI
Inizio generazione di 5000 campioni di Classe 0 (Rumore/RFI)...


100%|██████████| 5000/5000 [02:56<00:00, 28.38it/s]


Generazione completata. Shape finale: (5000, 6, 16, 512, 1)
Salvataggio in ../data/processed/train_class0_5k.npy...
Fatto! Dataset pronto per il training.
