<a href="https://colab.research.google.com/github/filippozuddas/ML-SRT-SETI/blob/main/notebooks/class0_dataset_gen.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
!pip install setigen

Collecting setigen
  Downloading setigen-2.7.0-py3-none-any.whl.metadata (11 kB)
Collecting blimpy>=2.1.4 (from setigen)
  Downloading blimpy-2.1.4-py3-none-any.whl.metadata (6.8 kB)
Collecting sphinx-rtd-theme>=0.4.3 (from setigen)
  Downloading sphinx_rtd_theme-3.0.2-py2.py3-none-any.whl.metadata (4.4 kB)
Collecting pytest-cov>=4.1.0 (from setigen)
  Downloading pytest_cov-7.0.0-py3-none-any.whl.metadata (31 kB)
Collecting hdf5plugin (from blimpy>=2.1.4->setigen)
  Downloading hdf5plugin-6.0.0-py3-none-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Collecting pyparsing==2.4.7 (from blimpy>=2.1.4->setigen)
  Downloading pyparsing-2.4.7-py2.py3-none-any.whl.metadata (3.6 kB)
Collecting coverage>=7.10.6 (from coverage[toml]>=7.10.6->pytest-cov>=4.1.0->setigen)
  Downloading coverage-7.11.3-cp311-cp311-manylinux1_x86_64.manylinux_2_28_x86_64.manylinux_2_5_x86_64.whl.metadata (9.1 kB)
Collecting sphinxcontrib-jquery<5,>=4 (from sphinx-rtd-theme>=0.4.3->setigen)
  Downlo

In [1]:
import sys
import os

# --- CONFIGURAZIONE PERCORSI ---
# Il percorso che hai appena trovato
PROJECT_ROOT = "/content/filippo/ML-SRT-SETI"

# 1. Verifica di sicurezza
if not os.path.exists(PROJECT_ROOT):
    raise FileNotFoundError(f"Attenzione! Non trovo la cartella: {PROJECT_ROOT}")

# 2. Spostiamo la 'Working Directory' lì
# Così quando fai np.load("data/processed/...") lui parte dalla root corretta
os.chdir(PROJECT_ROOT)

# 3. Aggiungiamo la cartella a Python per gli import
# Questo permette di fare 'from src import models' anche se il notebook non è lì fisicamente
if PROJECT_ROOT not in sys.path:
    sys.path.append(PROJECT_ROOT)

print(f"✅ Setup Completato!")
print(f"   Directory di lavoro: {os.getcwd()}")

✅ Setup Completato!
   Directory di lavoro: /content/filippo/ML-SRT-SETI


In [3]:
import numpy as np
import os
from tqdm.auto import tqdm # Barra di caricamento
import sys

# Ottieni il percorso assoluto della cartella genitore (la root del progetto)
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))

# Aggiungilo al path di Python se non c'è già
if project_root not in sys.path:
    sys.path.append(project_root)

# Verifica (opzionale)
print(f"Project Root aggiunta al path: {project_root}")

from src import config, generation

# Configurazione Dataset
N_SAMPLES_TRAIN = 5000  # Nel paper usano di più, ma per testare 5k vanno bene
OUTPUT_FILE = "data/processed/train_class0_5k.npy"

# Assicuriamoci che la cartella esista
os.makedirs(os.path.dirname(OUTPUT_FILE), exist_ok=True)

print(f"Inizio generazione di {N_SAMPLES_TRAIN} campioni di Classe 0 (Rumore/RFI)...")

data_list = []

for _ in tqdm(range(N_SAMPLES_TRAIN)):
    # Generiamo solo Classe 0 perché l'Autoencoder si addestra solo su questo
    data, _ = generation.create_false_sample()

    # data ha shape (6, 16, 512, 1).
    # Il VAE lavora su singoli frame o sulla sequenza?
    # Nel paper, l'Encoder processa i frame 16x512 INDIPENDENTEMENTE.
    # Quindi possiamo salvare i dati come (N_SAMPLES * 6, 16, 512, 1)
    # oppure mantenerli divisi per cadenza.
    # Manteniamoli (6, 16, 512, 1) per flessibilità futura.
    data_list.append(data)

# Convertiamo in numpy array
full_dataset = np.array(data_list)

print(f"Generazione completata. Shape finale: {full_dataset.shape}")
print(f"Salvataggio in {OUTPUT_FILE}...")

np.save(OUTPUT_FILE, full_dataset)

print("Fatto! Dataset pronto per il training.")

Project Root aggiunta al path: /content/filippo
Inizio generazione di 5000 campioni di Classe 0 (Rumore/RFI)...


  0%|          | 0/5000 [00:00<?, ?it/s]

Generazione completata. Shape finale: (5000, 6, 16, 512, 1)
Salvataggio in data/processed/train_class0_5k.npy...
Fatto! Dataset pronto per il training.
