# Access to Prompt data

- creationn date : 2025-12-04

In [None]:
from lsst.daf.butler import Butler
from lsst.daf.butler import CollectionType
from lsst.daf.butler import DatasetType
import textwrap

try:
    from lsst.daf.butler.exceptions import DatasetTypeError
    print("Import de 'DatasetTypeError' r√©ussi depuis lsst.daf.butler.exceptions.")
except ImportError:
    # Si le sous-module 'exceptions' n'existe pas ou l'exception a √©t√© renomm√©e/d√©plac√©e,
    # nous allons devoir capturer l'exception parent la plus g√©n√©rale lev√©e par le Butler.
    print("Avertissement : 'DatasetTypeError' non trouv√© dans lsst.daf.butler.exceptions. Utilisation d'une gestion d'erreurs plus g√©n√©rale.")
    
    # D√©finir l'exception de rechange (un alias vers un type d'erreur plus g√©n√©rique du Butler)
    # L'exception qui est lev√©e est souvent une sous-classe de RuntimeError ou d'une autre erreur du Butler.
    # Pour le test de getDatasetType, nous allons tenter de capturer l'exception directement.
    pass # Nous n'avons pas besoin de d√©finir un alias si nous g√©rons l'exception apr√®s la tentative.

# --- Le reste de votre code (en utilisant l'exception directement apr√®s la tentative) ---


# Ouvrir le repo
#repo = "/repo/main"
REPO_URI = "/repo/main"
butler = Butler(REPO_URI)

# Lister toutes les collections et filtrer celles contenant "LSSTCam/prompt"
collections = butler.registry.queryCollections()

# find collections which has prompt in it
prompt_colls = [c for c in collections if "LSSTCam/prompt" in c]


# 1. Pr√©-filtrage : Cr√©e une nouvelle liste sans les collections contenant 'config'
filtered_colls = [c for c in prompt_colls if 'config' not in c]

# 2. It√©ration sur la liste filtr√©e
for c in filtered_colls:
    ctype = butler.registry.getCollectionType(c)
    print(f"{c:90s} {CollectionType(ctype).name}")

In [None]:
# Le REPO_URI est le chemin du d√©p√¥t (comme dans votre commande bash)
#REPO_URI = "/repo/main"

# La collection de donn√©es sp√©cifique √† cibler
#COLLECTION_NAME = 'LSSTCam/prompt/output-2025-11-04/SingleFrame/pipelines-682fa38-config-8f017ea'
COLLECTION_NAME = "LSSTCam/prompt/output-2025-11-20"

# Initialisation du Butler
butler = Butler(REPO_URI, collections=[COLLECTION_NAME])

print(f"Butler initialis√© pour la collection : {COLLECTION_NAME}")

In [None]:
# Assurez-vous d'avoir bien initialis√© le Butler (Butler est d√©j√† initialis√© dans le contexte)
registry = butler.registry
dataset_types = list(registry.queryDatasetTypes())

COLLECTION_NAME = butler.collections[0] # R√©cup√®re la collection par d√©faut
#COLLECTION_NAME = butler.collection.default

print(f"La collection '{COLLECTION_NAME}' contient {len(dataset_types)} types de datasets.")

# Afficher les noms des types de datasets, en filtrant ceux li√©s √† la d√©tection (DIA)
print("\nTypes de Datasets pertinents (contenant 'DIA' ou 'Source') :")


# --- NOUVEAU FILTRE : Types de donn√©es pertinents ---
# Classes de stockage que nous voulons conserver (tables de donn√©es)
#ALLOWED_STORAGE_CLASSES = ['DataFrame', 'SourceCatalog', 'Catalog']
ALLOWED_STORAGE_CLASSES = ['DataFrame']

# Mots-cl√©s pour filtrer les datasets li√©s √† la d√©tection et √† l'alerte
ALLOWED_KEYWORDS = ['DIA', 'Source', 'Dia', 'DiaObject','dia'] 

print(f"\nTypes de Datasets pertinents (filtr√©s par Nom et Classe de Stockage {ALLOWED_STORAGE_CLASSES}):")


keep_dataset_types = []
keep_dataset_dimensions = []

# loop on datasettypes
for ds_type in dataset_types:
    
    ds_name = ds_type.name
    
    # Correction de l'erreur: Utilisation d'un bloc try/except pour g√©rer les 
    # "KeyError" qui se produisent lorsque le Butler ne peut pas r√©soudre la classe de stockage (ex: 'SpectractorWorkspace').
    storage_class_name = "N/A"
    try:
        if ds_type.storageClass:
            storage_class_name = ds_type.storageClass.name
    except KeyError:
        # La classe existe dans le registre mais le module Python n'est pas charg√©
        storage_class_name = "UNRESOLVED_CLASS" 
    except Exception as e:
        # Pour tout autre type d'erreur
        print(f"Avertissement: √âchec de la r√©solution de la classe de stockage pour {ds_name}. Erreur: {e}")
        
    
    # Filtre 1: Doit contenir un mot-cl√© pertinent dans le nom
    # Utilisation de .upper() pour une comparaison insensible √† la casse dans le nom du dataset
    is_relevant_keyword = any(keyword.upper() in ds_name.upper() for keyword in ALLOWED_KEYWORDS)
    
    # Filtre 2: Doit √™tre une classe de stockage de type catalogue/table
    is_relevant_storage = storage_class_name in ALLOWED_STORAGE_CLASSES
    
    if is_relevant_keyword and is_relevant_storage:
        # Utilisation de textwrap pour g√©rer les noms de datasets longs sans tronquer la sortie
        wrapped_name = textwrap.shorten(ds_name, width=40, placeholder='...')
        print(f"  - **{wrapped_name:40s}** : Stock√© comme un {storage_class_name}")
        keep_dataset_types.append(ds_name)
        required_dimensions = list(ds_type.dimensions.names)
        keep_dataset_dimensions.append(required_dimensions)

print("\n--- Liste des catalogues √† utiliser pour l'extraction de donn√©es : ---")
print(keep_dataset_types)

In [None]:
print(f"Butler initialis√©. Les collections par d√©faut sont : {butler.collections}")
print(f"Le Butler utilise la collection par d√©faut : {butler.collections[0]}")

for dataset_type_name in keep_dataset_types:

    print(f"Test de l'existence du DatasetType '{dataset_type_name}'...")

    # ----------------------------------------------------
    # üí° √âTAPE 1 : V√âRIFIER L'EXISTENCE DU DATASET TYPE
    # ----------------------------------------------------
    try:
        # Tente de r√©cup√©rer l'objet DatasetType. 
        dt = butler.registry.getDatasetType(dataset_type_name)
        required_dimensions = dt.dimensions.names
        print(f"‚úÖ Le type '{dt}' est pr√©sent et stock√© comme : {dt.storageClass.name}, required dimensions : {required_dimensions}")
     
    
        # ... Les √©tapes 2 et 3 (queryDataIds et butler.get) suivent ici ...


        # ----------------------------------------------------
        # üí° √âTAPE 2 : S'IL EXISTE, CHERCHER LES DATAIDS
        # ----------------------------------------------------
        print("Tentative de recherche d'identifiants de donn√©es (DataIds)...")

        # Recherche des DataIds existants pour ce type de dataset
        #valid_diasource_ids = list(butler.registry.queryDataIds(datasets=diasource_type, dimensions=['visit', 'detector', 'band']))
        #valid_diasource_ids = list(butler.registry.queryDataIds(datasets=diasource_type),dimensions=required_dimensions,limit=1)  # Suppression du param√®tre 'dimensions'
        #valid_diasource_ids = list(butler.registry.queryDataIds(datasets=diasource_type),dimensions=required_dimensions,limit=1)

        valid_data_ids = list(butler.registry.queryDataIds(
        datasets=dataset_type_name, 
        dimensions=required_dimensions, # <- Correctement pass√©
        ).limit(1))

        if valid_data_ids:
            print(f"‚úÖ {len(valid_data_ids)} combinaisons visit/detector/band trouv√©es.")

            #required_dimensions = list(ds_type_obj.dimensions.getDimensionNames())
            
            # Choisir le premier dataId trouv√©
            #target_data_id = valid_diasource_ids[0].butlerDataId
            target_data_id = valid_data_ids[0].getButlerDataId()
            print(f"DataId cible pour le chargement : {target_data_id}")

            # ----------------------------------------------------
            # üí° √âTAPE 3 : TENTER LE CHARGEMENT
            # ----------------------------------------------------
            try:
                diasource_catalogue = butler.get(dataset_type_name, dataId=target_data_id)
                print("\n--- ‚úÖ‚úÖ Chargement dataset  R√©ussi ---")
                print(f"‚úÖ‚úÖ Catalogue charg√© avec **{len(diasource_catalogue)}** entr√©es.")
            
            except Exception as e:
                # G√®re les erreurs qui pourraient survenir lors de la lecture physique (I/O, corruption, etc.)
                print(f"‚ùå Erreur I/O ou de lecture physique (butler.get()) : {e}")
            
        else:
            print(f"‚ùå Attention : Le type '{dataset_type_name}' existe, mais aucune donn√©e n'a √©t√© produite (0 DataId trouv√©e).")

        

    # Si l'importation de DatasetTypeError a r√©ussi, vous pouvez l'utiliser :
    # except DatasetTypeError: 
    #     ...

    # Alternativement (et plus robuste sans importation r√©ussie), 
    # capturer l'exception sp√©cifique lev√©e par la m√©thode getDatasetType
    # ou une erreur plus g√©n√©rale si la premi√®re √©choue.

    except Exception as e:
        # Si getDatasetType l√®ve une exception (comme une RuntimeError ou l'exception non import√©e)
        # qui contient le message que le dataset type n'existe pas, nous la g√©rons ici.
    
        # La m√©thode la plus s√ªre est de v√©rifier le message de l'erreur lev√©e par le Butler, 
        # car l'erreur est lev√©e au moment o√π getDatasetType √©choue.
        if f"Dataset type '{dataset_type_name}' does not exist" in str(e):
             print(f"‚ùå Le type de dataset '{diasource_type}' n'existe pas dans la collection par d√©faut (Erreur captur√©e : {type(e).__name__}).")
             print("Veuillez choisir une collection issue d'un pipeline d'alertes (ApPipe complet).")
        else:
             # G√©rer une autre erreur inattendue
             raise e
# ----------------------------------------------------