# üåå Master Notebook ‚Äì Pipeline Spectroscopie DR5

## Objectif du pipeline

- Ce notebook t√©l√©charge, pr√©pare et journalise des spectres .fits.gz de LAMOST DR5 pour entra√Æner un mod√®le de classification.
- Le DatasetBuilder garantit qu'aucun spectre ne sera jamais r√©utilis√© en s'appuyant sur un log de fichiers d√©j√† trait√©s.
- Ce pipeline permet d‚Äôajouter progressivement des spectres au jeu d‚Äôentra√Ænement, en assurant qu‚Äôaucun spectre ne soit trait√© deux fois. Chaque ex√©cution s√©lectionne un nouveau lot, l‚Äôentra√Æne, puis marque les spectres comme utilis√©s.


#

## √âtape 0 : SETUP & IMPORTS

In [None]:
from utils import setup_project_env, ensure_dir, load_env_vars
from pipeline.master import MasterPipeline
from astroquery.gaia import Gaia

# Initialisation automatique de l'environnement et des chemins
paths = setup_project_env()

# Chargement des credentials Gaia depuis .env
env_vars = load_env_vars()

try:
    print("Tentative de connexion √† l'archive Gaia...")
    Gaia.login(user=env_vars.get("GAIA_USER"), password=env_vars.get("GAIA_PASS"))
    print("Connexion √† Gaia r√©ussie.")
except Exception as e:
    print(f"AVERTISSEMENT : √âchec de la connexion √† Gaia ({e}). Le mode 'bulk' pourrait √©chouer.")

# Instanciation du pipeline ma√Ætre
pipeline = MasterPipeline(
    raw_data_dir=paths["RAW_DATA_DIR"],
    catalog_dir=paths["CATALOG_DIR"],
    processed_dir=paths["PROCESSED_DIR"],
    models_dir=paths["MODELS_DIR"],
    reports_dir=paths["REPORTS_DIR"],
)

print("\nSetup termin√©. Tu es pr√™t √† lancer ton pipeline.")

#

---

## Lancer une Session d'Entra√Ænement Compl√®te

In [None]:
pipeline.run_full_pipeline(batch_size=5000, enrich_gaia=True, model_type='XGBoost')

#

---

#

## 1) T√©l√©chargement des spectres
Utilisation du script ``dr5_downloader.py`` encapsul√© en fonction.

Cette √©tape est d√©sormais externalis√©e dans [01_download_spectra.ipynb](./01_download_spectra.ipynb) pour √™tre ex√©cut√©e seulement au besoin.

#

## 2) Pr√©paration des donn√©es spectrales : S√©lection du lot de spectres √† traiter et Enrichissement Gaia et Traitement des Features

In [None]:
# Pour d√©finir la grosseur du lot modifier la variable de batch_size= par la valeur voulu
pipeline.select_batch(batch_size=1000)

# Version AVEC Gaia - utiliser soit cone ou bulk
pipeline.generate_and_enrich_catalog(
    enrich_gaia=True,
    mode='bulk',
    include_risky=False,   # <-- active radius/mass/age -- beta donc en test
    ruwe_max=9.0            # optionnel: garde aussi les entr√©es √† RUWE √©lev√©
)

pipeline.process_data()

#

## 3) Entra√Ænement du mod√®le
### Machine Learning
S√©lection des features et entra√Ænement d'un mod√®le de classification.

In [None]:
pipeline.interactive_training_runner()