# üöÄ Master Notebook ‚Äì Pipeline Spectroscopie DR5

Ce notebook orchestre le **workflow complet** pour entra√Æner un classifieur √† partir des spectres LAMOST DR5 :  
**s√©lection d‚Äôun lot ‚Üí g√©n√©ration/enrichissement du catalogue ‚Üí pr√©traitement + features ‚Üí entra√Ænement ‚Üí journaux & artefacts.**

**Sommaire rapide**
- [üß™ √âtape 0 : SETUP & IMPORTS](#etape-0)
- [‚ñ∂Ô∏è Lancer une session compl√®te](#run-full)
- [1) T√©l√©chargement des spectres](#step-1-download)
- [2) S√©lection du lot de spectres](#step-2-select)
- [3) Catalogue : g√©n√©ration & enrichissement Gaia](#step-3-catalog)
- [3bis) Traitement & extraction des features](#step-3bis-features)
- [4) Entra√Ænement du mod√®le](#step-4-train)

> Orchestrateur utilis√© : **`MasterPipeline`**  
> M√©thodes cl√©s : `select_batch`, `generate_and_enrich_catalog`, `process_data`, `run_training_session`, `run_full_pipeline`, `interactive_training_runner`.

<a id="etape-0"></a>

#

## üß™ √âtape 0 : SETUP & IMPORTS

Initialise l‚Äôenvironnement, cr√©e/valide l‚Äôarborescence des r√©pertoires
(`RAW_DATA_DIR`, `CATALOG_DIR`, `PROCESSED_DIR`, `MODELS_DIR`, `REPORTS_DIR`)
et instancie **`MasterPipeline`**.

**Attendu apr√®s ex√©cution :**
- un objet `pipeline` pr√™t √† l‚Äôemploi,
- messages sur la racine du projet et, si configur√©, tentative de connexion √† **Gaia**.

> ‚ÑπÔ∏è **UI interactive d‚Äôentra√Ænement** : disponible avec `pipeline.interactive_training_runner()`.

In [None]:
from utils import setup_project_env, load_env_vars
from pipeline.master import MasterPipeline
from astroquery.gaia import Gaia
from pipeline.classifier import SpectralClassifier

# Initialisation automatique de l'environnement et des chemins
paths = setup_project_env()

# Chargement des credentials Gaia depuis .env
env_vars = load_env_vars()

try:
    print("Tentative de connexion √† l'archive Gaia...")
    Gaia.login(user=env_vars.get("GAIA_USER"), password=env_vars.get("GAIA_PASS"))
    print("Connexion √† Gaia r√©ussie.")
except Exception as e:
    print(f"AVERTISSEMENT : √âchec de la connexion √† Gaia ({e}). Le mode 'bulk' pourrait √©chouer.")

# Instanciation du pipeline ma√Ætre
pipeline = MasterPipeline(
    raw_data_dir=paths["RAW_DATA_DIR"],
    catalog_dir=paths["CATALOG_DIR"],
    processed_dir=paths["PROCESSED_DIR"],
    models_dir=paths["MODELS_DIR"],
    reports_dir=paths["REPORTS_DIR"],
)

print("\nSetup termin√©. Tu es pr√™t √† lancer ton pipeline.")

#

---

<a id="run-full"></a>
## ‚ñ∂Ô∏è Lancer une session compl√®te

Lance **tout le pipeline A‚ÜíZ** :
`select_batch ‚Üí generate_and_enrich_catalog ‚Üí process_data ‚Üí run_training_session`.

> üí° **Param√®tres conseill√©s** au d√©but : `batch_size=200‚Äì500`, `n_estimators=200‚Äì400` (RF/XGB).  
> Active `enrich_gaia=True` lorsque la connectivit√© est stable.

In [None]:
pipeline.run_full_pipeline(
    batch_size=500,                 # taille du lot
    model_type="RandomForest",      # "RandomForest" ou "XGBoost"
    n_estimators=100,               # arbres du mod√®le final
    prediction_target="main_class", # ex.: "main_class", "sub_class_top25", "sub_class_bins"
    save_and_log=True,              # sauvegarde mod√®le + rapport JSON
    enrich_gaia=False,              # True pour activer Gaia
    # ...kwargs Gaia si enrich_gaia=True
)

#

---

<a id="step-1-download"></a>
## 1) T√©l√©chargement des spectres

Utilisation du script **`dr5_downloader.py`** encapsul√©.  
Cette √©tape est externalis√©e dans **[01_download_spectra.ipynb](./01_download_spectra.ipynb)** (√† ex√©cuter au besoin).

> ‚ö†Ô∏è **Quota / temps** : selon le volume demand√©, le t√©l√©chargement peut √™tre long.

#

<a id="step-2-select"></a>
## 2) S√©lection du lot de spectres

Choisit un **nouveau lot** de fichiers `.fits.gz` √† traiter sans r√©utiliser de spectres d√©j√† journalis√©s.

- `batch_size` : nombre de spectres,
- `strategy` : ex. `"random"`.

Le s√©lectionneur s‚Äôappuie sur **DatasetBuilder** pour garantir l‚Äôunicit√© des √©chantillons.


In [None]:
pipeline.select_batch(batch_size=2500, strategy="random")

#

<a id="step-3-catalog"></a>
## 3) Catalogue : g√©n√©ration & enrichissement Gaia

√Ä partir du lot courant, produit un **catalogue local** (CSV) et peut l‚Äô**enrichir via Gaia** (positions, photom√©trie‚Ä¶).

**Sorties :**
- `master_catalog_temp.csv` (catalogue local) puis `master_catalog_gaia.csv` si enrichi,
- mise √† jour de `pipeline.master_catalog_df`.

> ‚ÑπÔ∏è **Couplage Gaia** : g√©r√© par l‚Äôorchestrateur (appairage + stats).  
> ‚ö†Ô∏è **Connexion** : si l‚Äôauthentification Gaia √©choue, relance sans `enrich_gaia` ou v√©rifie tes identifiants.

In [None]:
pipeline.generate_and_enrich_catalog(
    enrich_gaia=True,
    mode='bulk',
    include_risky=False,   # <-- active radius/mass/age -- beta donc en test
    ruwe_max=1.4           # optionnel: garde aussi les entr√©es √† RUWE √©lev√© - <1.4 est un bon filtre
)

#

<a id="step-3bis-features"></a>
## 3bis) Traitement & extraction des features

Ex√©cute les **pr√©traitements spectraux** et l‚Äô**extraction de features**.  
Un CSV `features_YYYYMMDDTHHMMSSZ.csv` est √©crit dans `processed/`.

- Met √† jour `pipeline.features_df` (m√©moire) & `pipeline.last_features_path` (disque).
- Features = mesures photom√©triques/astrom√©triques, indices de raies, r√©sum√©s de voisinage spectral‚Ä¶

> üí° Certaines √©tapes internes reposent sur des d√©tections/associations de raies (Balmer, Ca II H/K, Mg_b, Na_D).

In [None]:
pipeline.process_data()

#

<a id="step-4-train"></a>
## 4) Entra√Ænement du mod√®le

Entra√Æne un **classifieur** (RF/XGBoost) avec **s√©lection de features** optionnelle (`SelectFromModel`, seuil `"median"` par d√©faut), puis **√©value** et **journalise**.

- R√©cap : nb de features conserv√©es, scores, rapports, chemins des artefacts.
- En notebook : UI d√©di√©e via `pipeline.interactive_training_runner()`.

> üí° **Astuce** : commence avec RF pour un feedback rapide, puis passe √† XGB pour gagner en performance.

In [None]:
pipeline.interactive_training_runner()

#
#
#