<a id="toc"></a>

# üìì Notebook 02 ‚Äì Outils et Visualisations DR5

> But. Ce notebook regroupe des outils interactifs pour explorer, diagnostiquer et affiner les spectres t√©l√©charg√©s du catalogue LAMOST DR5, sans relancer le pipeline complet.  
Usage. Chaque section explique √† quoi √ßa sert, comment l‚Äôutiliser et ce qui est sauvegard√© dans les dossiers de logs.

Sommaire rapide
- [üõ†Ô∏è Setup & Imports](#setup)
- [üìä Tableau de Bord de l‚Äô√âtat du Dataset](#dashboard)
- [üî≠ Explorateur de Header FITS](#fits)
- [üéöÔ∏è Tuning Interactif des Raies](#tuning)
- [üß™ Analyse des Features Nulles](#nulls)
- [üó∫Ô∏è Carte de Couverture C√©leste](#sky)
- [üß† Inspecteur de Mod√®les Entra√Æn√©s](#inspector)
- [üß¨ Comparateur de Spectres Interactif](#compare-spectra)
- [üßº Comparateur de Normalisation](#compare-norm)
- [üõ∞Ô∏è Analyse d‚ÄôInterpr√©tabilit√© (SHAP)](#shap)
- [üè∑Ô∏è Distribution des Sous-Classes](#subclasses)
- [üîé Analyse en Profondeur des Features](#deep-features)

#

<a id="setup"></a>
# üõ†Ô∏è Setup & Imports [‚Ü©Ô∏é](#toc)

Initialise l‚Äôenvironnement de travail (d√©tection automatique de la racine du projet, ajout de ``src/`` au ``sys.path``) et charge :

- ``AstroVisualizer`` : l‚Äôinterface principale d‚Äôoutils,

- ``setup_project_env()`` : chemins & constantes (raw, catalog, models, logs‚Ä¶),

- utilitaires du **pipeline** (si besoin de recharger un mod√®le).

**R√©sultat attendu :** message ‚ÄúSetup termin√©. Les outils de visualisation sont pr√™ts.‚Äù et un objet ``visualizer``.

In [None]:
# --- Imports des librairies externes ---
import os

# --- Imports de la librairie "astrospectro" ---
from utils import setup_project_env
from tools.visualizer import AstroVisualizer

# --- Initialisation ---
paths = setup_project_env()
visualizer = AstroVisualizer(paths)

print("\nSetup termin√©. Les outils de visualisation sont pr√™ts.")

#

<a id="dashboard"></a>
# üìä Tableau de Bord de l‚Äô√âtat du Dataset [‚Ü©Ô∏é](#toc)


Mini-dashboard pour suivre la progression du dataset :

1. **Inventaire des fichiers :** compte les ``*.fits.gz`` dans ``data/raw/``.
2. **Fichiers utilis√©s :** lit ``trained_spectra.csv`` (si pr√©sent) et comptabilise les spectres d√©j√† utilis√©s.
3. **Aide au debug :** extrait la fin du log en cas d‚Äôerreur r√©cente.

> **Astuce.** Id√©al avant un nouveau batch de t√©l√©chargement/traitement pour v√©rifier que tout est OK.

In [None]:
visualizer.display_dataset_dashboard()

#

<a id="fits"></a>
# üî≠ Explorateur de Header FITS [‚Ü©Ô∏é](#toc)


Outil interactif pour ouvrir un spectre compress√© (``.fits.gz``) et afficher les m√©tadonn√©es structur√©es.

**Utilisations typiques**

- Contr√¥le qualit√© (coordonn√©es, type d‚Äôobjet, seeing, date, filtre, etc.).
- Debug cibl√© d‚Äôun spectre ‚Äúbizarre‚Äù.
- D√©tection de valeurs aberrantes avant un run massif.

> **Tip**. Compatible ``astropy.io.fits`` avec fichiers gzip ‚Äî tu peux ouvrir directement depuis ``data/raw/``.

In [None]:
visualizer.interactive_header_explorer()

#

<a id="tuning"></a>
# üéöÔ∏è Tuning Interactif des Raies [‚Ü©Ô∏é](#toc)


Ajuste en direct les hyper-param√®tres de d√©tection de raies :

- **Prominence :** hauteur minimale,
- **Fen√™tre :** largeur de la zone glissante autour du pic.

**Objectif.** Tester visuellement l‚Äôimpact des r√©glages et valider avant de relancer une d√©tection globale.

> **Bon r√©flexe.** Sauvegarde un screenshot du spectre ‚Äúavant/apr√®s‚Äù quand un r√©glage te semble optimal.

In [None]:
visualizer.interactive_peak_tuner()

#

<a id="nulls"></a>
# üß™ Analyse des Features Nulles [‚Ü©Ô∏é](#toc)


Analyse la qualit√© des features extraites du dernier run :

- Histogramme des colonnes avec trop de 0.0 ou de NaN,
- Top des colonnes les plus manquantes,
- Indicateurs simples (compte, min, max‚Ä¶).

> **Quand l‚Äôutiliser ?** Juste apr√®s un batch d‚Äôextraction pour rep√©rer les features √† exclure/renommer/fixer.

In [None]:
visualizer.analyze_feature_zeros()

#

<a id="sky"></a>
# üó∫Ô∏è Carte de Couverture C√©leste [‚Ü©Ô∏é](#toc)


Affiche une **projection Mollweide** des plans d‚Äôobservation pr√©sents dans les fichiers t√©l√©charg√©s.

- Visualise les **zones du ciel** couvertes (trous/chevauchements),
- Utile pour d√©tecter des **biais g√©ographiques** (ex. h√©misph√®re, bande galactique).

In [None]:
visualizer.plot_sky_coverage()

#

<a id="inspector"></a>
# üß† Inspecteur de Mod√®les Entra√Æn√©s [‚Ü©Ô∏é](#toc)


Charge un mod√®le ``.pkl`` (menu d√©roulant) et affiche :

- **Les hyper-param√®tres,**
- La **feature importance** du classifieur (tri√©e).

> **√Ä faire r√©guli√®rement.** V√©rifier que les features dominantes restent coh√©rentes avec la physique (pas d‚Äôart√©fact).

In [None]:
visualizer.interactive_model_inspector()

#

<a id="compare-spectra"></a>
# üß¨ Comparateur de Spectres Interactif [‚Ü©Ô∏é](#toc)


Superpose plusieurs spectres sur un m√™me graphique pour une comparaison d√©taill√©e.

**Cas d‚Äôusage**

- **M√™me type :** comparer des √©toiles d‚Äôun m√™me type (variations fines),
- **Types diff√©rents :** A vs M, etc.,
- **√âvolution temporelle :** suivre une √©toile variable (multi-√©poques).

**Contr√¥les**

1. S√©lection multiple (Ctrl/Cmd ou Shift).
2. Option ‚Äú**Normaliser les spectres**‚Äù (recommand√©).
3. Slider **D√©calage Y** pour √©viter le chevauchement.

In [None]:
visualizer.interactive_spectra_comparator()

#

<a id="compare-norm"></a>
# üßº Comparateur de Normalisation [‚Ü©Ô∏é](#toc)


G√©n√®re une figure **Avant / Apr√®s** normalisation sur 2 spectres choisis au hasard (ou sp√©cifiques si tu adaptes la cellule).

- Panneau haut : **brut**
- Panneau bas : **normalis√©**
- Sauvegarde automatique dans ``website/static/img/`` (chemin projet)

In [None]:
visualizer.plot_normalization_comparison()

#

<a id="shap"></a>
# üõ∞Ô∏è Analyse d‚ÄôInterpr√©tabilit√© (SHAP) [‚Ü©Ô∏é](#toc)


Interface pour **tester un mod√®le entra√Æn√©** et visualiser l‚Äôinfluence des features.

**√âtapes**

1. Choisir un ``.pkl`` dans ``data/models/``.
2. R√©gler **√âchantillons** (nombre de spectres utilis√©s).
3. Lancer **Analyser**.

**Sorties**

- Tableau **mean(|SHAP|)** tri√© (Top N configurable),
- Exports auto dans ``logs/shap/`` :
    - ``shap_importances_<timestamp>.csv``
    - ``shap_importances_<timestamp>.tex``

In [None]:
visualizer.interactive_shap_explainer()

### Apr√®s l‚Äôanalyse (optionnel) tu peux tracer :

> Interpr√©tation rapide. Plus mean(|SHAP|) est grand, plus la feature impacte le score du mod√®le (tous labels confondus).

In [None]:
from datetime import datetime, timezone
ts = datetime.now(timezone.utc).strftime("%Y%m%dT%H%M%SZ")
out_dir = os.path.join(visualizer.paths["LOGS_DIR"], "shap"); os.makedirs(out_dir, exist_ok=True)

visualizer.plot_shap_summary_bar(top_n=25, save_path=os.path.join(out_dir, f"shap_bar_{ts}.png"))
visualizer.plot_shap_beeswarm(max_display=20, save_path=os.path.join(out_dir, f"shap_beeswarm_{ts}.png"))

#

<a id="subclasses"></a>
# üè∑Ô∏è Distribution des Sous-Classes [‚Ü©Ô∏é](#toc)


Histogramme des **labels** (top-N configurable, ``%`` si ``normalize=True``).
Permet de voir en un coup d‚Äô≈ìil les **d√©s√©quilibres de classes**.

In [None]:
visualizer.plot_subclass_distribution(top_n=25, normalize=True)

<br/>

<a id="deep-features"></a>
# üîé Analyse en Profondeur des Features [‚Ü©Ô∏é](#toc)


Pipeline **EDA ‚Üí Corr√©lations ‚Üí RandomForest ‚Üí Permutation** Importance, avec **exports** dans ``logs/features/``.

**Param√®tres importants**

- ``pattern`` : motif de chargement (par d√©faut ``data/processed/features_*.csv``),
- ``m``ax_hists : nb de distributions trac√©es (tri√©es par variance),
- ``corr_top_n : taille de la heatmap de corr√©lation (top variance),
- ``rf_estimators`` / ``random_state`` : RF pour importance ‚Äúimpurity-based‚Äù,
- ``do_permutation=True`` : importance de permutation sur split validation.

**Sorties**

- R√©sum√© global (nb lignes/colonnes, taux de missing),
- **Top colonnes manquantes**,
- Stats descriptives (num√©riques),
- Distributions (top variance),
- **Heatmap de corr√©lation**,
- Importances **RF** et **Permutation** (tables + PNG).

> **Note (split stratifi√©)**. Si certaines classes sont **trop rares**, la stratification est automatiquement **d√©sactiv√©e** (message dans la cellule). Ajoute des exemples ou fusionne des classes pour r√©activer le split stratifi√©.

In [None]:
summary = visualizer.feature_explorer(
    pattern=None,
    save_dir=None,
    max_hists=24,
    corr_top_n=30,
    rf_estimators=400,
    random_state=42,
    do_permutation=True,
)

# Re-tracer un bar chart des importances RF (si besoin, avec un autre top N)
visualizer._plot_feature_importances_bar(
    top_n=40,
    save_path=os.path.join(summary["save_dir"], "rf_importances_top40.png"))