Skip to content

AstroSpectro v1.0.0 - High-Performance Classification

Latest

Choose a tag to compare

@PhD-Brown PhD-Brown released this 06 Aug 19:02
· 45 commits to main since this release

Description:

We are incredibly proud to announce the release of AstroSpectro v1.0.0, the first stable and feature-complete version of our spectral classification pipeline. This release marks the culmination of an intensive development cycle focused on robustness, model performance, and the creation of a professional-grade suite of analysis tools.

The project has achieved its primary goal: to provide an end-to-end system capable of classifying stellar types from raw LAMOST DR5 spectra with an accuracy exceeding 80%.

v1.0.0 Highlights

🚀 Model Performance

  • 84% Accuracy: The pipeline, powered by an optimized XGBoost model, achieves 84% accuracy on a validated test set.
  • Rigorous Validation: Performance is confirmed through stratified cross-validation (GridSearchCV), ensuring the model's robustness and ability to generalize.
  • Advanced Feature Engineering: The model's success is built upon a rich set of over 20 features, combining:
    • Physical Measurements: Strength (prominence) and width (FWHM) of key spectral lines.
    • Spectral Ratios: Temperature-sensitive indicators based on the ratios of line strengths.
    • Contextual Metadata: Integration of redshift, SNR, and seeing as predictive features.

🛠️ Architecture & Pipeline

  • Multi-Model Pipeline: The SpectralClassifier class has been refactored to support both RandomForest and XGBoost, enabling easy benchmarking.
  • Comprehensive scikit-learn Pipeline: The training process now includes automated steps for imputation (handling NaN values), feature scaling, and oversampling (SMOTE) to manage class imbalance.
  • Modular Orchestration: The project is entirely driven by modular classes (MasterPipeline, SpectraManager, AstroVisualizer), turning the 00_master_pipeline.ipynb and 02_tools_and_visuals.ipynb notebooks into clean, high-level dashboards.

📊 Visualization & Analysis Tools

  • Augmented Spectrum Analyzer: A full-featured interactive tool in the 02_tools_and_visuals notebook allows users to:
    • Visualize any spectrum.
    • Tune peak detection parameters in real-time.
    • Get a live spectral class prediction using any saved .pkl model.
    • Review a quantitative analysis of spectral lines (FWHM, etc.).
  • Complete Visualization Suite: Tools to explore FITS headers, analyze feature quality, inspect trained models, and visualize sky coverage are now available.

📚 Complete Documentation

  • All sections of the Online Documentation have been updated to reflect the final state of the project, including a detailed results page and a complete API Reference.

Next Steps

This v1.0.0 release provides a solid foundation. Future development will focus on the goals outlined in our Roadmap, notably the exploration of Deep Learning models (1D CNNs) and the extension of the pipeline to other spectroscopic surveys.

A huge thank you to the open-source community whose tools made this project possible.


Description :

Nous sommes extrêmement fiers d'annoncer la version 1.0.0 d'AstroSpectro, la première version stable et complète de notre pipeline de classification spectrale. Cette version marque l'aboutissement d'un cycle de développement intensif axé sur la robustesse, la performance du modèle et la création d'une suite d'outils d'analyse de qualité professionnelle.

Le projet a atteint son objectif principal : fournir un système de bout en bout capable de classer des types stellaires à partir de spectres bruts LAMOST DR5 avec une précision supérieure à 80%.

Points Forts de la Version v1.0.0

🚀 Performance du Modèle

  • Précision de 84% : Le pipeline, utilisant un modèle XGBoost optimisé, atteint une précision de 84% sur un jeu de test validé.
  • Validation Rigoureuse : La performance est confirmée par une validation croisée stratifiée (GridSearchCV), garantissant la robustesse et la capacité de généralisation du modèle.
  • Feature Engineering Avancé : Le succès du modèle repose sur un jeu de plus de 20 features combinant :
    • Mesures Physiques : Force (prominence) et largeur (FWHM) des raies spectrales clés.
    • Ratios Spectraux : Indicateurs de température basés sur les ratios de force des raies.
    • Métadonnées Contextuelles : Intégration du redshift, du SNR et du seeing comme features prédictives.

🛠️ Architecture et Pipeline

  • Pipeline Multi-Modèle : La classe SpectralClassifier a été refactorisée pour supporter à la fois RandomForest et XGBoost, permettant un benchmarking facile.
  • Pipeline scikit-learn Complet : Le processus d'entraînement inclut désormais des étapes automatisées d'imputation (gestion des NaN), de scaling des features, et de sur-échantillonnage (SMOTE) pour gérer le déséquilibre des classes.
  • Orchestration Modulaire : Le projet est entièrement piloté par des classes modulaires (MasterPipeline, SpectraManager, AstroVisualizer), rendant les notebooks 00_master_pipeline.ipynb et 02_tools_and_visuals.ipynb des tableaux de bord propres et de haut niveau.

📊 Outils de Visualisation et d'Analyse

  • Analyseur de Spectre Augmenté : Un outil interactif complet dans le notebook 02_tools_and_visuals permet de :
    • Visualiser n'importe quel spectre.
    • Tuner les paramètres de détection de pics en temps réel.
    • Obtenir une prédiction de classe spectrale en direct en utilisant n'importe quel modèle .pkl sauvegardé.
    • Consulter une analyse quantitative des raies (FWHM, etc.).
  • Suite de Visualisation Complète : Des outils pour explorer les headers FITS, analyser la qualité des features, inspecter les modèles entraînés, et visualiser la couverture céleste sont désormais disponibles.

📚 Documentation Complète

  • Toutes les sections de la Documentation en Ligne ont été mises à jour pour refléter l'état final du projet, incluant une page de résultats détaillée et une API Reference complète.

Prochaines Étapes

Cette version 1.0.0 constitue une fondation solide. Le développement futur se concentrera sur les axes définis dans notre Roadmap, notamment l'exploration de modèles de Deep Learning (CNN 1D) et l'extension du pipeline à d'autres relevés spectroscopiques.

Un immense merci à la communauté open source dont les outils ont rendu ce projet possible.