# üì• Notebook 01 ‚Äì T√©l√©chargement des Spectres DR5

Ce notebook t√©l√©charge un lot de spectres .fits.gz du catalogue LAMOST DR5 √† l‚Äôaide du script `dr5_downloader.py`.  
Il est con√ßu pour √™tre ex√©cut√© **seulement lorsque de nouveaux spectres sont n√©cessaires**, afin d‚Äôalimenter le r√©pertoire `data/raw/` en donn√©es brutes.

## ‚öôÔ∏è Param√®tres principaux

- `limit` : Nombre de plans de spectres √† t√©l√©charger (chaque plan contient plusieurs spectres).
- `max_spectres` : Nombre maximum de spectres √† t√©l√©charger.

## üîó D√©pendances

- Le script Python `../src/tools/dr5_downloader.py` doit √™tre pr√©sent et op√©rationnel.
- La configuration du projet doit pointer vers le bon r√©pertoire `data/raw/`.

<br/>

**Ex√©cution** : Lance la cellule ci-dessous pour t√©l√©charger de nouveaux spectres depuis le catalogue public DR5.


In [None]:
import sys
import subprocess
import ipywidgets as widgets
from IPython.display import display, clear_output, HTML
import os
from datetime import datetime, timezone
import re

# --- Widgets pour l'interface ---
limit_widget = widgets.IntText(value=5, description='Plans :')
max_spectra_widget = widgets.IntText(value=100, description='Spectres :')
run_button = widgets.Button(description="Lancer le t√©l√©chargement", button_style='success', icon='download')

# --- Zone d'affichage dynamique ---
# Un widget HTML pour la barre de progression qui se met √† jour sur place
progress_display = widgets.HTML(value="")
# Une zone de sortie pour les messages de log normaux
log_output = widgets.Output()

# Afficher l'interface utilisateur
display(widgets.HBox([limit_widget, max_spectra_widget]), run_button, progress_display, log_output)

# --- Fonction de callback pour le bouton ---
def on_run_clicked(b):
    # Nettoyer les zones de sortie pour un nouveau run
    progress_display.value = ""
    with log_output:
        clear_output()
        
    # --- Pr√©paration de la commande ---
    limit = str(limit_widget.value)
    max_spectra = str(max_spectra_widget.value)
    python_exe = sys.executable
    script_path = "../src/tools/dr5_downloader.py"
    cmd = [python_exe, script_path, "--limit", limit, "--max-spectres", max_spectra]
    
    progress_display.value = f"<b>Lancement du t√©l√©chargement...</b>"
    
    # --- Ex√©cution et Capture en Temps R√©el ---
    output_lines = []
    try:
        process = subprocess.Popen(
            cmd,
            stdout=subprocess.PIPE,
            stderr=subprocess.STDOUT,
            bufsize=1,
            universal_newlines=True,
            encoding='utf-8',
            errors='replace'
        )

        if process.stdout:
            for line in iter(process.stdout.readline, ''):
                output_lines.append(line)
                
                # --- Logique d'affichage dynamique ---
                if 'T√©l√©chargement:' in line and '%' in line:
                    # C'est une ligne de tqdm, on la traite pour l'affichage HTML
                    clean_line = line.strip()
                    match = re.search(r'(\d+)%\|', clean_line)
                    percent = int(match.group(1)) if match else 0
                    
                    progress_bar_html = f"""
                    <div style="font-family: monospace; white-space: pre;">{clean_line}</div>
                    <progress value="{percent}" max="100" style="width: 100%; height: 20px;"></progress>
                    """
                    progress_display.value = progress_bar_html
                else:
                    # C'est une autre ligne de log, on l'affiche dans la zone de sortie
                    with log_output:
                        print(line, end='')
        
        process.wait()
        full_output = "".join(output_lines)

        # --- Journalisation ---
        timestamp = datetime.now(timezone.utc).strftime("%Y%m%dT%H%M%SZ")
        log_dir = "../logs"
        os.makedirs(log_dir, exist_ok=True)

        if process.returncode == 0:
            progress_display.value = "<b>T√©l√©chargement termin√© avec succ√®s.</b>"
            log_filename = f"download_log_{timestamp}.txt"
            log_path = os.path.join(log_dir, log_filename)
            with open(log_path, "w", encoding="utf-8") as f:
                f.write(full_output)
            with log_output:
                print(f"\nLog de succ√®s sauvegard√© dans : {log_path}")
        else:
            raise subprocess.CalledProcessError(process.returncode, cmd, output=full_output)

    except subprocess.CalledProcessError as e:
        progress_display.value = f"<b>Une erreur est survenue pendant le t√©l√©chargement (code {e.returncode}).</b>"
        with log_output:
             print(e.output or "Aucune sortie d'erreur captur√©e.")
        # ... (logique de sauvegarde du log d'erreur) ...
    except Exception as e:
        progress_display.value = f"<b>Une erreur inattendue est survenue : {e}</b>"

# --- Liaison ---
run_button.on_click(on_run_clicked)

HBox(children=(IntText(value=5, description='Plans :'), IntText(value=100, description='Spectres :')))

Button(button_style='success', description='Lancer le t√©l√©chargement', icon='download', style=ButtonStyle())

HTML(value='')

Output()

#

# üßπ Option de Nettoyage
Il peut arriver que tu souhaites nettoyer enti√®rement le r√©pertoire ``data/raw/`` avant de relancer un t√©l√©chargement, notamment pour repartir d‚Äôun dossier vierge ou lib√©rer de l‚Äôespace.

Cette option de nettoyage int√®gre deux niveaux de protection pour √©viter toute suppression accidentelle‚ÄØ:

- Confirmation interactive :
Un bouton de confirmation via un widget (ou une autre m√©thode comme input()) demande explicitement ton accord avant d‚Äôex√©cuter la suppression.

- Sauvegarde automatique :
Avant de vider le r√©pertoire, le script r√©alise une copie compl√®te de data/raw/ dans un dossier temporaire nomm√© data/raw_backup/.

Cela te permet de restaurer tes spectres si jamais tu as valid√© la suppression par erreur.

**Important :**

- Le dossier de sauvegarde est √©cras√© √† chaque nouvelle ex√©cution de l‚Äôoption.

- Tu peux restaurer des fichiers en r√©cup√©rant les spectres depuis data/raw_backup/ tant que tu n‚Äôas pas relanc√© un nettoyage.

**Pourquoi utiliser cette option‚ÄØ?**

- Repartir sur un lot de spectres neuf sans m√©lange avec d‚Äôanciens fichiers.
- Tester un workflow complet √† partir d‚Äôun √©tat initial propre.
- Gagner en tra√ßabilit√© et √©viter les erreurs lors de sessions cons√©cutives de t√©l√©chargement.

In [None]:
import ipywidgets as widgets
import shutil, os
from IPython.display import display

confirm = widgets.ToggleButtons(
    options=["Non", "Oui"],
    description='Confirmer suppr. ?',
    disabled=False
)
display(confirm)

def on_change(change):
    if change['new'] == "Oui":
        backup_dir = "../data/raw_backup/"
        try:
            shutil.copytree("../data/raw/", backup_dir, dirs_exist_ok=True)
            shutil.rmtree("../data/raw/")
            os.makedirs("../data/raw/")
            print("data/raw vid√© et sauvegard√© dans raw_backup/")
        except Exception as e:
            print(f"Erreur : {e}")

confirm.observe(on_change, names='value')


#

## Tableau de Bord de l'√âtat du Dataset

1. **Importe ``DatasetBuilder`` :** On r√©utilise l'outil con√ßu pour g√©rer les lots d'entra√Ænement.
2. ``_list_available_fits()`` : On appelle cette m√©thode pour qu'elle scanne le dossier ``data/raw/`` et compte tous les fichiers ``.fits.gz`` t√©l√©charg√©s.
3. ``_load_trained_log()`` : On appelle cette m√©thode pour qu'elle lise le ``fichier trained_spectra.csv`` et compte combien de spectres ont d√©j√† √©t√© marqu√©s comme "_utilis√©s_".
4. **Calcul :** Une simple soustraction nous donne le nombre de spectres qui sont nouveaux et pr√™ts pour la prochaine session d'entra√Ænement.
5. **Affichage Markdown :** On utilise Markdown pour afficher les r√©sultats de mani√®re claire et professionnelle, directement dans la sortie du notebook.

In [2]:
import os
import sys

module_path = os.path.abspath(os.path.join('..', 'src'))
if module_path not in sys.path:
    sys.path.append(module_path)
    print(f"'{module_path}' ajout√© au sys.path")

from tools.dataset_builder import DatasetBuilder

# --- Initialisation du builder ---
# On lui donne les chemins relatifs depuis le dossier du notebook
builder = DatasetBuilder(
    catalog_dir="../data/catalog/",
    raw_data_dir="../data/raw/"
)

# --- Collecte des statistiques ---
# On utilise les m√©thodes internes de la classe DatasetBuilder
# pour obtenir les chemins des fichiers FITS disponibles et d√©j√† entra√Æn√©s
all_available_fits_paths = builder._list_available_fits()
already_trained_fits_paths = builder._load_trained_log()

total_available = len(all_available_fits_paths)
total_trained = len(already_trained_fits_paths)
total_new = len([f for f in all_available_fits_paths if f not in already_trained_fits_paths])

# --- Affichage format√© ---
# On utilise du Markdown pour un rendu propre et lisible 
from IPython.display import display, Markdown

md_output = f"""
### Tableau de Bord du Dataset Spectral

---
- **Spectres Totalement T√©l√©charg√©s :** `{total_available}`
- **Spectres D√©j√† Utilis√©s pour l'Entra√Ænement :** `{total_trained}`
---
- **Spectres Nouveaux et Disponibles pour le Prochain Entra√Ænement :** **`{total_new}`**
"""

print("Analyse de l'√©tat du dataset termin√©e.")
display(Markdown(md_output))

'c:\Users\alexb\Documents\Google_Cloud\alex_labs_google_sprint\astro_spectro_git\src' ajout√© au sys.path
Analyse de l'√©tat du dataset termin√©e.



### Tableau de Bord du Dataset Spectral

---
- **Spectres Totalement T√©l√©charg√©s :** `9550`
- **Spectres D√©j√† Utilis√©s pour l'Entra√Ænement :** `1000`
---
- **Spectres Nouveaux et Disponibles pour le Prochain Entra√Ænement :** **`8550`**
