Ce notebook a √©t√© enti√®rement r√©alis√© par M√©lnaie Gomis.

In [1]:
import numpy as np
import glob
import sys
import os
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset
import torch.optim as optim
import gdown
import matplotlib.pyplot as plt

# Chargement des donn√©es

In [2]:
# On d√©finit le nom du dossier
dossier_nom = "redshift"
url = "https://drive.google.com/drive/folders/1-tQH6rfB1XoF7ml98yqVn7Z2IQwGMUdK"

# 2. LOGIQUE DE T√âL√âCHARGEMENT
if os.path.exists(dossier_nom):
    print(f"‚úÖ Le dossier '{dossier_nom}' est d√©j√† pr√©sent. Pas besoin de ret√©l√©charger !")
else:
    print(f"üì• Dossier introuvable. T√©l√©chargement en cours...")
    gdown.download_folder(url, quiet=True, use_cookies=False)
    print("‚úÖ T√©l√©chargement termin√© !")

# 3. CR√âATION DE LA LISTE DES FICHIERS (C'est ici que √ßa plantait avant)
# On scanne le dossier pour cr√©er la liste 'dossier_local' quoi qu'il arrive
pattern = os.path.join(dossier_nom, "*.npz") # ex: redshift/*
dossier_local = glob.glob(pattern)

# 4. AFFICHAGE JOLI
print(f"\nSucc√®s ! {len(dossier_local)} fichiers trouv√©s dans '{dossier_nom}'.")
print("D√©tail des fichiers :")

for chemin in dossier_local:
    # On extrait le nom du dossier et le nom du fichier
    dossier = os.path.dirname(chemin)   # ex: redshift
    fichier = os.path.basename(chemin)  # ex: COSMOS_...npz
    
    # Ton format demand√©
    print(f"[{dossier}] :\t {fichier}")

‚úÖ Le dossier 'redshift' est d√©j√† pr√©sent. Pas besoin de ret√©l√©charger !

Succ√®s ! 8 fichiers trouv√©s dans 'redshift'.
D√©tail des fichiers :
[redshift] :	 COSMOS_v11_uijk_0213_photo_UD.npz
[redshift] :	 XMM_LSS_v11_uijk_0162_phot_UD.npz
[redshift] :	 XMM_LSS_v11_uijk_0006_spec_D.npz
[redshift] :	 XMM_LSS_v11_uijk_0177_spec_UD.npz
[redshift] :	 COSMOS_v11_uijk_0020_spec_D.npz
[redshift] :	 COSMOS_v11_uijk_0073_spec_UD.npz
[redshift] :	 COSMOS_v11_uijk_0001_photo_D.npz
[redshift] :	 XMM_LSS_v11_uijk_0162_phot_D.npz


In [3]:
fichiers_npz = glob.glob('redshift/*.npz')
cosmos_files = [f for f in fichiers_npz if "COSMOS" in f]

# Listes s√©par√©es pour train et test
train_cubes_list = []
train_infos_list = []
train_flag_list = []

test_cubes_list = []
test_infos_list = []
test_flag_list = []

print(f"Chargement de {len(cosmos_files)} fichiers COSMOS.")

for fichier in cosmos_files:
    try:
        data = np.load(fichier, allow_pickle=True)
        
        # 'info' est un array structur√©. 'dtype.names' donne les noms des colonnes.
        info_fields = data['info'].dtype.names
        
        # On v√©rifie si la *colonne* 'ZSPEC' existe dans ce fichier
        if 'ZSPEC' in info_fields:
            # Ce fichier contient des donn√©es de TEST (il a la colonne ZSPEC)
            test_cubes_list.append(data['cube'])
            test_infos_list.append(data['info'])
            test_flag_list.append(data['flag'])
        else:
            # Ce fichier contient des donn√©es de TRAIN (pas de colonne ZSPEC)
            train_cubes_list.append(data['cube'])
            train_infos_list.append(data['info'])
            train_flag_list.append(data['flag'])
            
            
    except Exception as e:
        print(f":x: Erreur en chargeant {fichier}: {e}")

print("Chargement termin√©.")

Chargement de 4 fichiers COSMOS.
Chargement termin√©.


In [4]:
# Cr√©ation des jeux train/test

# Jeu d‚Äôentra√Ænement (bas√© sur les fichiers SANS ZSPEC)
# On v√©rifie qu'on a bien trouv√© des fichiers de train
if train_infos_list:
    X_train = np.concatenate(train_cubes_list, axis=0)
    infos_train = np.concatenate(train_infos_list, axis=0)
    flags_train = np.concatenate(train_flag_list, axis=0)
    y_train = infos_train['ZPHOT'] # Obtenir ZPHOT depuis les infos de train
    print(f"Objets d'entra√Ænement (ZPHOT) : {len(y_train)}")
    print("X_train :", X_train.shape)
    print("y_train :", y_train.shape)
else:
    print("Aucun fichier d'entra√Ænement (sans ZSPEC) trouv√©.")

print("\n---\n")

# Jeu de test (bas√© sur les fichiers AVEC ZSPEC)
# On v√©rifie qu'on a bien trouv√© des fichiers de test
if test_infos_list:
    X_test = np.concatenate(test_cubes_list, axis=0)
    infos_test = np.concatenate(test_infos_list, axis=0)
    flags_test = np.concatenate(test_flag_list, axis=0)
    y_test = infos_test['ZSPEC'] # Obtenir ZSPEC depuis les infos de test

    # Si on ne garde que les ZSPEC valides
    # mask_zspec_valid = ~np.isnan(y_test) ou ???
    # X_test = X_test[mask_zspec_valid]
    # y_test = y_test[mask_zspec_valid]

    print(f"Objets de test (ZSPEC) : {len(y_test)}")
    print("X_test  :", X_test.shape)
    print("y_test  :", y_test.shape)
else:
    print("Aucun fichier de test (avec ZSPEC) trouv√©.")

Objets d'entra√Ænement (ZPHOT) : 12497
X_train : (12497, 64, 64, 9)
y_train : (12497,)

---

Objets de test (ZSPEC) : 27
X_test  : (27, 64, 64, 9)
y_test  : (27,)


# Chargement des codes python

In [None]:
# 1Ô∏è‚É£ Nom du dossier local
dossier_nom = "redshift/Marie Treyer"

# 2Ô∏è‚É£ ID du dossier Google Drive
folder_id = "1mqIUBkZ3qN82hQ3H5WEdz0YYggMxZe3J"

# 3Ô∏è‚É£ T√©l√©chargement si n√©cessaire
if os.path.exists(dossier_nom):
    print(f"‚úÖ Le dossier '{dossier_nom}' est d√©j√† pr√©sent. Pas besoin de ret√©l√©charger !")
else:
    print(f"üì• Dossier introuvable. T√©l√©chargement en cours...")
    try:
        gdown.download_folder(
            id=folder_id,       # utilisation de l'ID
            output=dossier_nom,
            quiet=False,
            use_cookies=False
        )
        print("‚úÖ T√©l√©chargement termin√© !")
    except Exception as e:
        print("‚ö†Ô∏è Impossible de t√©l√©charger le dossier avec gdown.")
        print("Essayez de le t√©l√©charger manuellement depuis le navigateur.")
        raise e

# 4Ô∏è‚É£ Recherche r√©cursive de tous les fichiers .py
pattern = os.path.join(dossier_nom, "**", "*.py")
fichiers_py = glob.glob(pattern, recursive=True)

# 5Ô∏è‚É£ Affichage
print(f"\nSucc√®s ! {len(fichiers_py)} fichiers .py trouv√©s dans '{dossier_nom}'.\n")
for chemin in fichiers_py:
    dossier = os.path.dirname(chemin)
    fichier = os.path.basename(chemin)
    print(f"[{dossier}] :\t {fichier}")


‚úÖ Le dossier 'redshift/Marie Treyer' est d√©j√† pr√©sent. Pas besoin de ret√©l√©charger !

Succ√®s ! 9 fichiers .py trouv√©s dans 'redshift/Marie Treyer'.

[redshift/Marie Treyer] :	 models_building_blocks.py
[redshift/Marie Treyer] :	 model_multi_modal_simple.py
[redshift/Marie Treyer] :	 __pycache__
[redshift/Marie Treyer] :	 utils
[redshift/Marie Treyer/__pycache__] :	 model_multi_modal_simple.cpython-312.pyc
[redshift/Marie Treyer/__pycache__] :	 models_building_blocks.cpython-312.pyc
[redshift/Marie Treyer/utils] :	 config.py
[redshift/Marie Treyer/utils] :	 __pycache__
[redshift/Marie Treyer/utils/__pycache__] :	 config.cpython-312.pyc


In [6]:
# Chemin absolu du dossier contenant les modules
dossier_nom = "redshift/Marie Treyer"
chemin_absolu = os.path.abspath(dossier_nom)

if chemin_absolu not in sys.path:
    sys.path.append(chemin_absolu)

# Maintenant l'import devrait fonctionner
from model_multi_modal_simple import *

# Cr√©ation du mod√®les

In [7]:
import torch
import numpy as np
from model_multi_modal_simple import Model_multi_modal_simple
import utils.config as config

# 1. Pr√©paration des tenseurs
X_train_tensor = torch.tensor(np.transpose(X_train, (0, 3, 1, 2)).copy(), dtype=torch.float32)
X_test_tensor = torch.tensor(np.transpose(X_test, (0, 3, 1, 2)).copy(), dtype=torch.float32)

y_train_tensor = torch.tensor(y_train.copy(), dtype=torch.float32).unsqueeze(1)
y_test_tensor = torch.tensor(y_test.copy(), dtype=torch.float32).unsqueeze(1)

# 2. Instanciation du mod√®le
modalities = [list(range(9))]

model = Model_multi_modal_simple(
    in_dim=[64, 64],
    n_outputs=1, 
    modalities=modalities,
    mags_input_size=None, 
    parallel_before_inception_archi=[32, 32],
    parallel_inception_archi=[36, 32, 32, 32, 42, 42], 
    parallel_pooling_before_inceptions=[True, False, False, False, False, False], 
    inception_archi=[109, 101, 101, 101, 156, 156], 
    pooling_before_inceptions=[False, True, False, True, False, False] 
)

device = torch.device(config.CONFIG["DEVICE"])
model.to(device)
model.eval()

# 3. Lancement du Forward Pass (avec le correctif)
print("\n-- Lancement de la pr√©diction --")
with torch.no_grad(): 
    batch_X = X_test_tensor[:5].to(device)
    
    # CORRECTIF : Cr√©ation d'un tenseur "ebv" factice (des z√©ros) de la m√™me taille que le batch
    # Cela permet de contourner le bug d'aplatissement et comble le "+1" attendu par la couche FC
    dummy_ebv = torch.zeros(batch_X.size(0)).to(device)
    
    # On passe notre variable dummy_ebv au mod√®le
    out_classif, out_regress = model(batch_X, ebv=dummy_ebv)
    
    print(f"Dimension sortie R√©gression : {out_regress.shape}")
    print(f"Valeurs pr√©dites par le mod√®le (non entra√Æn√©) :\n{out_regress.cpu().numpy()}")

self.in_dim [64, 64]
self.modalities 1

-- Lancement de la pr√©diction --
Dimension sortie R√©gression : torch.Size([5, 1])
Valeurs pr√©dites par le mod√®le (non entra√Æn√©) :
[[0.33071488]
 [0.3312552 ]
 [0.33327168]
 [0.33254465]
 [0.33317596]]


In [8]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import TensorDataset, DataLoader
import utils.config as config

# --- CORRECTIF DROPOUT ---
# On d√©sactive le dropout de modalit√© puisqu'on a regroup√© les 9 canaux dans 1 seule modalit√©
config.CONFIG["MODALITY_DROP_OUT"] = None

# 1. Cr√©ation du jeu de donn√©es et du DataLoader
print("-- Pr√©paration des donn√©es d'entra√Ænement --")
train_dataset = TensorDataset(X_train_tensor, y_train_tensor)

train_loader = DataLoader(
    train_dataset, 
    batch_size=config.CONFIG["BATCH_SIZE"], 
    shuffle=True, 
    num_workers=config.CONFIG.get("NUM_WORKERS", 0), 
    pin_memory=config.CONFIG.get("PIN_MEMORY", False) 
)

# 2. D√©finition de la fonction de Perte et de l'Optimiseur
criterion = nn.MSELoss() 
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 3. Param√®tres de la boucle d'entra√Ænement
epochs = 10 
device = torch.device(config.CONFIG["DEVICE"]) 

print(f"\n-- D√©but de l'entra√Ænement sur {device} --")

-- Pr√©paration des donn√©es d'entra√Ænement --

-- D√©but de l'entra√Ænement sur cpu --


In [None]:
for epoch in range(epochs):
    # Mode entra√Ænement (active les Batch Norms)
    model.train() 
    
    running_loss = 0.0
    
    for batch_idx, (batch_X, batch_y) in enumerate(train_loader):
        batch_X = batch_X.to(device)
        batch_y = batch_y.to(device)
        
        # Faux tenseur ebv (z√©ro) pour ce batch sp√©cifique
        dummy_ebv = torch.zeros(batch_X.size(0)).to(device)
        
        # √âtape 1 : R√©initialiser les gradients
        optimizer.zero_grad()
        
        # √âtape 2 : Pr√©diction
        out_classif, out_regress = model(batch_X, ebv=dummy_ebv)
        
        # √âtape 3 : Calcul de l'erreur
        loss = criterion(out_regress, batch_y)
        
        # √âtape 4 : R√©tropropagation
        loss.backward()
        
        # √âtape 5 : Mise √† jour des poids
        optimizer.step()
        
        # Statistiques
        running_loss += loss.item()
        
        # Affichage r√©gulier
        if (batch_idx + 1) % 1 == 0:
            print(f"√âpoque [{epoch+1}/{epochs}], Batch [{batch_idx+1}/{len(train_loader)}], Perte (MSE): {running_loss/100:.4f}")
            running_loss = 0.0
            
    print(f"==> Fin de l'√©poque {epoch+1} termin√©e. <==")

