# Dataset Creation - CTA/MRA/MRI

Ce notebook cr√©e les datasets de cubes 3D pour l'entra√Ænement du mod√®le.

> **üìå Note importante** : Ce notebook utilise un **√©chantillon de 20 s√©ries DICOM** pour d√©monstration.
> 
> Le projet original sur Kaggle a trait√© **4000+ s√©ries** avec la m√™me architecture.
> Cette version permet de visualiser la structure des datasets et de tester le code localement.

**√âtapes** :
1. Chargement des donn√©es localisateurs
2. Filtrage par modalit√© (CTA, MRA, MRI T1post, MRI T2)
3. V√©rification de la disponibilit√© des donn√©es
4. Test sur un exemple
5. Extraction de cubes positifs (contenant an√©vrisme) et n√©gatifs
6. Sauvegarde au format .npz
7. R√©sum√© des datasets cr√©√©s

In [None]:
import numpy as np
import pandas as pd
import os
import sys
from tqdm import tqdm

# Import du package src
sys.path.append("../")

from src import (
    SERIES_DIR,
    TRAIN_CSV,
    TRAIN_LOCALIZERS_CSV,
    PROCESSED_DIR,
    print_config
)
from src.data import ajouter_Modality
from src.preprocessing import preprocessing_volume_and_coords
from src.visualization import show_middle_slices, show_slice_with_point
from src.bricks import Preprocessor, DatasetBuilder

## 1. Configuration et chargement des donn√©es

In [None]:
# Affichage de la configuration automatique
print_config()

In [None]:
# Chargement DataFrames (chemins automatiques)
df_loc = pd.read_csv(TRAIN_LOCALIZERS_CSV)
df_train = pd.read_csv(TRAIN_CSV)

# Ajout modalit√©
df_loc = ajouter_Modality(df_loc, df_train)

print(f"Total localizers: {len(df_loc)}")
print(f"\nModalit√©s:")
print(df_loc['Modality'].value_counts())

## 2. Filtrage par modalit√©

Choisissez la modalit√© √† traiter (CTA, MRA, MRI T1post, MRI T2)

In [None]:
# S√©lection modalit√©
MODALITY = "CTA"  # Changez selon besoin: "CTA", "MRA", "MRI T1post", "MRI T2"

df_modality = df_loc[df_loc['Modality'] == MODALITY].reset_index(drop=True)
print(f"Nombre de {MODALITY}: {len(df_modality)}")

## 3. V√©rification de la disponibilit√© des donn√©es

Avant de traiter les donn√©es, v√©rifions quels patients sont r√©ellement disponibles.

In [None]:
# V√©rifier combien de patients de la modalit√© sont disponibles localement
available_patients = []
for i in range(len(df_modality)):
    series_uid = df_modality.iloc[i]['SeriesInstanceUID']
    patient_path = os.path.join(SERIES_DIR, series_uid)
    if os.path.exists(patient_path):
        available_patients.append(series_uid)

print(f"Patients {MODALITY} dans le CSV: {len(df_modality)}")
print(f"Patients {MODALITY} disponibles localement: {len(available_patients)}")

if len(available_patients) > 0:
    print(f"\n‚úì {len(available_patients)} patients pr√™ts pour le traitement")
else:
    print(f"\n‚ö†Ô∏è Aucun patient disponible localement")
    print(f"Les donn√©es DICOM doivent √™tre t√©l√©charg√©es dans: {SERIES_DIR}")

## 4. Test sur un exemple

In [None]:
# Test sur le premier patient disponible
if len(available_patients) > 0:
    # Utiliser le premier patient disponible identifi√© √† l'√©tape 3
    series_uid = available_patients[0]
    patient_path = os.path.join(SERIES_DIR, series_uid)
    
    print(f"Patient s√©lectionn√©: {series_uid}")
    
    try:
        volume, aneurysm_coords = preprocessing_volume_and_coords(
            SERIES_DIR, patient_path, df_modality
        )
        
        print(f"Volume shape: {volume.shape}")
        print(f"Aneurysm coordinates: {aneurysm_coords}")
        
        # Visualisation
        show_middle_slices(volume)
        show_slice_with_point(volume, aneurysm_coords, plane="axial")
        
    except Exception as e:
        print(f"Erreur lors du traitement: {e}")
        import traceback
        traceback.print_exc()
else:
    print(f"‚ö†Ô∏è Aucun patient {MODALITY} disponible localement")
    print(f"Ex√©cutez d'abord l'√©tape 3 pour v√©rifier les donn√©es disponibles.")

## 5. Cr√©ation des datasets par modalit√©

Cette section utilise la classe `DatasetBuilder` pour cr√©er un dataset par modalit√© :
- **CTA** : Angiographie par tomodensitom√©trie
- **MRA** : Angiographie par r√©sonance magn√©tique
- **MRI T1post** : IRM T1 avec contraste
- **MRI T2** : IRM T2

Chaque dataset contient :
- Des cubes positifs (contenant des an√©vrismes) 
- Des cubes n√©gatifs (sans an√©vrisme)
- Des vecteurs de position (one-hot encoding)
- Les labels et patient IDs

In [None]:
# Initialiser le preprocessor et le dataset builder
preprocessor = Preprocessor()
builder = DatasetBuilder(
    preprocessor=preprocessor,
    cube_size=48,
    series_dir=SERIES_DIR
)

print(f"DatasetBuilder initialis√©: {builder}")
print(f"\nPr√™t √† construire les datasets pour toutes les modalit√©s")

## 6. Sauvegarde des datasets

In [None]:
# Sauvegarde de tous les datasets cr√©√©s
# D√©commenter apr√®s la cr√©ation des datasets

# if 'datasets' in locals() and len(datasets) > 0:
#     print("Sauvegarde des datasets...\n")
#     
#     for modality, dataset in datasets.items():
#         # Nom de fichier standardis√©
#         filename = f"{modality.lower().replace(' ', '_')}_dataset.npz"
#         output_path = os.path.join(PROCESSED_DIR, filename)
#         
#         # Sauvegarder
#         builder.save(dataset, output_path)
#         
#         # Statistiques
#         print(f"\n{modality} Dataset:")
#         print(f"  Fichier: {filename}")
#         print(f"  Total cubes: {len(dataset['cubes'])}")
#         print(f"  Positifs: {dataset['labels'].sum():.0f}")
#         print(f"  N√©gatifs: {(1 - dataset['labels']).sum():.0f}")
#         print(f"  Balance: {dataset['labels'].mean():.2%} positive")
#     
#     print(f"\n{'='*70}")
#     print(f"‚úì {len(datasets)} datasets sauvegard√©s dans {PROCESSED_DIR}")
#     print(f"{'='*70}")
# else:
#     print("‚ö†Ô∏è Aucun dataset √† sauvegarder.")
#     print("Ex√©cutez d'abord la cellule de cr√©ation des datasets.")

## 7. R√©sum√© des datasets cr√©√©s

Visualisation finale des datasets cr√©√©s et leurs caract√©ristiques.

In [None]:
# R√©sum√© final des datasets cr√©√©s
# D√©commenter pour afficher le r√©sum√©

# if 'datasets' in locals() and len(datasets) > 0:
#     import pandas as pd
#     
#     # Cr√©er un tableau r√©capitulatif
#     summary_data = []
#     for modality, dataset in datasets.items():
#         summary_data.append({
#             'Modalit√©': modality,
#             'Total Cubes': len(dataset['cubes']),
#             'Positifs': int(dataset['labels'].sum()),
#             'N√©gatifs': int((1 - dataset['labels']).sum()),
#             'Balance (%)': f"{dataset['labels'].mean()*100:.1f}%",
#             'Fichier': f"{modality.lower().replace(' ', '_')}_dataset.npz"
#         })
#     
#     df_summary = pd.DataFrame(summary_data)
#     print("\n" + "="*80)
#     print("R√âSUM√â DES DATASETS CR√â√âS")
#     print("="*80 + "\n")
#     print(df_summary.to_string(index=False))
#     print("\n" + "="*80)
#     print(f"Total: {len(datasets)} datasets cr√©√©s")
#     print(f"Localisation: {PROCESSED_DIR}")
#     print("="*80)
# else:
#     print("Aucun dataset cr√©√© pour le moment.")

## 6. Sauvegarde

In [None]:
# Sauvegarde du dataset (d√©commenter apr√®s la cr√©ation)
# if 'dataset' in locals():
#     output_path = os.path.join(PROCESSED_DIR, f"{MODALITY}_dataset.npz")
#     builder.save(dataset, output_path)
#     
#     # Afficher les statistiques du dataset
#     print(f"\n{'='*60}")
#     print(f"Dataset Statistics:")
#     print(f"{'='*60}")
#     print(f"Total cubes: {len(dataset['cubes'])}")
#     print(f"Cube shape: {dataset['cubes'][0].shape}")
#     print(f"Positive samples: {dataset['labels'].sum():.0f}")
#     print(f"Negative samples: {(1 - dataset['labels']).sum():.0f}")
#     print(f"Balance: {dataset['labels'].mean():.2%} positive")
# else:
#     print("‚ö†Ô∏è Aucun dataset √† sauvegarder. Ex√©cutez d'abord la cellule de cr√©ation.")