# FlowSOM Analysis Pipeline - Notebook Headless

## Pipeline compl√®te d'analyse FlowSOM pour donn√©es de cytom√©trie en flux

Ce notebook "miroir" de l'application FlowSOM Analyzer permet:
- **Debug & Introspection**: Visualiser les donn√©es √† chaque √©tape
- **Tuning rapide**: Tester diff√©rents param√®tres sans relancer l'app
- **S√©paration des responsabilit√©s**: Logique m√©tier pure, sans UI

---

**Auteur**: Florian Magne
**Version**: 1.0
**Date**: Janvier 2026

## 1. Import des Librairies

Import de toutes les librairies n√©cessaires avec v√©rification de disponibilit√© des d√©pendances optionnelles.

In [None]:
# -*- coding: utf-8 -*-

# IMPORTS d√©but du fichier
import sys
import warnings
from pathlib import Path
from typing import Optional, List, Dict, Any, Tuple
from datetime import datetime

warnings.filterwarnings('ignore')

# Imports scientifiques de base
import numpy as np
import pandas as pd

# Imports visualisation
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration style matplotlib pour fond sombre (comme l'UI)
plt.style.use('dark_background')
plt.rcParams['figure.facecolor'] = '#1e1e2e'
plt.rcParams['axes.facecolor'] = '#1e1e2e'
plt.rcParams['text.color'] = '#cdd6f4'
plt.rcParams['axes.labelcolor'] = '#cdd6f4'
plt.rcParams['xtick.color'] = '#cdd6f4'
plt.rcParams['ytick.color'] = '#cdd6f4'
plt.rcParams['figure.figsize'] = (12, 8)

# Plotly pour visualisations interactives
try:
    import plotly.express as px
    import plotly.graph_objects as go
    from plotly.subplots import make_subplots
    import plotly.io as pio
    # Configuration pour affichage dans les notebooks
    pio.renderers.default = 'notebook'
    PLOTLY_AVAILABLE = True
    print("‚úÖ Plotly disponible")
except ImportError:
    PLOTLY_AVAILABLE = False
    print("‚ö†Ô∏è Plotly non install√© (optionnel): pip install plotly")

# IMPORTS flowsom et anndata, l'un est le package d'analyse du FlowSOM, l'autre est pour g√©rer les donn√©es dans des objets AnnData
try:
    import flowsom as fs
    import anndata as ad
    FLOWSOM_AVAILABLE = True
    print("‚úÖ FlowSOM disponible")
except ImportError:
    FLOWSOM_AVAILABLE = False
    print("‚ùå FlowSOM non install√©: pip install flowsom")

# Import de Scanpy pour UMAP/t-SNE
try:
    import scanpy as sc
    SCANPY_AVAILABLE = True
    print("‚úÖ Scanpy disponible")
except ImportError:
    SCANPY_AVAILABLE = False
    print("‚ö†Ô∏è Scanpy non install√© (optionnel): pip install scanpy")

# Import de UMAP
try:
    import umap
    UMAP_AVAILABLE = True
    print("‚úÖ UMAP disponible")
except ImportError:
    UMAP_AVAILABLE = False
    print("‚ö†Ô∏è UMAP non install√© (optionnel): pip install umap-learn")


# Import de t-SNE via sklearn car t-SNE trop lent √† √™tre impl√©ment√© dans Scanpy (et FlowSOM)
try:
    from sklearn.manifold import TSNE
    from sklearn.metrics import silhouette_score
    from sklearn.cluster import AgglomerativeClustering
    SKLEARN_AVAILABLE = True
    print("‚úÖ Scikit-learn disponible")
except ImportError:
    SKLEARN_AVAILABLE = False
    print("‚ö†Ô∏è Scikit-learn non install√©: pip install scikit-learn")

# FlowKit pour transformations Logicle
try:
    import flowkit as fk
    FLOWKIT_AVAILABLE = True
    print("‚úÖ FlowKit disponible (transformations Logicle pr√©cise en 1 fonction)")
except ImportError:
    FLOWKIT_AVAILABLE = False
    print("‚ö†Ô∏è FlowKit non install√© (optionnel): pip install flowkit")

# FCSWrite pour export FCS
try:
    import fcswrite
    FCSWRITE_AVAILABLE = True
    print("‚úÖ FCSWrite disponible (export FCS)")
except ImportError:
    FCSWRITE_AVAILABLE = False
    print("‚ö†Ô∏è FCSWrite non install√© (optionnel): pip install fcswrite")

# Scipy pour statistiques 
from scipy import stats

In [None]:
# Import en haut de fichier des classes utilitaires permettant les transformations des fichiers ainsi que le pre-gating 

class DataTransformer:
    """
    Transformations de donn√©es de cytom√©trie (Logicle, Arcsinh, etc.).
    Classe statique r√©utilisable sans d√©pendance √† l'UI.
    """
    
    @staticmethod
    def arcsinh_transform(data: np.ndarray, cofactor: float = 5.0) -> np.ndarray:
        """
        Transformation Arcsinh (inverse hyperbolic sine).
        
        Args en entr√©e:
            data: Matrice de donn√©es (n_cells, n_markers)
            cofactor: Facteur de division (5 pour flow cytometry)
        
        Returns:
            Donn√©es transform√©es
        """
        return np.arcsinh(data / cofactor)
    
    @staticmethod
    def arcsinh_inverse(data: np.ndarray, cofactor: float = 5.0) -> np.ndarray:
        """Inverse de la transformation Arcsinh."""
        return np.sinh(data) * cofactor
    
    @staticmethod
    def logicle_transform(data: np.ndarray, T: float = 262144.0, M: float = 4.5,
                          W: float = 0.5, A: float = 0.0) -> np.ndarray:
        """
        Transformation Logicle (biexponentielle).
        
        Args en entr√©e:
            data: Matrice de donn√©es
            T: Maximum de l'√©chelle lin√©aire (262144 = 2^18)
            M: D√©cades de largeur
            W: Lin√©arisation pr√®s de z√©ro
            A: D√©cades additionnelles (n√©gatifs)
        
        Returns:
            Donn√©es transform√©es
        """
        if FLOWKIT_AVAILABLE:
            # Utiliser FlowKit si disponible (plus pr√©cis) avec une fonction pr√©d√©finie
            try:
                xform = fk.transforms.LogicleTransform(T=T, M=M, W=W, A=A)
                return xform.apply(data)
            except:
                pass
        
        # Approximation si FlowKit absent: Arcsinh modifi√©
        w_val = W * np.log10(np.e)
        return np.arcsinh(data / (T / (10 ** M))) * (M / np.log(10))
    
    @staticmethod
    def log_transform(data: np.ndarray, base: float = 10.0,
                      min_val: float = 1.0) -> np.ndarray:
        """Transformation logarithmique standard."""
        data_clipped = np.maximum(data, min_val)
        return np.log(data_clipped) / np.log(base)
    
    @staticmethod
    def zscore_normalize(data: np.ndarray) -> np.ndarray:
        """Normalisation Z-score (moyenne=0, std=1)."""
        mean = np.nanmean(data, axis=0)
        std = np.nanstd(data, axis=0)
        std[std == 0] = 1  # √âviter division par z√©ro
        return (data - mean) / std
    
    @staticmethod
    def min_max_normalize(data: np.ndarray) -> np.ndarray:
        """Normalisation Min-Max [0, 1]."""
        min_val = np.nanmin(data, axis=0)
        max_val = np.nanmax(data, axis=0)
        range_val = max_val - min_val
        range_val[range_val == 0] = 1
        return (data - min_val) / range_val


class PreGating:
    """
    Pre-gating automatique pour la s√©lection des populations d'int√©r√™t.
    Bas√© sur FSC/SSC pour exclure les d√©bris et les doublets.
    """
    
    @staticmethod
    def find_marker_index(var_names: List[str], patterns: List[str]) -> Optional[int]:
        """Trouve l'index d'un marqueur parmi les patterns donn√©s."""
        var_upper = [v.upper() for v in var_names]
        for pattern in patterns:
            for i, name in enumerate(var_upper):
                if pattern.upper() in name:
                    return i
        return None
    
    @staticmethod
    def gate_viable_cells(X: np.ndarray, var_names: List[str],
                          min_percentile: float = 2.0, 
                          max_percentile: float = 98.0) -> np.ndarray:
        """
        Gate les cellules viables bas√© sur FSC/SSC.
        
        Args:
            X: Matrice des donn√©es (n_cells, n_markers)
            var_names: Liste des noms de marqueurs
            min_percentile: Percentile minimum (exclusion d√©bris)
            max_percentile: Percentile maximum (exclusion doublets)
        
        Returns:
            Masque bool√©en des cellules viables
        """
        n_cells = X.shape[0]
        mask = np.ones(n_cells, dtype=bool)
        
        # Trouver FSC (priorit√© √† FSC-A)
        fsc_idx = PreGating.find_marker_index(var_names, ['FSC-A', 'FSC-H', 'FSC'])
        if fsc_idx is not None:
            fsc_vals = X[:, fsc_idx].astype(np.float64)
            fsc_vals = np.where(np.isfinite(fsc_vals), fsc_vals, np.nan)
            low = np.nanpercentile(fsc_vals, min_percentile)
            high = np.nanpercentile(fsc_vals, max_percentile)
            mask &= np.isfinite(fsc_vals) & (fsc_vals >= low) & (fsc_vals <= high)
        
        # Trouver SSC (priorit√© √† SSC-A)
        ssc_idx = PreGating.find_marker_index(var_names, ['SSC-A', 'SSC-H', 'SSC'])
        if ssc_idx is not None:
            ssc_vals = X[:, ssc_idx].astype(np.float64)
            ssc_vals = np.where(np.isfinite(ssc_vals), ssc_vals, np.nan)
            low = np.nanpercentile(ssc_vals, min_percentile)
            high = np.nanpercentile(ssc_vals, max_percentile)
            mask &= np.isfinite(ssc_vals) & (ssc_vals >= low) & (ssc_vals <= high)
        
        return mask
    
    @staticmethod
    def gate_singlets(X: np.ndarray, var_names: List[str],
                      ratio_min: float = 0.6, ratio_max: float = 1.5) -> np.ndarray:
        """
        Gate les singlets bas√© sur le ratio FSC-A/FSC-H.
        Les doublets ont typiquement un ratio > 1.3-1.5.
        
        Args:
            X: Matrice des donn√©es
            var_names: Liste des noms de marqueurs
            ratio_min: Ratio minimum acceptable
            ratio_max: Ratio maximum acceptable
        
        Returns:
            Masque bool√©en des singlets
        """
        n_cells = X.shape[0]
        
        fsc_a_idx = PreGating.find_marker_index(var_names, ['FSC-A'])
        fsc_h_idx = PreGating.find_marker_index(var_names, ['FSC-H'])
        
        if fsc_a_idx is None or fsc_h_idx is None:
            print("‚ö†Ô∏è FSC-A ou FSC-H non trouv√©, pas de gating singlets")
            return np.ones(n_cells, dtype=bool)
        
        fsc_a = X[:, fsc_a_idx].astype(np.float64)
        fsc_h = X[:, fsc_h_idx].astype(np.float64)
        
        # Valeurs minimum pour √©viter division par z√©ro
        min_val = 100
        valid_h = fsc_h > min_val
        
        ratio = np.full(n_cells, np.nan)
        ratio[valid_h] = fsc_a[valid_h] / fsc_h[valid_h]
        
        mask = np.isfinite(ratio) & (ratio >= ratio_min) & (ratio <= ratio_max)
        
        return mask
    
    @staticmethod
    def gate_cd45_positive(X: np.ndarray, var_names: List[str],
                           threshold_percentile: float = 10) -> np.ndarray:
        """
        Gate les cellules CD45+ (leucocytes).
        
        Returns:
            Masque bool√©en des cellules CD45+
        """
        n_cells = X.shape[0]
        
        cd45_idx = PreGating.find_marker_index(var_names, ['CD45', 'CD45-PECY5', 'CD45-PC5'])
        if cd45_idx is None:
            print("‚ö†Ô∏è CD45 non trouv√©, pas de gating CD45+")
            return np.ones(n_cells, dtype=bool)
        
        cd45_vals = X[:, cd45_idx].astype(np.float64)
        cd45_vals = np.where(np.isfinite(cd45_vals), cd45_vals, np.nan)
        
        threshold = np.nanpercentile(cd45_vals, threshold_percentile)
        
        return np.where(np.isnan(cd45_vals), False, cd45_vals > threshold)


print("‚úÖ Classes DataTransformer et PreGating charg√©es!")

## 2. Chargement des Fichiers FCS

Chargement des fichiers FCS depuis les dossiers sp√©cifi√©s. 
- **Sain (NBM)**: Moelle osseuse normale (r√©f√©rence)
- **Pathologique**: √âchantillons patients √† analyser

In [None]:
# CONFIGURATION DES CHEMINS
# Bien modifier ces chemins selon votre environnement actuel pour le bon chargement des donn√©es

# Dossier des fichiers sains (r√©f√©rence NBM)
HEALTHY_FOLDER = Path(r"Data/Sain")

# Dossier des fichiers pathologiques (patients)
PATHOLOGICAL_FOLDER = Path(r"Data/Patho")

# Mode d'analyse: 
# - True: Comparer Sain vs Pathologique
# - False: Analyser uniquement les fichiers pathologiques
COMPARE_MODE = False

print(f"Dossier Sain: {HEALTHY_FOLDER}")
print(f"Dossier Pathologique: {PATHOLOGICAL_FOLDER}")
print(f"Mode comparaison: {'Activ√©' if COMPARE_MODE else 'Patient seul'}")

In [None]:
# FONCTIONS DE CHARGEMENT FCS

def get_fcs_files(folder: Path) -> List[str]:
    """R√©cup√®re la liste des fichiers FCS dans un dossier. Et renvoie une chaine de caract√®re"""
    if not folder.exists():
        print(f"‚ö†Ô∏è Dossier non trouv√©: {folder}")
        return []
    
    files = set()
    for f in folder.glob("*.fcs"):
        files.add(str(f))
    for f in folder.glob("*.FCS"):
        files.add(str(f))
    
    return sorted(list(files))


def load_fcs_files(files: List[str], condition: str = "Unknown") -> List[ad.AnnData]:
    """
    Charge plusieurs fichiers FCS et retourne une liste d'AnnData.
    
    Args:
        files: Liste des chemins de fichiers FCS
        condition: Label de condition ("Sain" ou "Pathologique")
    
    Returns:
        Liste d'objets AnnData
    """
    # La ligne suivante cr√©e la liste vide pour stocker les AnnData puis boucle sur chaque fichier (√©viter le plantage complet)
    adatas = []
    
    for fpath in files:
        try:
            print(f"    Chargement: {Path(fpath).name}...", end=" ")
            
            # Lecture avec la fonction de base de flowsom
            adata = fs.io.read_FCS(fpath)
            
            # Ajouter les m√©tadonn√©es avec un nombre de cellules qui sera √©gale a la forme de l'objet adata 
            n_cells = adata.shape[0]
            adata.obs['condition'] = condition # Rajoute la condition du fichier : "Sain" ou "Pathologique"
            adata.obs['file_origin'] = Path(fpath).name # Rajoute une observation avec Nom du fichier source (obs = One-dimensional annotation of observations)
            
            adatas.append(adata) # Ajoute √† la liste des AnnData
            print(f"{n_cells:,} cellules")
            
        except Exception as e:
            print(f"Erreur: {e}")
    
    return adatas

# Logs sur le cahrgement des fichiers
print("="*60)
print("CHARGEMENT DES FICHIERS FCS")
print("="*60)

# Fichiers sains en fonction du mode d√©fini
healthy_files = get_fcs_files(HEALTHY_FOLDER) if COMPARE_MODE else []
print(f"\nFichiers Sains (NBM): {len(healthy_files)}")

healthy_adatas = []
if healthy_files:
    healthy_adatas = load_fcs_files(healthy_files, condition="Sain")

# Fichiers sains en fonction du mode d√©fini
patho_files = get_fcs_files(PATHOLOGICAL_FOLDER)
print(f"\nFichiers Pathologiques: {len(patho_files)}")

patho_adatas = []
if patho_files:
    patho_adatas = load_fcs_files(patho_files, condition="Pathologique")

# R√©sum√©
print("\n" + "="*60)
print(f"R√âSUM√â DU CHARGEMENT")
print(f"   Fichiers Sains charg√©s: {len(healthy_adatas)}")
print(f"   Fichiers Pathologiques charg√©s: {len(patho_adatas)}")
# R√©sum√© a.shape = pour chaque AnnData, prend le nombre de cellules (lignes) et concat√®ne si n√©cessaire
total_cells = sum([a.shape[0] for a in healthy_adatas + patho_adatas])
print(f"   Total cellules: {total_cells:,}")
print("="*60)

## 3. Exploration de la Structure des Donn√©es Brutes

Avant toute transformation, examinons la structure des donn√©es:
- Dimensions (cellules x marqueurs)
- Noms des colonnes (marqueurs)
- Types de donn√©es et plages de valeurs

In [None]:
# CONCAT√âNATION DES DONN√âES

# Combiner tous les AnnData d√©fini dans la cellule pr√©c√©dente
all_adatas = healthy_adatas + patho_adatas

# V√©rification
if len(all_adatas) == 0:
    raise ValueError("‚ùå Aucun fichier FCS charg√©! V√©rifiez les chemins.")

# Concat√©ner avec intersection des colonnes (communes √† tous les fichiers) ligne par ligne
if len(all_adatas) > 1:
    combined_data = ad.concat(all_adatas, join='inner') # join='inner' pour ne garder que les marqueurs communs √† changer par outer si on veut garder tous les marqueurs
else:
    combined_data = all_adatas[0].copy() # Si un seul fichier, juste copier pour √©viter de mofifier l'original

print(f"Donn√©es combin√©es: {combined_data.shape}")
print(f"   ‚Üí {combined_data.shape[0]:,} cellules")
print(f"   ‚Üí {combined_data.shape[1]} marqueurs")

In [None]:
# EXPLORATION DE LA STRUCTURE
print("="*70)
print("STRUCTURE DES DONN√âES")
print("="*70)

# Liste des marqueurs enregistr√© dans la varaible var_names = canaux (ici c'est bien un nom de variable)
var_names = list(combined_data.var_names)
print(f"\nMarqueurs ({len(var_names)}):")
for i, name in enumerate(var_names):
    print(f"   [{i:2d}] {name}")

# Identification des types de marqueurs car les recos indiquent d'enelever le scatter pour les analyses de clustering
print("\nClassification des marqueurs:")

#Ici le code n for n in var pose la question : "Est-ce qu'au moins UN des motifs de la liste scatter_patterns se trouve dans le nom actuel n ?"
scatter_patterns = ['FSC', 'SSC', 'TIME', 'EVENT']
scatter_markers = [n for n in var_names if any(p in n.upper() for p in scatter_patterns)]
fluor_markers = [n for n in var_names if n not in scatter_markers]

print(f"   Scatter/Time: {scatter_markers}")
print(f"   Fluorescence: {fluor_markers}")

# Statistiques de base
print("\nObservations (m√©tadonn√©es):")
print(combined_data.obs.head(10))

In [None]:
# CONVERSION EN DATAFRAME POUR EXPLORATION
HEADER = True
# Extraire la matrice de donn√©es
X = combined_data.X # Matrice des donn√©es (n_cells, n_markers)
if hasattr(X, 'toarray'): # Si sparse matrix, convertir en dense pour pandas
    X = X.toarray()

# Cr√©er un DataFrame pandas pour faciliter l'exploration avec df comme commande pandas classique
df_raw = pd.DataFrame(X, columns=var_names) # Cr√©e le DataFrame avec les noms de colonnes 
df_raw['condition'] = combined_data.obs['condition'].values # Ajoute une colonne condition
df_raw['file_origin'] = combined_data.obs['file_origin'].values # Ajoute une colonne file_origin

print("DataFrame cr√©√© pour exploration")
print(f"   Shape: {df_raw.shape}")
print("\nAper√ßu des donn√©es brutes:")
df_raw.head(50)

In [None]:
# Stats descriptives marqueurs de fluorescence et scatter
print("Statistiques descriptives fluorescence")
display(df_raw[fluor_markers].describe())

print("\nStatistiques descriptives scatter")
display(df_raw[scatter_markers].describe())

## 4. Contr√¥le Qualit√© des donn√©es- Analyse des Distributions

Visualisation des distributions brutes pour identifier:
- Outliers et valeurs aberrantes
- Valeurs n√©gatives (probl√®me de compensation)
- NaN/Inf dans les donn√©es

In [None]:
# V√©rif des varaibles probl√©matiques suite de l'exploration du dataset

print("ANALYSE DES DONN√âES BRUTES")
print("="*60)

# ========== MARQUEURS DE FLUORESCENCE ==========
print("\nMARQUEURS DE FLUORESCENCE")
print("-"*60)

# V√©rifier NaN
nan_count = df_raw[fluor_markers].isna().sum()
print(f"\nValeurs NaN par marqueur:")
for marker, count in nan_count.items():
    if count > 0:
        print(f"   {marker}: {count:,} ({count/len(df_raw)*100:.2f}%)")
    
if nan_count.sum() == 0:
    print("   ‚úÖ Aucun NaN d√©tect√©!")

# V√©rifier Inf (valeur infinie) ex sur un post log 
inf_count = np.isinf(df_raw[fluor_markers]).sum()
print(f"\nValeurs Inf par marqueur:")
if inf_count.sum() == 0:
    print("   ‚úÖ Aucun Inf d√©tect√©!")
else:
    for marker, count in inf_count.items():
        if count > 0:
            print(f"   {marker}: {count:,}")

# V√©rifier valeurs n√©gatives
neg_count = (df_raw[fluor_markers] < 0).sum()
print(f"\n‚ûñ Valeurs n√©gatives par marqueur:")
has_negatives = False
for marker, count in neg_count.items():
    if count > 0:
        has_negatives = True
        # Compter le nombre total de cellules valides (non-NaN) pour ce marqueur
        total_valid = df_raw[marker].notna().sum()
        print(f"   {marker}: {count:,} / {total_valid:,} ({count/total_valid*100:.2f}%)")
        
if not has_negatives:
    print("   ‚úÖ Aucune valeur n√©gative!")
else:
    print("\n   ‚ö†Ô∏è Les valeurs n√©gatives peuvent indiquer un probl√®me de compensation")
    print("   ‚Üí La transformation Arcsinh ou Logicle peut les g√©rer")

# ========== MARQUEURS SCATTER/TIME ==========
print("\n\nMARQUEURS SCATTER/TIME")
print("-"*60)

# V√©rifier NaN
nan_count_scatter = df_raw[scatter_markers].isna().sum()
print(f"\nValeurs NaN par marqueur:")
for marker, count in nan_count_scatter.items():
    if count > 0:
        print(f"   {marker}: {count:,} ({count/len(df_raw)*100:.2f}%)")
    
if nan_count_scatter.sum() == 0:
    print("   ‚úÖ Aucun NaN d√©tect√©!")

# V√©rifier Inf
inf_count_scatter = np.isinf(df_raw[scatter_markers]).sum()
print(f"\nValeurs Inf par marqueur:")
if inf_count_scatter.sum() == 0:
    print("   ‚úÖ Aucun Inf d√©tect√©!")
else:
    for marker, count in inf_count_scatter.items():
        if count > 0:
            print(f"   {marker}: {count:,}")

# V√©rifier valeurs n√©gatives
neg_count_scatter = (df_raw[scatter_markers] < 0).sum()
print(f"\n‚ûñ Valeurs n√©gatives par marqueur:")
has_negatives_scatter = False
for marker, count in neg_count_scatter.items():
    if count > 0:
        has_negatives_scatter = True
        total_valid = df_raw[marker].notna().sum()
        print(f"   {marker}: {count:,} / {total_valid:,} ({count/total_valid*100:.2f}%)")
        
if not has_negatives_scatter:
    print("   ‚úÖ Aucune valeur n√©gative!")
else:
    print("\n   ‚ÑπÔ∏è Les valeurs n√©gatives dans scatter sont rares mais possibles")

print("\n" + "="*60)

In [None]:
# Histogrammes des distributions brutes pour explorer visuellement les donn√©es

# S√©lectionner les marqueurs √† visualiser (max 12 pour lisibilit√©)
markers_to_plot = fluor_markers[:12] if len(fluor_markers) > 12 else fluor_markers  # Op√©rateur ternaire: prendre 12 premiers si > 12, sinon tous

n_markers = len(markers_to_plot)  # Nombre de marqueurs √† afficher
n_cols = 4  # 4 colonnes par ligne
n_rows = (n_markers + n_cols - 1) // n_cols  # Calcul nb lignes (division enti√®re arrondie vers le haut)

fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, 5*n_rows))  # Cr√©er grille n_rows √ó n_cols (largeur 20, hauteur 5 par ligne)
axes = axes.flatten() if n_markers > 1 else [axes]  # Aplatir tableau 2D en liste 1D pour it√©ration facile

for i, marker in enumerate(markers_to_plot):  # Boucle sur chaque marqueur avec index i
    ax = axes[i]  # R√©cup√©rer le sous-graphique i
    data = df_raw[marker].dropna()  # Extraire donn√©es du marqueur et supprimer NaN
    
    ax.hist(data, bins=100, color='#89b4fa', alpha=0.7, edgecolor='none')  # Histogramme 100 barres, bleu, 70% opacit√©
    ax.set_title(marker, fontsize=11, fontweight='bold')  # Titre = nom du marqueur
    ax.set_xlabel('Valeur brute')  # Label axe X
    ax.set_ylabel('Count')  # Label axe Y = nombre de cellules
    ax.axvline(0, color='#f38ba8', linestyle='--', alpha=0.5, label='Z√©ro')  # Ligne verticale rouge √† x=0
    
    # Statistiques min/max dans une bo√Æte en haut √† droite
    ax.text(0.98, 0.95, f'min: {data.min():.0f}\nmax: {data.max():.0f}',  # Texte avec stats
            transform=ax.transAxes, ha='right', va='top', fontsize=8,  # Coordonn√©es relatives (0-1), alignement
            bbox=dict(boxstyle='round', facecolor='#313244', alpha=0.8))  # Bo√Æte grise arrondie semi-transparente

# Cacher les axes vides (si 10 marqueurs sur grille 3√ó4, cacher les 2 derni√®res cases)
for i in range(n_markers, len(axes)):
    axes[i].set_visible(False)

plt.suptitle('Distributions Brutes des Marqueurs (avant transformation)',  # Titre g√©n√©ral
             fontsize=14, fontweight='bold', y=1.02)  # D√©cal√© vers le haut
plt.tight_layout()  # Ajuster espacement auto
plt.show()  # Afficher

In [None]:
# Histogrammes des marqueurs SCATTER/TIME pour exploration visuelle

# S√©lectionner tous les marqueurs scatter (g√©n√©ralement peu nombreux)
scatter_to_plot = scatter_markers  # FSC, SSC, TIME

n_scatter = len(scatter_to_plot)  # Nombre de marqueurs scatter
n_cols_scatter = min(3, n_scatter)  # Max 3 colonnes pour les scatter
n_rows_scatter = (n_scatter + n_cols_scatter - 1) // n_cols_scatter  # Calcul nb lignes

fig, axes = plt.subplots(n_rows_scatter, n_cols_scatter, figsize=(18, 6*n_rows_scatter))  # Grille pour scatter (largeur 18, hauteur 6 par ligne)
axes = axes.flatten() if n_scatter > 1 else [axes]  # Aplatir en liste 1D

for i, marker in enumerate(scatter_to_plot):  # Boucle sur chaque marqueur scatter
    ax = axes[i]  # Sous-graphique i
    data = df_raw[marker].dropna()  # Donn√©es sans NaN
    
    ax.hist(data, bins=100, color='#a6e3a1', alpha=0.7, edgecolor='none')  # Vert pour diff√©rencier
    ax.set_title(marker, fontsize=12, fontweight='bold')  # Titre
    ax.set_xlabel('Valeur brute')  # Axe X
    ax.set_ylabel('Count')  # Axe Y
    
    # Statistiques compl√®tes
    ax.text(0.02, 0.95, f'min: {data.min():.0f}\nmax: {data.max():.0f}\nmean: {data.mean():.0f}\nmedian: {data.median():.0f}',
            transform=ax.transAxes, ha='left', va='top', fontsize=8,
            bbox=dict(boxstyle='round', facecolor='#313244', alpha=0.8))

# Cacher axes vides
for i in range(n_scatter, len(axes)):
    axes[i].set_visible(False)

plt.suptitle('Distributions Scatter/Time (FSC, SSC, TIME)', 
             fontsize=14, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

### Visualisation Interactive avec FlowKit + Bokeh

Utilisation native de FlowKit pour visualisations interactives :
- **Histogrammes** avec bins/ranges personnalisables
- **Scatter plots** interactifs avec zoom/pan
- **Contour plots** avec densit√©
- Rendu Bokeh pour l'interactivit√© (zoom, pan, hover)

üìö Documentation : https://flowkit.readthedocs.io/en/latest/index.html
https://www.frontiersin.org/journals/immunology/articles/10.3389/fimmu.2021.768541/full

---

### ‚ö†Ô∏è IMPORTANT : Nomenclature FCS

**FlowKit utilise les PnN labels** (noms techniques), pas les PnS (descriptions).

- **PnN** = Nom technique (ex: `'Horizon V500-A'`) ‚Üê √Ä utiliser
- **PnS** = Description bio (ex: `'CD45 KO'`) ‚Üê Non utilisable

**Exemple :** Pour CD45, utiliser `'Horizon V500-A'` (pas `'CD45 KO'`).

Ex√©cutez la cellule suivante pour voir la correspondance PnN ‚Üî PnS.


In [None]:
# Initialisation FlowKit et Bokeh + Cr√©ation du Sample

if not FLOWKIT_AVAILABLE:
    fk_sample = None
else:
    try:
        from bokeh.plotting import show, output_notebook
        from bokeh.io import export_png
        output_notebook()
    except ImportError:
        pass
    
    # Utiliser les fichiers FCS d√©j√† identifi√©s dans le notebook
    all_fcs_files = healthy_files + patho_files
    
    if all_fcs_files:
        example_fcs = str(all_fcs_files[0])
        fk_sample = fk.Sample(example_fcs)
    else:
        fk_sample = None

In [None]:
# AFFICHER LES NOMS DE CANAUX EXACTS DU FICHIER FCS

if fk_sample is not None:
    print("="*80)
    print(f"CANAUX DU FICHIER FCS: {Path(example_fcs).name}")
    print("="*80)
    
    print(f"\nPnN Labels ({len(fk_sample.pnn_labels)} canaux) - NOMS √Ä UTILISER DANS FLOWKIT:")
    print("-"*80)
    for i, label in enumerate(fk_sample.pnn_labels, 1):
        print(f"   [{i:2d}] '{label}'")
    
    # Afficher aussi les PnS labels (descriptions) si disponibles
    print(f"\n\nPnS Labels (descriptions):")
    print("-"*80)
    for i, label in enumerate(fk_sample.pns_labels, 1):
        print(f"   [{i:2d}] {label}")
    
else:
    print("‚ö†Ô∏è FlowKit Sample non charg√©")

In [None]:
# D√©finir les colonnes FSC et SSC pour les visualisations ult√©rieures
fsc_col = next((c for c in var_names if 'FSC-A' in c.upper() or 'FSC' in c.upper()), None)
ssc_col = next((c for c in var_names if 'SSC-A' in c.upper() or 'SSC' in c.upper()), None)

if fsc_col:
    print(f"‚úÖ FSC d√©tect√©: {fsc_col}")
if ssc_col:
    print(f"‚úÖ SSC d√©tect√©: {ssc_col}")

In [None]:
# Histogramme basique FlowKit

if fk_sample is not None:
    CHANNEL = 'Horizon V500-A' #changer ici le channel a afficher en fonction de count
    p = fk_sample.plot_histogram(CHANNEL, source='raw', bins=256)
    show(p)

In [None]:
# Scatter plot 2D interactif

if fk_sample is not None:
    x_channel = 'Horizon V500-A'
    y_channel = 'PE-A'
    p = fk_sample.plot_scatter(x_channel, y_channel, source='raw')
    show(p)

In [None]:
# Histogramme 1D interactif avec Plotly (zoom, pan, hover)
# S√©lectionner un marqueur √† visualiser (modifiable)
MARKER_TO_PLOT = 'CD45 KO'  # Changer ici le nom exact du marqueur √† visualiser

print(f"Visualisation: {MARKER_TO_PLOT}")

# Extraire les donn√©es
marker_data = df_raw[MARKER_TO_PLOT].dropna().values

# Importer plotly pour l'interactivit√©
try:
    import plotly.graph_objects as go
    from plotly.subplots import make_subplots
    import plotly.io as pio
    
    # Configurer le renderer pour Jupyter (√©vite l'erreur nbformat)
    try:
        pio.renderers.default = 'notebook'
    except:
        try:
            pio.renderers.default = 'jupyterlab'
        except:
            pio.renderers.default = 'browser'
    
    PLOTLY_AVAILABLE = True
except ImportError:
    PLOTLY_AVAILABLE = False
    print("‚ö†Ô∏è Plotly non install√© - pip install plotly")

if PLOTLY_AVAILABLE:
    # Cr√©er une figure avec 4 subplots (2x2)
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=(
            f'{MARKER_TO_PLOT} - Brut (Lin√©aire)',
            f'{MARKER_TO_PLOT} - Arcsinh (cofactor=5)',
            f'{MARKER_TO_PLOT} - Logicle/Arcsinh',
            f'{MARKER_TO_PLOT} - Log10'
        ),
        vertical_spacing=0.12,
        horizontal_spacing=0.1
    )
    
    # 1. Donn√©es brutes
    fig.add_trace(
        go.Histogram(x=marker_data, nbinsx=200, name='Brut',
                     marker_color='#89b4fa', opacity=0.7,
                     hovertemplate='Intensit√©: %{x:.1f}<br>Count: %{y}<extra></extra>'),
        row=1, col=1
    )
    
    # 2. Arcsinh cofactor=5
    marker_arcsinh = DataTransformer.arcsinh_transform(marker_data, cofactor=5)
    fig.add_trace(
        go.Histogram(x=marker_arcsinh, nbinsx=200, name='Arcsinh (5)',
                     marker_color='#a6e3a1', opacity=0.7,
                     hovertemplate='Intensit√©: %{x:.2f}<br>Count: %{y}<extra></extra>'),
        row=1, col=2
    )
    
    # 3. Logicle ou Arcsinh cofactor=150
    if FLOWKIT_AVAILABLE:
        marker_logicle = DataTransformer.logicle_transform(marker_data)
        transform_name = 'Logicle'
    else:
        marker_logicle = DataTransformer.arcsinh_transform(marker_data, cofactor=150)
        transform_name = 'Arcsinh (150)'
    
    fig.add_trace(
        go.Histogram(x=marker_logicle, nbinsx=200, name=transform_name,
                     marker_color='#f9e2af', opacity=0.7,
                     hovertemplate='Intensit√©: %{x:.2f}<br>Count: %{y}<extra></extra>'),
        row=2, col=1
    )
    
    # 4. Log10
    marker_log = DataTransformer.log_transform(marker_data, base=10, min_val=1)
    fig.add_trace(
        go.Histogram(x=marker_log, nbinsx=200, name='Log10',
                     marker_color='#cba6f7', opacity=0.7,
                     hovertemplate='Intensit√©: %{x:.2f}<br>Count: %{y}<extra></extra>'),
        row=2, col=2
    )
    
    # Mise en page
    fig.update_xaxes(title_text="Intensit√© brute", row=1, col=1)
    fig.update_xaxes(title_text="Intensit√© transform√©e", row=1, col=2)
    fig.update_xaxes(title_text="Intensit√© transform√©e", row=2, col=1)
    fig.update_xaxes(title_text="Intensit√© log10", row=2, col=2)
    
    fig.update_yaxes(title_text="Fr√©quence", row=1, col=1)
    fig.update_yaxes(title_text="Fr√©quence", row=1, col=2)
    fig.update_yaxes(title_text="Fr√©quence", row=2, col=1)
    fig.update_yaxes(title_text="Fr√©quence", row=2, col=2)
    
    # Th√®me sombre et configuration
    fig.update_layout(
        title_text=f'Comparaison Transformations - {MARKER_TO_PLOT} ({len(marker_data):,} cellules)',
        title_font_size=16,
        height=900,
        showlegend=False,
        template='plotly_dark',
        hovermode='x unified'
    )
    
    # Afficher avec gestion d'erreur
    try:
        fig.show()
        print(f"\n‚úÖ Visualisation interactive g√©n√©r√©e")
        print(f"   üí° Utilisez les outils Plotly: Zoom (box select), Pan, Reset, Download")
    except Exception as e:
        print(f"\n‚ö†Ô∏è Erreur affichage Plotly: {e}")
        print("   ‚Üí Affichage en HTML dans le notebook...")
        
        # Alternative: Afficher le HTML directement dans le notebook
        try:
            from IPython.display import HTML, display
            html_str = fig.to_html(include_plotlyjs='cdn', include_mathjax='cdn')
            display(HTML(html_str))
            print(f"   ‚úÖ Graphique affich√© en HTML (pleinement interactif)")
        except Exception as e2:
            print(f"   ‚ùå Erreur HTML: {e2}")
            # Dernier recours: sauvegarder en fichier
            html_file = 'plotly_visualization.html'
            fig.write_html(html_file)
            print(f"   ‚Üí Fichier sauvegard√©: {html_file}")
            print(f"   ‚Üí Ouvrez ce fichier dans votre navigateur pour l'interactivit√© compl√®te")
    
    print(f"   Cellules: {len(marker_data):,}")
    print(f"   Min brut: {marker_data.min():.2f} | Max brut: {marker_data.max():.2f}")
else:
    # Fallback matplotlib si Plotly non disponible
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    axes = axes.flatten()
    
    ax = axes[0]
    ax.hist(marker_data, bins=200, color='#89b4fa', alpha=0.7, edgecolor='none')
    ax.set_title(f'{MARKER_TO_PLOT} - Brut (Lin√©aire)', fontsize=12, fontweight='bold')
    ax.set_xlabel('Intensit√© brute')
    ax.set_ylabel('Fr√©quence')
    
    ax = axes[1]
    marker_arcsinh = DataTransformer.arcsinh_transform(marker_data, cofactor=5)
    ax.hist(marker_arcsinh, bins=200, color='#a6e3a1', alpha=0.7, edgecolor='none')
    ax.set_title(f'{MARKER_TO_PLOT} - Arcsinh (cofactor=5)', fontsize=12, fontweight='bold')
    ax.set_xlabel('Intensit√© transform√©e')
    ax.set_ylabel('Fr√©quence')
    
    ax = axes[2]
    if FLOWKIT_AVAILABLE:
        marker_logicle = DataTransformer.logicle_transform(marker_data)
        ax.hist(marker_logicle, bins=200, color='#f9e2af', alpha=0.7, edgecolor='none')
        ax.set_title(f'{MARKER_TO_PLOT} - Logicle', fontsize=12, fontweight='bold')
    else:
        marker_logicle = DataTransformer.arcsinh_transform(marker_data, cofactor=150)
        ax.hist(marker_logicle, bins=200, color='#f9e2af', alpha=0.7, edgecolor='none')
        ax.set_title(f'{MARKER_TO_PLOT} - Arcsinh (cofactor=150)', fontsize=12, fontweight='bold')
    ax.set_xlabel('Intensit√© transform√©e')
    ax.set_ylabel('Fr√©quence')
    
    ax = axes[3]
    marker_log = DataTransformer.log_transform(marker_data, base=10, min_val=1)
    ax.hist(marker_log, bins=200, color='#cba6f7', alpha=0.7, edgecolor='none')
    ax.set_title(f'{MARKER_TO_PLOT} - Log10', fontsize=12, fontweight='bold')
    ax.set_xlabel('Intensit√© transform√©e (log10)')
    ax.set_ylabel('Fr√©quence')
    
    plt.suptitle(f'Comparaison Transformations - {MARKER_TO_PLOT} ({len(marker_data):,} cellules)', 
                 fontsize=14, fontweight='bold', y=0.995)
    plt.tight_layout()
    plt.show()

## 5. Pre-Gating: √âlimination des D√©bris et Doublets

Application du pre-gating automatique:
1. **gate_viable_cells()**: Exclusion des d√©bris bas√© sur percentiles FSC/SSC
2. **gate_singlets()**: Exclusion des doublets via ratio FSC-A/FSC-H

In [None]:
# =============================================================================
# APPLICATION DU PRE-GATING (OPTIONNEL)
# =============================================================================

# ACTIVER/D√âSACTIVER LE PRE-GATING
APPLY_PREGATING = False  # Mettre True pour appliquer le pre-gating, False pour le skip

# Param√®tres de gating (utilis√©s si APPLY_PREGATING = True)
MIN_PERCENTILE = 2.0    # Exclusion d√©bris (bas)
MAX_PERCENTILE = 98.0   # Exclusion doublets (haut)
RATIO_MIN = 0.6         # Ratio FSC-A/FSC-H minimum
RATIO_MAX = 1.5         # Ratio FSC-A/FSC-H maximum

# Donn√©es avant gating
X_raw = combined_data.X
if hasattr(X_raw, 'toarray'):
    X_raw = X_raw.toarray()
n_before = X_raw.shape[0]

if APPLY_PREGATING:
    print("üö™ PRE-GATING AUTOMATIQUE")
    print("="*60)
    print(f"   Percentiles FSC/SSC: [{MIN_PERCENTILE}%, {MAX_PERCENTILE}%]")
    print(f"   Ratio singlets: [{RATIO_MIN}, {RATIO_MAX}]")
    print(f"\nüìä Avant gating: {n_before:,} cellules")

    # Gate 1: Cellules viables (FSC/SSC)
    mask_viable = PreGating.gate_viable_cells(
        X_raw, var_names, 
        min_percentile=MIN_PERCENTILE, 
        max_percentile=MAX_PERCENTILE
    )
    n_after_viable = mask_viable.sum()
    print(f"   ‚Üí Apr√®s gate viable: {n_after_viable:,} ({n_after_viable/n_before*100:.1f}%)")

    # Gate 2: Singlets (FSC-A/FSC-H ratio)
    mask_singlets = PreGating.gate_singlets(
        X_raw, var_names,
        ratio_min=RATIO_MIN,
        ratio_max=RATIO_MAX
    )
    n_after_singlets = mask_singlets.sum()
    print(f"   ‚Üí Apr√®s gate singlets: {n_after_singlets:,} ({n_after_singlets/n_before*100:.1f}%)")

    # Masque combin√©
    mask_final = mask_viable & mask_singlets
    n_final = mask_final.sum()
    n_excluded = n_before - n_final

    print(f"\n‚úÖ Apr√®s pre-gating complet: {n_final:,} cellules")
    print(f"   ‚Üí Exclus: {n_excluded:,} ({n_excluded/n_before*100:.1f}%)")
else:
    print("‚è≠Ô∏è PRE-GATING D√âSACTIV√â")
    print("="*60)
    print(f"   ‚Üí Toutes les {n_before:,} cellules seront conserv√©es")
    
    # Masque qui garde tout
    mask_final = np.ones(n_before, dtype=bool)
    n_final = n_before

In [None]:
# =============================================================================
# VISUALISATION AVANT/APR√àS GATING (si pre-gating activ√©)
# =============================================================================

if APPLY_PREGATING and fsc_col and ssc_col:
    fig, axes = plt.subplots(1, 3, figsize=(18, 5))
    
    # Sous-√©chantillonner
    n_sample = min(30000, n_before)
    idx_sample = np.random.choice(n_before, n_sample, replace=False)
    
    fsc_idx = var_names.index(fsc_col)
    ssc_idx = var_names.index(ssc_col)
    
    # Plot 1: Avant gating
    ax = axes[0]
    ax.hexbin(X_raw[idx_sample, fsc_idx], X_raw[idx_sample, ssc_idx],
              gridsize=80, cmap='Blues', mincnt=1)
    ax.set_xlabel(fsc_col)
    ax.set_ylabel(ssc_col)
    ax.set_title(f'AVANT Gating\n({n_before:,} cellules)', fontsize=11, fontweight='bold')
    
    # Plot 2: Cellules exclues
    ax = axes[1]
    excluded_mask = ~mask_final
    included_sample = mask_final[idx_sample]
    excluded_sample = ~included_sample
    
    ax.scatter(X_raw[idx_sample][excluded_sample, fsc_idx], 
               X_raw[idx_sample][excluded_sample, ssc_idx],
               s=1, c='#f38ba8', alpha=0.5, label='Exclus')
    ax.scatter(X_raw[idx_sample][included_sample, fsc_idx], 
               X_raw[idx_sample][included_sample, ssc_idx],
               s=1, c='#a6e3a1', alpha=0.5, label='Conserv√©s')
    ax.set_xlabel(fsc_col)
    ax.set_ylabel(ssc_col)
    ax.set_title(f'Gating Overlay\n(üü¢ conserv√©s, üî¥ exclus)', fontsize=11, fontweight='bold')
    ax.legend(markerscale=10, loc='upper right')
    
    # Plot 3: Apr√®s gating
    ax = axes[2]
    X_gated = X_raw[mask_final]
    n_gated_sample = min(30000, len(X_gated))
    idx_gated = np.random.choice(len(X_gated), n_gated_sample, replace=False)
    
    ax.hexbin(X_gated[idx_gated, fsc_idx], X_gated[idx_gated, ssc_idx],
              gridsize=80, cmap='Greens', mincnt=1)
    ax.set_xlabel(fsc_col)
    ax.set_ylabel(ssc_col)
    ax.set_title(f'APR√àS Gating\n({n_final:,} cellules)', fontsize=11, fontweight='bold')
    
    plt.suptitle('Comparaison Pre-Gating FSC/SSC', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()
elif not APPLY_PREGATING:
    print("‚ÑπÔ∏è Visualisation du gating non affich√©e (pre-gating d√©sactiv√©)")

In [None]:
# =============================================================================
# CR√âATION DU SECOND ANNDATA (avec ou sans gating)
# =============================================================================

# Cr√©er l'AnnData filtr√© (ou copie compl√®te si pas de gating)
combined_gated = combined_data[mask_final].copy()

if APPLY_PREGATING:
    print(f"‚úÖ AnnData apr√®s gating: {combined_gated.shape}")
    print(f"   ‚Üí {combined_gated.shape[0]:,} cellules conserv√©es")
    print(f"   ‚Üí {combined_gated.shape[1]} marqueurs")
else:
    print(f"‚úÖ AnnData cr√©√© (sans pre-gating): {combined_gated.shape}")
    print(f"   ‚Üí {combined_gated.shape[0]:,} cellules (toutes conserv√©es)")
    print(f"   ‚Üí {combined_gated.shape[1]} marqueurs")

## 6. Transformation des Donn√©es (Arcsinh / Logicle)

Les donn√©es brutes de cytom√©trie n√©cessitent une transformation pour:
- G√©rer les valeurs n√©gatives (compensation)
- Compresser la plage dynamique
- Am√©liorer la visualisation des populations faiblement exprim√©es

### Transformations disponibles:
- **Arcsinh (cofactor=5)**: Recommand√© pour flow cytometry
- **Logicle**: Transformation biexponentielle (standard ISAC)
- **Log10**: Transformation logarithmique simple

In [None]:
# CONFIGURATION DE LA TRANSFORMATION

# Choix de la transformation
TRANSFORM_TYPE = "arcsinh"  # Options: "arcsinh", "logicle", "log10", "none"
COFACTOR = 5  # Pour arcsinh: 5 (flow)

# Appliquer uniquement aux marqueurs de fluorescence (pas FSC/SSC/Time)
APPLY_TO_SCATTER = False

print("TRANSFORMATION DES DONN√âES")
print("="*60)
print(f"   Type: {TRANSFORM_TYPE.upper()}")
if TRANSFORM_TYPE == "arcsinh":
    print(f"   Cofacteur: {COFACTOR}")
print(f"   Appliquer au scatter: {'Oui' if APPLY_TO_SCATTER else 'Non'}")

In [None]:
# APPLICATION DE LA TRANSFORMATION

# Extraire les donn√©es
X_gated = combined_gated.X
if hasattr(X_gated, 'toarray'):
    X_gated = X_gated.toarray()

# Copie pour transformation
X_transformed = X_gated.copy()

# D√©terminer les indices des colonnes √† transformer
if APPLY_TO_SCATTER:
    cols_to_transform = list(range(len(var_names)))
else:
    # Exclure FSC, SSC, Time
    scatter_patterns = ['FSC', 'SSC', 'TIME', 'EVENT']
    cols_to_transform = [i for i, name in enumerate(var_names) 
                         if not any(p in name.upper() for p in scatter_patterns)]

print(f"\nColonnes √† transformer: {len(cols_to_transform)}/{len(var_names)}")

# Appliquer la transformation
if TRANSFORM_TYPE == "arcsinh":
    print(f"\n‚ö° Application Arcsinh (cofactor={COFACTOR})...")
    X_transformed[:, cols_to_transform] = DataTransformer.arcsinh_transform(
        X_gated[:, cols_to_transform], cofactor=COFACTOR
    )
    
elif TRANSFORM_TYPE == "logicle":
    print("\n‚ö° Application Logicle...")
    X_transformed[:, cols_to_transform] = DataTransformer.logicle_transform(
        X_gated[:, cols_to_transform]
    )
    
elif TRANSFORM_TYPE == "log10":
    print("\n‚ö° Application Log10...")
    X_transformed[:, cols_to_transform] = DataTransformer.log_transform(
        X_gated[:, cols_to_transform]
    )
    
else:
    print("\n‚ö†Ô∏è Pas de transformation appliqu√©e")

# V√©rifier les r√©sultats
print(f"\n‚úÖ Transformation termin√©e!")
print(f"   Plage avant: [{X_gated[:, cols_to_transform].min():.2f}, {X_gated[:, cols_to_transform].max():.2f}]")
print(f"   Plage apr√®s: [{X_transformed[:, cols_to_transform].min():.2f}, {X_transformed[:, cols_to_transform].max():.2f}]")

## 7. Comparaison Avant/Apr√®s Transformation

Visualisation c√¥te √† c√¥te des distributions pour valider l'effet de la transformation.

In [None]:
# COMPARAISON DISTRIBUTIONS AVANT/APR√àS

# S√©lectionner quelques marqueurs repr√©sentatifs
markers_compare = [var_names[i] for i in cols_to_transform[:6]]

fig, axes = plt.subplots(2, len(markers_compare), figsize=(4*len(markers_compare), 8))

for i, marker in enumerate(markers_compare):
    col_idx = var_names.index(marker)
    
    # Avant transformation
    ax = axes[0, i]
    data_before = X_gated[:, col_idx]
    ax.hist(data_before, bins=80, color='#f38ba8', alpha=0.7, edgecolor='none')
    ax.set_title(f'{marker}\n(Brut)', fontsize=10, fontweight='bold')
    ax.axvline(0, color='white', linestyle='--', alpha=0.5)
    if i == 0:
        ax.set_ylabel('AVANT\nCount', fontsize=11, fontweight='bold')
    
    # Apr√®s transformation
    ax = axes[1, i]
    data_after = X_transformed[:, col_idx]
    ax.hist(data_after, bins=80, color='#a6e3a1', alpha=0.7, edgecolor='none')
    ax.set_title(f'{TRANSFORM_TYPE.upper()}', fontsize=10)
    ax.axvline(0, color='white', linestyle='--', alpha=0.5)
    if i == 0:
        ax.set_ylabel('APR√àS\nCount', fontsize=11, fontweight='bold')

plt.suptitle(f'Comparaison des Distributions: Brut vs {TRANSFORM_TYPE.upper()} (cofactor={COFACTOR})', 
             fontsize=14, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

In [None]:
# TEST DE DIFF√âRENTS COFACTEURS (pour tuning)

print("COMPARAISON DES COFACTEURS ARCSINH")
print("="*60)

# S√©lectionner un marqueur repr√©sentatif
test_marker = markers_compare[0]
test_idx = var_names.index(test_marker)
test_data = X_gated[:, test_idx]

# Tester diff√©rents cofacteurs
cofactors = [1, 5, 50, 150, 500]

fig, axes = plt.subplots(1, len(cofactors)+1, figsize=(4*(len(cofactors)+1), 4))

# Donn√©es brutes
ax = axes[0]
ax.hist(test_data, bins=80, color='#89b4fa', alpha=0.7, edgecolor='none')
ax.set_title('Brut\n(pas de transfo)', fontsize=10, fontweight='bold')
ax.set_xlabel(test_marker)

# Transformations avec diff√©rents cofacteurs
for i, cof in enumerate(cofactors):
    ax = axes[i+1]
    transformed = DataTransformer.arcsinh_transform(test_data, cofactor=cof)
    ax.hist(transformed, bins=80, color='#cba6f7', alpha=0.7, edgecolor='none')
    ax.set_title(f'Arcsinh\ncofactor={cof}', fontsize=10, fontweight='bold')
    ax.set_xlabel(test_marker)

plt.suptitle(f'üîß Impact du Cofacteur sur la Distribution ({test_marker})', 
             fontsize=13, fontweight='bold', y=1.05)
plt.tight_layout()
plt.show()

## 8. Pr√©paration des Donn√©es pour FlowSOM

S√©lection des colonnes pour le clustering:
- Exclusion des param√®tres scatter (FSC, SSC) et Time
- Conservation uniquement des marqueurs de fluorescence
- Nettoyage final (NaN/Inf)

In [None]:
# S√âLECTION DES COLONNES POUR FLOWSOM

# Option: exclure FSC/SSC/Time
EXCLUDE_SCATTER = True

# Identifier les colonnes √† utiliser
scatter_patterns = ['FSC', 'SSC', 'TIME', 'EVENT']

if EXCLUDE_SCATTER:
    cols_to_use = [i for i, name in enumerate(var_names) 
                   if not any(p in name.upper() for p in scatter_patterns)]
else:
    cols_to_use = list(range(len(var_names)))

used_markers = [var_names[i] for i in cols_to_use]

print("COLONNES POUR FLOWSOM")
print("="*60)
print(f"   Exclure scatter: {'Oui' if EXCLUDE_SCATTER else 'Non'}")
print(f"   Colonnes s√©lectionn√©es: {len(cols_to_use)}/{len(var_names)}")
print(f"\nMarqueurs utilis√©s:")
for i, marker in enumerate(used_markers):
    print(f"   [{i:2d}] {marker}")

In [None]:
# CR√âATION DE L'ANNDATA TRANSFORM√â ET EXPLORATION POST-ARCSINH

# Cr√©er un nouvel AnnData avec les donn√©es transform√©es (X_transformed)
import anndata as ad

# Cr√©er adata_flowsom - le nouvel AnnData pour FlowSOM avec donn√©es transform√©es
adata_flowsom = ad.AnnData(
    X=X_transformed,  # Donn√©es POST-transformation arcsinh
    obs=combined_gated.obs.copy(),  # Copie des m√©tadonn√©es
    var=combined_gated.var.copy() if combined_gated.var is not None else None
)

# Ajouter les noms de variables
adata_flowsom.var_names = var_names

print("="*70)
print("CR√âATION ANNDATA POUR FLOWSOM (DONN√âES POST-ARCSINH)")
print("="*70)
print(f"\n‚úÖ Nouvel AnnData 'adata_flowsom' cr√©√© avec donn√©es transform√©es")
print(f"   Shape: {adata_flowsom.shape}")
print(f"   Observations (cellules): {adata_flowsom.n_obs:,}")
print(f"   Variables (marqueurs): {adata_flowsom.n_vars}")

# ============================================================================
# EXPLORATION DU DATAFRAME POST-TRANSFORMATION
# ============================================================================

# Extraire la matrice transform√©e depuis le NOUVEL AnnData
X_trans = adata_flowsom.X
if hasattr(X_trans, 'toarray'):
    X_trans = X_trans.toarray()

# Cr√©er un DataFrame pour exploration
df_transformed = pd.DataFrame(X_trans, columns=var_names)
df_transformed['condition'] = adata_flowsom.obs['condition'].values
df_transformed['file_origin'] = adata_flowsom.obs['file_origin'].values

print("\n" + "="*70)
print("üìã APER√áU DES DONN√âES TRANSFORM√âES (premi√®res 10 lignes)")
print("="*70)
print(f"Shape du DataFrame: {df_transformed.shape}")
display(df_transformed.head(10))

# V√âRIFICATION DES NaN ET Inf POST-ARCSINH

print("\n" + "="*70)
print("üîç V√âRIFICATION DES VALEURS NaN ET Inf POST-ARCSINH")
print("="*70)

# Colonnes num√©riques uniquement
numeric_cols = df_transformed.select_dtypes(include=[np.number]).columns.tolist()

# Comptage des NaN
nan_counts = df_transformed[numeric_cols].isna().sum()
total_nan = nan_counts.sum()

# Comptage des Inf (positifs et n√©gatifs)
inf_pos_counts = (df_transformed[numeric_cols] == np.inf).sum()
inf_neg_counts = (df_transformed[numeric_cols] == -np.inf).sum()
total_inf_pos = inf_pos_counts.sum()
total_inf_neg = inf_neg_counts.sum()
total_inf = total_inf_pos + total_inf_neg

total_cells = df_transformed.shape[0] * len(numeric_cols)

print(f"\nüìà R√âSUM√â GLOBAL:")
print(f"   Total valeurs analys√©es: {total_cells:,}")
print(f"   Total NaN:    {total_nan:,} ({100*total_nan/total_cells:.4f}%)")
print(f"   Total +Inf:   {total_inf_pos:,} ({100*total_inf_pos/total_cells:.4f}%)")
print(f"   Total -Inf:   {total_inf_neg:,} ({100*total_inf_neg/total_cells:.4f}%)")

# D√©tail par colonne si probl√®mes d√©tect√©s
if total_nan > 0 or total_inf > 0:
    print(f"\n‚ö†Ô∏è D√âTAIL PAR COLONNE AVEC PROBL√àMES:")
    print("-"*60)
    for col in numeric_cols:
        n_nan = df_transformed[col].isna().sum()
        n_inf_pos = (df_transformed[col] == np.inf).sum()
        n_inf_neg = (df_transformed[col] == -np.inf).sum()
        if n_nan > 0 or n_inf_pos > 0 or n_inf_neg > 0:
            print(f"   {col:30s}: NaN={n_nan:,}, +Inf={n_inf_pos:,}, -Inf={n_inf_neg:,}")
else:
    print(f"\n‚úÖ Aucune valeur NaN ou Inf d√©tect√©e - Donn√©es propres!")

# ============================================================================
# STATISTIQUES DESCRIPTIVES POST-ARCSINH
# ============================================================================
print("\n" + "="*70)
print("üìä STATISTIQUES DESCRIPTIVES POST-ARCSINH")
print("="*70)
display(df_transformed[numeric_cols].describe())

# ============================================================================
# V√âRIFICATION DES RANGES POST-TRANSFORMATION
# ============================================================================
print("\n" + "="*70)
print("üìè V√âRIFICATION DES RANGES POST-TRANSFORMATION")
print("="*70)
print("(arcsinh avec cofactor=150 donne typiquement des valeurs entre -5 et 10)\n")

for col in used_markers[:10]:  # Premiers 10 marqueurs utilis√©s
    col_min = df_transformed[col].min()
    col_max = df_transformed[col].max()
    col_mean = df_transformed[col].mean()
    print(f"   {col:30s}: min={col_min:8.3f}, max={col_max:8.3f}, mean={col_mean:8.3f}")

In [None]:
# NETTOYAGE FINAL ET VALIDATION DE L'ANNDATA POUR FLOWSOM

# Nettoyage final: remplacer NaN/Inf par 0 dans adata_flowsom
X_final = adata_flowsom.X
if hasattr(X_final, 'toarray'):
    X_final = X_final.toarray()

# V√©rifier et nettoyer
nan_mask = ~np.isfinite(X_final)
n_nan = nan_mask.sum()
if n_nan > 0:
    print(f"‚ö†Ô∏è {n_nan} valeurs NaN/Inf d√©tect√©es et remplac√©es par 0")
    X_final = np.nan_to_num(X_final, nan=0.0, posinf=0.0, neginf=0.0)
    adata_flowsom.X = X_final
else:
    print("‚úÖ Aucune valeur probl√©matique - pas de nettoyage n√©cessaire")

print(f"\n‚úÖ AnnData 'adata_flowsom' pr√™t pour FlowSOM:")
print(f"   Shape: {adata_flowsom.shape}")
print(f"   Colonnes pour clustering: {len(cols_to_use)}")

# R√©sum√© par condition
print(f"\nüìä Distribution par condition:")
for condition in adata_flowsom.obs['condition'].unique():
    n = (adata_flowsom.obs['condition'] == condition).sum()
    print(f"   {condition}: {n:,} cellules")

## 9. Ex√©cution du Clustering FlowSOM

Configuration et lancement de l'analyse FlowSOM avec:
- Grille SOM (xdim √ó ydim)
- Nombre de m√©taclusters
- Seed pour reproductibilit√©

In [None]:
# PARAM√àTRES FLOWSOM

# Dimensions de la grille SOM
XDIM = 10
YDIM = 10

# Nombre de m√©taclusters
N_CLUSTERS = 2

# Seed pour reproductibilit√©
SEED = 42

# Auto-clustering avec silhouette score?
AUTO_CLUSTER = False
MAX_CLUSTERS_AUTO = 20

print("PARAM√àTRES FLOWSOM")
print("="*60)
print(f"   Grille SOM: {XDIM} √ó {YDIM} = {XDIM*YDIM} nodes")
print(f"   M√©taclusters: {N_CLUSTERS}")
print(f"   Seed: {SEED}")
print(f"   Auto-clustering: {'Oui' if AUTO_CLUSTER else 'Non'}")

In [None]:
# FONCTION POUR TROUVER LE NOMBRE OPTIMAL DE CLUSTERS (optionnel)
# ‚ö†Ô∏è Le silhouette score n√©cessite une matrice N√óN ‚Üí impossible avec 1M cellules
# Solution: Sous-√©chantillonner pour l'√©valuation silhouette uniquement

SAMPLE_SIZE_SILHOUETTE = 10000  # Taille de l'√©chantillon pour silhouette

def find_optimal_clusters(data, cols_to_use, seed, max_clusters=20, sample_size=10000):
    """
    Trouve le nombre optimal de m√©taclusters via silhouette score.
    Utilise un √©chantillon repr√©sentatif pour √©viter l'explosion m√©moire.
    """
    print("Recherche du nombre optimal de clusters...")
    
    np.random.seed(seed)
    
    X = data.X
    if hasattr(X, 'toarray'):
        X = X.toarray()
    
    X_full = X[:, cols_to_use]
    X_full = np.nan_to_num(X_full, nan=0.0)
    
    n_total = X_full.shape[0]
    
    # Sous-√©chantillonner pour silhouette (sinon O(N¬≤) m√©moire)
    if n_total > sample_size:
        print(f"   ‚ö†Ô∏è {n_total:,} cellules ‚Üí √©chantillon de {sample_size:,} pour silhouette")
        idx = np.random.choice(n_total, sample_size, replace=False)
        X_sample = X_full[idx]
    else:
        print(f"   Utilisation de {n_total:,} cellules")
        X_sample = X_full
    
    scores = []
    cluster_range = range(2, min(max_clusters + 1, len(X_sample) // 10))
    
    for k in cluster_range:
        try:
            clustering = AgglomerativeClustering(n_clusters=k)
            labels = clustering.fit_predict(X_sample)
            score = silhouette_score(X_sample, labels)
            scores.append((k, score))
            print(f"   k={k}: silhouette={score:.4f}")
        except Exception as e:
            print(f"   k={k}: erreur - {e}")
    
    if scores:
        best_k, best_score = max(scores, key=lambda x: x[1])
        print(f"\n‚úÖ Nombre optimal: {best_k} (silhouette={best_score:.4f})")
        return best_k
    
    return 10  # Valeur par d√©faut

# Ex√©cuter si AUTO_CLUSTER est activ√©
if AUTO_CLUSTER:
    N_CLUSTERS = find_optimal_clusters(
        combined_gated, cols_to_use, SEED, 
        MAX_CLUSTERS_AUTO, SAMPLE_SIZE_SILHOUETTE
    )
    print(f"\nüìä Utilisation de {N_CLUSTERS} m√©taclusters")

In [None]:
# =============================================================================
# EX√âCUTION FLOWSOM
# =============================================================================

import time
start_time = time.time()

# Ex√©cuter FlowSOM avec adata_flowsom (donn√©es transform√©es arcsinh)
fsom = fs.FlowSOM(
    adata_flowsom,  # ‚Üê IMPORTANT: utilise les donn√©es POST-transformation
    cols_to_use=cols_to_use,
    xdim=XDIM,
    ydim=YDIM,
    n_clusters=N_CLUSTERS,
    seed=SEED
)

elapsed = time.time() - start_time
print(f"\nTemps d'ex√©cution: {elapsed:.2f} secondes")

# R√©cup√©rer les donn√©es de clustering
cell_data = fsom.get_cell_data()
cluster_data = fsom.get_cluster_data()

# Ajouter les m√©tadonn√©es originales
cell_data.obs['condition'] = adata_flowsom.obs['condition'].values
cell_data.obs['file_origin'] = adata_flowsom.obs['file_origin'].values

print(f"\n‚úÖ FlowSOM termin√©!")
print(f"   Cellules analys√©es: {cell_data.shape[0]:,}")
print(f"   Nodes SOM: {cluster_data.shape[0]}")
print(f"   M√©taclusters: {N_CLUSTERS}")

## 10. Visualisation des R√©sultats FlowSOM

G√©n√©ration des visualisations standards:
- Heatmap d'expression par m√©tacluster
- Arbre MST (Minimum Spanning Tree)
- Star Charts
- Distribution par condition

In [None]:
# =============================================================================
# HEATMAP D'EXPRESSION PAR M√âTACLUSTER
# =============================================================================

print("üìä G√©n√©ration de la Heatmap d'expression...")

# R√©cup√©rer les donn√©es
X = cell_data.X
if hasattr(X, 'toarray'):
    X = X.toarray()

metaclustering = cell_data.obs['metaclustering'].values

# Calculer la MFI (Mean Fluorescence Intensity) par m√©tacluster
mfi_matrix = np.zeros((N_CLUSTERS, len(cols_to_use)))

for i in range(N_CLUSTERS):
    mask = metaclustering == i
    if mask.sum() > 0:
        mfi_matrix[i, :] = np.nanmean(X[mask][:, cols_to_use], axis=0)

# Normalisation Z-score pour la heatmap
mfi_normalized = (mfi_matrix - np.nanmean(mfi_matrix, axis=0)) / (np.nanstd(mfi_matrix, axis=0) + 1e-10)

# Cr√©er la heatmap
fig, ax = plt.subplots(figsize=(14, 8))

im = ax.imshow(mfi_normalized.T, aspect='auto', cmap='RdBu_r', vmin=-2, vmax=2)

# Labels
ax.set_yticks(range(len(used_markers)))
ax.set_yticklabels(used_markers, fontsize=9)
ax.set_xticks(range(N_CLUSTERS))
ax.set_xticklabels([f'MC{i}' for i in range(N_CLUSTERS)], fontsize=10)

ax.set_title('Heatmap - Expression par M√©tacluster (Z-score)', 
             fontsize=14, fontweight='bold', pad=15)
ax.set_xlabel('M√©tacluster', fontsize=12)
ax.set_ylabel('Marqueur', fontsize=12)

# Colorbar
cbar = plt.colorbar(im, ax=ax, shrink=0.8, label='Z-score')

plt.tight_layout()
plt.show()

In [None]:
# =============================================================================
# STAR CHART FLOWSOM (MST View)
# =============================================================================

print("G√©n√©ration du Star Chart MST...")

try:
    # Utiliser l'API FlowSOM pour le Star Chart
    fig_stars = fs.pl.plot_stars(
        fsom,
        background_values=fsom.get_cluster_data().obs.metaclustering,
        view="MST"
    )
    plt.suptitle('FlowSOM Star Chart (MST View)', fontsize=14, fontweight='bold')
    plt.show()
except Exception as e:
    print(f"Erreur Star Chart: {e}")
    print("   Utilisation de la visualisation alternative...")

In [None]:
# =============================================================================
# VISUALISATION GRILLE SOM (xGrid, yGrid) - Style FlowSOM R exact
# =============================================================================

print("üìä VISUALISATION GRILLE SOM (style FlowSOM R avec cercles)")
print("="*70)

# =====================================================================
# FONCTION JITTER CIRCULAIRE (style FlowSOM R)
# =====================================================================
def circular_jitter_viz(n_points, cluster_ids, node_sizes, max_radius=0.45, min_radius=0.1):
    """
    G√©n√®re un jitter circulaire style FlowSOM R.
    Le rayon des cercles d√©pend du nombre de cellules dans le node.
    """
    theta = np.random.uniform(0, 2 * np.pi, n_points)
    u = np.random.uniform(0, 1, n_points)
    
    max_size_val = node_sizes.max()
    
    radii = np.zeros(n_points, dtype=np.float32)
    for i in range(n_points):
        node_id = int(cluster_ids[i])
        node_size = node_sizes[node_id]
        size_ratio = np.sqrt(node_size / max_size_val)
        node_radius = min_radius + (max_radius - min_radius) * size_ratio
        radii[i] = node_radius
    
    r = np.sqrt(u) * radii
    
    jitter_x = r * np.cos(theta)
    jitter_y = r * np.sin(theta)
    
    return jitter_x.astype(np.float32), jitter_y.astype(np.float32)

try:
    # R√©cup√©rer les coordonn√©es de grille
    grid_coords = cluster_data.obsm.get('grid', None)
    
    if grid_coords is not None:
        # R√©cup√©rer les infos de clustering
        clustering = cell_data.obs['clustering'].values
        metaclustering_nodes = cluster_data.obs['metaclustering'].values
        conditions = cell_data.obs['condition'].values
        
        # Calculer les coordonn√©es de grille pour chaque cellule
        xGrid_base = np.array([grid_coords[int(c), 0] for c in clustering], dtype=np.float32)
        yGrid_base = np.array([grid_coords[int(c), 1] for c in clustering], dtype=np.float32)
        
        # D√©caler pour commencer √† 1
        xGrid_shifted = xGrid_base - xGrid_base.min() + 1
        yGrid_shifted = yGrid_base - yGrid_base.min() + 1
        
        # M√©tacluster pour chaque cellule
        metaclustering_cells = np.array([metaclustering_nodes[int(c)] for c in clustering])
        
        # Calculer la taille de chaque node
        n_nodes = len(cluster_data)
        node_sizes = np.zeros(n_nodes, dtype=np.float32)
        for i in range(n_nodes):
            node_sizes[i] = (clustering == i).sum()
        
        # JITTER CIRCULAIRE style FlowSOM R
        MAX_NODE_SIZE = 0.45
        MIN_NODE_SIZE = 0.1
        np.random.seed(SEED)
        jitter_x, jitter_y = circular_jitter_viz(len(clustering), clustering, node_sizes, 
                                                  max_radius=MAX_NODE_SIZE, 
                                                  min_radius=MIN_NODE_SIZE)
        
        print(f"üéØ Jitter circulaire appliqu√© (rayon proportionnel √† la taille du node)")
        print(f"   Rayon min: {MIN_NODE_SIZE}, Rayon max: {MAX_NODE_SIZE}")
        
        # Cr√©er la figure avec 2 sous-plots
        fig, axes = plt.subplots(1, 2, figsize=(16, 7))
        
        # =====================================================================
        # Plot 1: Grille SOM color√©e par M√©tacluster
        # =====================================================================
        ax1 = axes[0]
        
        n_meta = len(np.unique(metaclustering_nodes))
        cmap = plt.cm.tab20 if n_meta <= 20 else plt.cm.turbo
        
        scatter1 = ax1.scatter(
            xGrid_shifted + jitter_x, 
            yGrid_shifted + jitter_y,
            c=metaclustering_cells,
            cmap=cmap,
            s=5,
            alpha=0.5,
            edgecolors='none'
        )
        
        # Ajouter les labels des m√©taclusters au centre de chaque node
        for node_id in range(n_nodes):
            if node_sizes[node_id] > 0:
                x_pos = grid_coords[node_id, 0] - xGrid_base.min() + 1
                y_pos = grid_coords[node_id, 1] - yGrid_base.min() + 1
                meta_id = metaclustering_nodes[node_id]
                ax1.annotate(
                    str(int(meta_id + 1)),
                    (x_pos, y_pos),
                    ha='center', va='center',
                    fontsize=8, fontweight='bold',
                    color='white',
                    bbox=dict(boxstyle='circle,pad=0.2', facecolor=cmap(meta_id / max(n_meta - 1, 1)), edgecolor='white', alpha=0.9)
                )
        
        ax1.set_xlabel('xGrid', fontsize=12, fontweight='bold')
        ax1.set_ylabel('yGrid', fontsize=12, fontweight='bold')
        ax1.set_title(f'Grille FlowSOM - {XDIM}x{YDIM} nodes\nColor√© par M√©tacluster (style FlowSOM R)', 
                     fontsize=12, fontweight='bold')
        ax1.set_xlim(0.5, XDIM + 1.5)
        ax1.set_ylim(0.5, YDIM + 1.5)
        ax1.set_aspect('equal')
        ax1.grid(True, alpha=0.3, linestyle='--')
        
        cbar1 = plt.colorbar(scatter1, ax=ax1, label='M√©tacluster')
        
        # =====================================================================
        # Plot 2: Grille SOM color√©e par Condition
        # =====================================================================
        ax2 = axes[1]
        
        condition_num = np.array([0 if c == 'Sain' else 1 for c in conditions])
        
        from matplotlib.colors import ListedColormap
        cmap_cond = ListedColormap(['#a6e3a1', '#f38ba8'])
        
        scatter2 = ax2.scatter(
            xGrid_shifted + jitter_x, 
            yGrid_shifted + jitter_y,
            c=condition_num,
            cmap=cmap_cond,
            s=5,
            alpha=0.5,
            edgecolors='none'
        )
        
        ax2.set_xlabel('xGrid', fontsize=12, fontweight='bold')
        ax2.set_ylabel('yGrid', fontsize=12, fontweight='bold')
        ax2.set_title(f'Grille FlowSOM - {XDIM}x{YDIM} nodes\nColor√© par Condition (style FlowSOM R)', 
                     fontsize=12, fontweight='bold')
        ax2.set_xlim(0.5, XDIM + 1.5)
        ax2.set_ylim(0.5, YDIM + 1.5)
        ax2.set_aspect('equal')
        ax2.grid(True, alpha=0.3, linestyle='--')
        
        from matplotlib.patches import Patch
        legend_elements = [
            Patch(facecolor='#a6e3a1', edgecolor='white', label='Sain (NBM)'),
            Patch(facecolor='#f38ba8', edgecolor='white', label='Pathologique')
        ]
        ax2.legend(handles=legend_elements, loc='upper right')
        
        plt.tight_layout()
        plt.show()
        
        # Afficher les statistiques
        print(f"\nüìã STATISTIQUES DE LA GRILLE SOM:")
        print(f"   Dimensions: {XDIM} x {YDIM} = {XDIM * YDIM} nodes")
        print(f"   Nodes utilis√©s: {(node_sizes > 0).sum()} / {n_nodes}")
        print(f"   xGrid range: [{xGrid_shifted.min():.1f}, {xGrid_shifted.max():.1f}]")
        print(f"   yGrid range: [{yGrid_shifted.min():.1f}, {yGrid_shifted.max():.1f}]")
        
        # Afficher la taille des nodes
        print(f"\nüìä Distribution des tailles de nodes:")
        print(f"   Min: {node_sizes.min():.0f} cellules")
        print(f"   Max: {node_sizes.max():.0f} cellules")
        print(f"   Moyenne: {node_sizes.mean():.0f} cellules")
        
    else:
        print("‚ö†Ô∏è Coordonn√©es de grille non disponibles dans cluster_data.obsm['grid']")
        
except Exception as e:
    import traceback
    print(f"‚ö†Ô∏è Erreur visualisation grille: {e}")
    traceback.print_exc()

In [None]:
# =============================================================================
# ARBRE MST EN MATPLOTLIB (alternative)
# =============================================================================

print("G√©n√©ration de l'arbre MST...")

try:
    # R√©cup√©rer les coordonn√©es du layout MST
    layout = cluster_data.obsm.get('layout', None)
    
    if layout is not None:
        # Clustering et metaclustering
        clustering = cell_data.obs['clustering'].values
        metaclustering_nodes = cluster_data.obs['metaclustering'].values
        
        # Calculer la taille de chaque node
        n_nodes = len(cluster_data)
        node_sizes = np.zeros(n_nodes)
        for i in range(n_nodes):
            node_sizes[i] = (clustering == i).sum()
        
        # Normaliser les tailles
        max_size = node_sizes.max() if node_sizes.max() > 0 else 1
        sizes = 100 + (node_sizes / max_size) * 800
        
        # Couleurs par m√©tacluster
        n_meta = len(np.unique(metaclustering_nodes))
        cmap = plt.cm.tab20 if n_meta <= 20 else plt.cm.turbo
        colors = [cmap(int(m) / max(n_meta - 1, 1)) for m in metaclustering_nodes]
        
        fig, ax = plt.subplots(figsize=(12, 10))
        
        # Scatter des nodes
        scatter = ax.scatter(layout[:, 0], layout[:, 1], 
                           s=sizes, c=colors, edgecolors='white', 
                           linewidths=1.5, alpha=0.9, zorder=2)
        
        # Annoter avec les num√©ros
        for i in range(n_nodes):
            ax.annotate(str(int(metaclustering_nodes[i])), 
                       (layout[i, 0], layout[i, 1]),
                       ha='center', va='center', fontsize=8, 
                       color='white', fontweight='bold')
        
        ax.set_xlabel('xNodes', fontsize=12, fontweight='bold')
        ax.set_ylabel('yNodes', fontsize=12, fontweight='bold')
        ax.set_title(f'Arbre MST - {n_nodes} nodes, {n_meta} m√©taclusters', 
                    fontsize=14, fontweight='bold', pad=15)
        ax.grid(True, alpha=0.15, linestyle='--')
        
        # L√©gende
        from matplotlib.patches import Patch
        if n_meta <= 15:
            legend_elements = [Patch(facecolor=cmap(i/max(n_meta-1, 1)), 
                                    label=f'MC {i}') for i in range(n_meta)]
            ax.legend(handles=legend_elements, loc='center left', 
                     bbox_to_anchor=(1.02, 0.5), fontsize=9)
        
        plt.tight_layout()
        plt.show()
    else:
        print("‚ö†Ô∏è Layout MST non disponible")
        
except Exception as e:
    print(f"‚ö†Ô∏è Erreur MST: {e}")

In [None]:
# =============================================================================
# DISTRIBUTION PAR CONDITION (Sain vs Pathologique)
# =============================================================================

print("Distribution des m√©taclusters par condition...")

metaclustering = cell_data.obs['metaclustering'].values
conditions = cell_data.obs['condition'].values

healthy_pcts = []
patho_pcts = []

for i in range(N_CLUSTERS):
    mask_cluster = metaclustering == i
    
    # Pourcentage dans Sain
    mask_healthy = (conditions == 'Sain') & mask_cluster
    total_healthy = (conditions == 'Sain').sum()
    healthy_pcts.append((mask_healthy.sum() / total_healthy * 100) if total_healthy > 0 else 0)
    
    # Pourcentage dans Pathologique
    mask_patho = (conditions == 'Pathologique') & mask_cluster
    total_patho = (conditions == 'Pathologique').sum()
    patho_pcts.append((mask_patho.sum() / total_patho * 100) if total_patho > 0 else 0)

# Cr√©er le graphique
fig, ax = plt.subplots(figsize=(14, 6))

x = np.arange(N_CLUSTERS)
width = 0.35

bars1 = ax.bar(x - width/2, healthy_pcts, width, label='Sain (NBM)', 
               color='#a6e3a1', edgecolor='white', linewidth=0.5)
bars2 = ax.bar(x + width/2, patho_pcts, width, label='Pathologique', 
               color='#f38ba8', edgecolor='white', linewidth=0.5)

ax.set_xlabel('M√©tacluster', fontsize=12)
ax.set_ylabel('Pourcentage (%)', fontsize=12)
ax.set_title('Distribution des M√©taclusters par Condition', 
             fontsize=14, fontweight='bold', pad=15)
ax.set_xticks(x)
ax.set_xticklabels([f'MC{i}' for i in range(N_CLUSTERS)], fontsize=10)
ax.legend()
ax.grid(axis='y', alpha=0.3, linestyle='--')

# Ajouter les valeurs sur les barres
for bar in bars1 + bars2:
    height = bar.get_height()
    if height > 1:  # N'afficher que si > 1%
        ax.annotate(f'{height:.1f}%',
                   xy=(bar.get_x() + bar.get_width() / 2, height),
                   xytext=(0, 3), textcoords="offset points",
                   ha='center', va='bottom', fontsize=8)

plt.tight_layout()
plt.show()

# Tableau r√©capitulatif
print("\nTableau r√©capitulatif:")
print("-" * 50)
print(f"{'MC':>4} | {'Sain (%)':>10} | {'Patho (%)':>10} | {'Diff':>8}")
print("-" * 50)
for i in range(N_CLUSTERS):
    diff = patho_pcts[i] - healthy_pcts[i]
    print(f"{i:>4} | {healthy_pcts[i]:>10.2f} | {patho_pcts[i]:>10.2f} | {diff:>+8.2f}")
print("-" * 50)

## 11. Analyse D√©taill√©e des M√©taclusters

Statistiques approfondies par m√©tacluster:
- Nombre de cellules
- MFI par marqueur
- Ph√©notype caract√©ristique

In [None]:
# =============================================================================
# STATISTIQUES PAR M√âTACLUSTER
# =============================================================================

print("üìä STATISTIQUES PAR M√âTACLUSTER")
print("="*80)

# Cr√©er un DataFrame de statistiques
stats_data = []

for i in range(N_CLUSTERS):
    mask = metaclustering == i
    n_cells = mask.sum()
    pct_total = n_cells / len(metaclustering) * 100
    
    # Calculer MFI pour chaque marqueur
    mfi = np.nanmean(X[mask][:, cols_to_use], axis=0) if n_cells > 0 else np.zeros(len(cols_to_use))
    
    # Top 3 marqueurs les plus exprim√©s
    top_indices = np.argsort(mfi)[::-1][:3]
    top_markers = [used_markers[idx] for idx in top_indices]
    
    stats_data.append({
        'Metacluster': i,
        'N_Cells': n_cells,
        'Pct_Total': pct_total,
        'Top_Markers': ', '.join(top_markers)
    })

df_stats = pd.DataFrame(stats_data)
print(df_stats.to_string(index=False))

# Graphique camembert
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Pie chart des tailles
ax = axes[0]
sizes = [s['N_Cells'] for s in stats_data]
labels = [f"MC{s['Metacluster']}" for s in stats_data]
colors = plt.cm.tab20(np.linspace(0, 1, N_CLUSTERS))

wedges, texts, autotexts = ax.pie(sizes, labels=labels, colors=colors, 
                                   autopct='%1.1f%%', pctdistance=0.8)
ax.set_title('Distribution des Cellules par M√©tacluster', fontsize=12, fontweight='bold')

# Bar chart des tailles
ax = axes[1]
ax.barh(range(N_CLUSTERS), sizes, color=colors, edgecolor='white')
ax.set_yticks(range(N_CLUSTERS))
ax.set_yticklabels(labels)
ax.set_xlabel('Nombre de cellules')
ax.set_title('Taille des M√©taclusters', fontsize=12, fontweight='bold')
ax.grid(axis='x', alpha=0.3, linestyle='--')

plt.tight_layout()
plt.show()

In [None]:
# =============================================================================
# PROFIL D'EXPRESSION D√âTAILL√â PAR M√âTACLUSTER
# =============================================================================

print("\nüìà PROFIL D'EXPRESSION MOYEN PAR M√âTACLUSTER")
print("="*80)

# Cr√©er un DataFrame avec MFI par marqueur et m√©tacluster
mfi_matrix = np.zeros((N_CLUSTERS, len(used_markers)))

for i in range(N_CLUSTERS):
    mask = metaclustering == i
    if mask.sum() > 0:
        mfi_matrix[i] = np.nanmean(X[mask][:, cols_to_use], axis=0)

df_mfi = pd.DataFrame(mfi_matrix, 
                       columns=used_markers,
                       index=[f'MC{i}' for i in range(N_CLUSTERS)])

# Afficher le tableau format√©
print(df_mfi.round(2).to_string())

# Visualisation Radar/Spider plot pour les clusters principaux
from math import pi

# S√©lectionner les 5 plus gros clusters
top_clusters = df_stats.nlargest(5, 'N_Cells')['Metacluster'].values

fig, ax = plt.subplots(figsize=(10, 10), subplot_kw=dict(polar=True))

angles = [n / float(len(used_markers)) * 2 * pi for n in range(len(used_markers))]
angles += angles[:1]  # Fermer le polygone

colors = plt.cm.Set2(np.linspace(0, 1, len(top_clusters)))

for idx, cluster_id in enumerate(top_clusters):
    values = mfi_matrix[cluster_id].tolist()
    # Normaliser entre 0 et 1 pour la visualisation
    values_norm = (values - np.min(values)) / (np.max(values) - np.min(values) + 1e-10)
    values_norm = values_norm.tolist()
    values_norm += values_norm[:1]
    
    ax.plot(angles, values_norm, 'o-', linewidth=2, label=f'MC{cluster_id}', color=colors[idx])
    ax.fill(angles, values_norm, alpha=0.1, color=colors[idx])

ax.set_xticks(angles[:-1])
ax.set_xticklabels(used_markers, size=9)
ax.set_title('Profil d\'Expression Normalis√© des 5 Plus Gros M√©taclusters', 
             fontsize=12, fontweight='bold', pad=20)
ax.legend(loc='upper right', bbox_to_anchor=(1.3, 1.0))

plt.tight_layout()
plt.show()

## 12. Export des R√©sultats

Sauvegarde des r√©sultats d'analyse:
- **CSV**: Tableau avec m√©taclusters assign√©s √† chaque cellule
- **FCS**: Fichier FCS avec colonne m√©tacluster ajout√©e

In [None]:
# =============================================================================
# EXPORT CSV/FCS AVEC COORDONN√âES SOM (style FlowSOM R EXACT)
# =============================================================================

import os
from datetime import datetime

# Cr√©er le dossier de sortie
OUTPUT_DIR = "./output"
os.makedirs(OUTPUT_DIR, exist_ok=True)

print("üìä PR√âPARATION DES DONN√âES POUR EXPORT (style FlowSOM R EXACT)")
print("="*70)

# =====================================================================
# PARAM√àTRES DE JITTER - STYLE FLOWSOM R EXACT
# Dans FlowSOM R, le jitter est CIRCULAIRE (pas carr√©!)
# La taille du cercle d√©pend du nombre de cellules dans le cluster
# Formule R: rnorm() * scale_factor * sqrt(node_size/max_size)
# =====================================================================
np.random.seed(SEED)  # Pour reproductibilit√©

# Param√®tres FlowSOM R
MAX_NODE_SIZE = 0.45  # Rayon maximum du cercle (quand le node est le plus grand)
MIN_NODE_SIZE = 0.1   # Rayon minimum du cercle (pour √©viter que les petits nodes disparaissent)

# R√©cup√©rer les coordonn√©es de grille et MST depuis cluster_data
grid_coords = cluster_data.obsm.get('grid', None)
layout_coords = cluster_data.obsm.get('layout', None)

# R√©cup√©rer le clustering pour mapper les coordonn√©es sur chaque cellule
clustering = cell_data.obs['clustering'].values
n_cells = len(clustering)
n_nodes = len(cluster_data)

# Calculer la taille de chaque node (nombre de cellules)
node_sizes = np.zeros(n_nodes, dtype=np.float32)
for i in range(n_nodes):
    node_sizes[i] = (clustering == i).sum()

max_size = node_sizes.max()
print(f"\nüìä Taille des nodes:")
print(f"   Min: {node_sizes.min():.0f} cellules")
print(f"   Max: {max_size:.0f} cellules")
print(f"   Total: {n_cells} cellules")

# Cr√©er un DataFrame avec toutes les donn√©es
df_export = pd.DataFrame(X, columns=var_names)

# MetaCluster avec +1 pour Kaluza (√©viter le 0, commencer √† 1)
df_export['FlowSOM_metacluster'] = metaclustering + 1

# FlowSOM cluster (nodes) avec +1
df_export['FlowSOM_cluster'] = clustering + 1

# Ajouter les m√©tadonn√©es si disponibles
if 'condition' in cell_data.obs.columns:
    df_export['Condition'] = cell_data.obs['condition'].values
    df_export['Condition_Num'] = np.where(df_export['Condition'] == 'Sain', 1, 2)
if 'file_origin' in cell_data.obs.columns:
    df_export['File_Origin'] = cell_data.obs['file_origin'].values

# =====================================================================
# FONCTION JITTER CIRCULAIRE (style FlowSOM R exact)
# G√©n√®re des points distribu√©s uniform√©ment dans un disque
# Le rayon d√©pend de la taille du cluster
# =====================================================================
def circular_jitter(n_points, cluster_ids, node_sizes, max_radius=0.45, min_radius=0.1):
    """
    G√©n√®re un jitter circulaire style FlowSOM R.
    
    Dans FlowSOM R, les cellules sont distribu√©es dans des cercles
    dont le rayon d√©pend du nombre de cellules dans le node.
    Plus un node a de cellules, plus le cercle est grand.
    
    M√©thode: 
    - Angle theta uniforme [0, 2*pi]
    - Rayon r = sqrt(u) * max_r (pour distribution uniforme dans le disque)
    - Le max_r d√©pend de la taille du node
    """
    # Angle uniforme autour du cercle
    theta = np.random.uniform(0, 2 * np.pi, n_points)
    
    # Rayon - distribution uniforme dans le disque (sqrt pour uniformit√©)
    u = np.random.uniform(0, 1, n_points)
    
    # Calculer le rayon pour chaque cellule selon la taille de son cluster
    # Dans FlowSOM R, le rayon est proportionnel √† sqrt(node_size/max_size)
    max_size_val = node_sizes.max()
    
    # Rayon pour chaque cellule
    radii = np.zeros(n_points, dtype=np.float32)
    for i in range(n_points):
        node_id = int(cluster_ids[i])
        node_size = node_sizes[node_id]
        # Rayon proportionnel √† sqrt(taille relative)
        size_ratio = np.sqrt(node_size / max_size_val)
        # Interpolation entre min et max radius
        node_radius = min_radius + (max_radius - min_radius) * size_ratio
        radii[i] = node_radius
    
    # Rayon final pour distribution uniforme dans le disque
    r = np.sqrt(u) * radii
    
    # Convertir en coordonn√©es cart√©siennes
    jitter_x = r * np.cos(theta)
    jitter_y = r * np.sin(theta)
    
    return jitter_x.astype(np.float32), jitter_y.astype(np.float32)

# =====================================================================
# COORDONN√âES GRILLE SOM (xGrid, yGrid) - Style FlowSOM R
# =====================================================================
print(f"\nüéØ Application du jitter CIRCULAIRE style FlowSOM R")
print(f"   Rayon min: {MIN_NODE_SIZE}, Rayon max: {MAX_NODE_SIZE}")

if grid_coords is not None:
    # G√©n√©rer jitter CIRCULAIRE d√©pendant de la taille du node
    jitter_x, jitter_y = circular_jitter(n_cells, clustering, node_sizes, 
                                          max_radius=MAX_NODE_SIZE, 
                                          min_radius=MIN_NODE_SIZE)
    
    # Mapper les coordonn√©es de grille sur chaque cellule
    xGrid_base = np.array([grid_coords[int(c), 0] for c in clustering], dtype=np.float32)
    yGrid_base = np.array([grid_coords[int(c), 1] for c in clustering], dtype=np.float32)
    
    # Appliquer le jitter circulaire
    xGrid_jittered = xGrid_base + jitter_x
    yGrid_jittered = yGrid_base + jitter_y
    
    # D√©caler pour que les axes commencent √† 1 (X ET Y)
    xGrid = xGrid_jittered - xGrid_jittered.min() + 1.0
    yGrid = yGrid_jittered - yGrid_jittered.min() + 1.0
    
    df_export['xGrid'] = xGrid.astype(np.float32)
    df_export['yGrid'] = yGrid.astype(np.float32)
    
    print(f"‚úÖ xGrid: [{xGrid.min():.3f} - {xGrid.max():.3f}]")
    print(f"‚úÖ yGrid: [{yGrid.min():.3f} - {yGrid.max():.3f}]")

# =====================================================================
# COORDONN√âES MST (xNodes, yNodes) - Style FlowSOM R
# =====================================================================
if layout_coords is not None:
    # Mapper les coordonn√©es MST sur chaque cellule
    xNodes_base = np.array([layout_coords[int(c), 0] for c in clustering], dtype=np.float32)
    yNodes_base = np.array([layout_coords[int(c), 1] for c in clustering], dtype=np.float32)
    
    # Calculer l'√©chelle pour le jitter MST (proportionnel √† l'espacement moyen)
    x_range = xNodes_base.max() - xNodes_base.min()
    y_range = yNodes_base.max() - yNodes_base.min()
    mst_scale = min(x_range, y_range) / (XDIM * 2)  # Proportionnel √† la grille
    
    # Jitter circulaire pour MST aussi
    mst_jitter_x, mst_jitter_y = circular_jitter(
        n_cells, clustering, node_sizes,
        max_radius=mst_scale * 0.8,  # Un peu moins que Grid car MST est plus espac√©
        min_radius=mst_scale * 0.2
    )
    
    # Appliquer le jitter
    xNodes_jittered = xNodes_base + mst_jitter_x
    yNodes_jittered = yNodes_base + mst_jitter_y
    
    # D√©caler pour que les axes commencent √† 1 (X ET Y)
    xNodes = xNodes_jittered - xNodes_jittered.min() + 1.0
    yNodes = yNodes_jittered - yNodes_jittered.min() + 1.0
    
    df_export['xNodes'] = xNodes.astype(np.float32)
    df_export['yNodes'] = yNodes.astype(np.float32)
    
    print(f"‚úÖ xNodes: [{xNodes.min():.3f} - {xNodes.max():.3f}]")
    print(f"‚úÖ yNodes: [{yNodes.min():.3f} - {yNodes.max():.3f}]")

# =====================================================================
# TAILLE DES NODES (pour chaque cellule)
# =====================================================================
size_col = np.array([node_sizes[int(c)] for c in clustering], dtype=np.float32)
df_export['size'] = size_col
print(f"‚úÖ size: [{size_col.min():.0f} - {size_col.max():.0f}]")

# =====================================================================
# EXPORT CSV
# =====================================================================
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
csv_path = os.path.join(OUTPUT_DIR, f"flowsom_results_{timestamp}.csv")
df_export.to_csv(csv_path, index=False)

print(f"\n‚úÖ CSV export√©: {csv_path}")
print(f"   Shape: {df_export.shape}")

# =====================================================================
# EXPORT FCS COMPATIBLE KALUZA
# =====================================================================
print("\n" + "="*70)
print("üìÑ EXPORT FCS COMPATIBLE KALUZA")
print("="*70)

def export_to_fcs_kaluza(df, output_path):
    """Export FCS compatible Kaluza avec toutes les coordonn√©es positives."""
    try:
        import fcswrite
        
        numeric_df = df.select_dtypes(include=[np.number])
        data = numeric_df.values.astype(np.float32)
        channels = list(numeric_df.columns)
        
        # Nettoyer NaN/Inf
        data = np.nan_to_num(data, nan=0.0, posinf=1e6, neginf=0.0)
        
        print(f"   {data.shape[0]:,} events, {data.shape[1]} canaux")
        
        fcswrite.write_fcs(output_path, channels, data, compat_chn_names=True)
        return True
        
    except ImportError:
        print("   ‚ö†Ô∏è fcswrite non disponible (pip install fcswrite)")
        return False
    except Exception as e:
        print(f"   ‚ö†Ô∏è Erreur: {e}")
        return False

# Pr√©parer le DataFrame FCS
df_fcs = df_export.select_dtypes(include=[np.number]).copy()

# V√©rifier les ranges
print(f"\nüìã Colonnes export√©es vers FCS:")
for col in ['FlowSOM_metacluster', 'FlowSOM_cluster', 'xGrid', 'yGrid', 'xNodes', 'yNodes', 'size', 'Condition_Num']:
    if col in df_fcs.columns:
        print(f"   ‚úÖ {col:25s}: [{df_fcs[col].min():10.2f}, {df_fcs[col].max():10.2f}]")

# Export
fcs_path = os.path.join(OUTPUT_DIR, f"flowsom_results_{timestamp}.fcs")
if export_to_fcs_kaluza(df_fcs, fcs_path):
    print(f"\n‚úÖ FCS export√©: {fcs_path}")
    print(f"\nüí° Dans Kaluza/FlowJo:")
    print(f"   - xGrid vs yGrid ‚Üí visualisation grille SOM (cercles style FlowSOM R)")
    print(f"   - xNodes vs yNodes ‚Üí visualisation arbre MST")
    print(f"   - La taille des cercles = proportionnelle au nombre de cellules")
    print(f"   - Colorez par FlowSOM_metacluster")

In [None]:
# =============================================================================
# EXPORT DU RAPPORT DE STATISTIQUES
# =============================================================================

# Sauvegarder le rapport de statistiques
stats_path = os.path.join(OUTPUT_DIR, f"flowsom_statistics_{timestamp}.csv")
df_stats.to_csv(stats_path, index=False)
print(f"‚úÖ Statistiques export√©es: {stats_path}")

# Sauvegarder la matrice MFI
mfi_path = os.path.join(OUTPUT_DIR, f"flowsom_mfi_matrix_{timestamp}.csv")
df_mfi.to_csv(mfi_path)
print(f"‚úÖ Matrice MFI export√©e: {mfi_path}")

# R√©sum√© final
print("\n" + "="*80)
print("üìã R√âSUM√â DE L'ANALYSE FLOWSOM")
print("="*80)
print(f"   Fichiers analys√©s: {len(all_adatas)}")
print(f"   Cellules totales: {len(cell_data)}")
print(f"   Marqueurs utilis√©s: {len(used_markers)}")
print(f"   Nombre de m√©taclusters: {N_CLUSTERS}")
print(f"   Transformation: {TRANSFORM_TYPE}")
print(f"   Cofacteur: {COFACTOR}")
print("="*80)
print("‚úÖ Analyse FlowSOM termin√©e avec succ√®s!")