# Générer des sites synthétiques

Ce notebook illustre comment produire des sites synthétiques à partir des données déjà compilées et des utilitaires de `robust_evaluation_tools.synthectic_sites_generations`.


In [None]:
# Imports et configuration des chemins
import sys
from pathlib import Path

PROJECT_ROOT = Path('..').resolve()
if str(PROJECT_ROOT) not in sys.path:
    sys.path.append(str(PROJECT_ROOT))

# Décommente si tu dois installer les dépendances manquantes
# !pip install joblib scikit-learn

import pandas as pd
from robust_evaluation_tools.synthectic_sites_generations import generate_sites

try:
    import joblib  # noqa: F401
    import sklearn  # noqa: F401
except ImportError as exc:
    raise ImportError("Installe joblib et scikit-learn (pip install joblib scikit-learn)") from exc


In [None]:
# Paramètres principaux
data_path = Path("DONNES/processed/compilation/classic/all/compilation.all_metrics.csv.gz")
output_dir = Path("DONNES/processed/synthetic_sites_demo")

sample_sizes = [50, 100]
disease_ratios = [0.0, 0.5]
num_tests = 3
synthetic_version = "v1"  # v1: biais -> échantillon | v2: échantillon -> biais
disease_filter = "ALL"  # 'ALL', 'ASTMIX' ou une maladie précise (ex: 'AD')
fixed_bias = False
n_jobs = 4  # -1 pour utiliser tous les coeurs disponibles


In [None]:
# Aperçu rapide des données utilisées
preview_df = pd.read_csv(data_path).head()
preview_df


In [None]:
# Génération des sites synthétiques
output_dir.mkdir(parents=True, exist_ok=True)

generate_sites(
    sample_sizes=sample_sizes,
    disease_ratios=disease_ratios,
    num_tests=num_tests,
    directory=str(output_dir),
    data_path=str(data_path),
    SYNTHETIC_SITES_VERSION=synthetic_version,
    disease=disease_filter,
    fixed_biais=fixed_bias,
    n_jobs=n_jobs,
)

print(f"Sites synthétiques écrits dans: {output_dir.resolve()}")


In [None]:
# Résumé des fichiers produits
from collections import Counter

generated_files = sorted(output_dir.rglob("*.csv"))
print(f"{len(generated_files)} fichiers csv générés")
counts = Counter(f.parent.relative_to(output_dir) for f in generated_files)
for subdir, count in counts.items():
    print(f"{subdir}: {count} fichiers")

if generated_files:
    display(pd.read_csv(generated_files[0]).head())
