#  1. introduction

ce notebook a pour but d'explorer un jeu de donn√©es de sant√©, de g√©n√©rer des donn√©es synth√©tiques avec les mod√®les ctgan et tvae, et d‚Äô√©valuer leur qualit√©.

l'objectif est aussi de tester la confidentialit√© des donn√©es synth√©tiques √† l‚Äôaide de m√©triques avanc√©es.


# 2. chargement des donn√©es

on commence par charger le fichier csv contenant les donn√©es r√©elles, puis on affiche les premi√®res lignes pour voir √† quoi ressemble le jeu de donn√©es.

on v√©rifiera ensuite les types de colonnes, les valeurs manquantes et les statistiques de base.

In [1]:
import os
import pandas as pd
base_dir = r"C:\Users\VictorAudoux\Desktop\synthetic_health_data\data"
chemin_fichier = os.path.join(base_dir, "effectifs.csv")
df = pd.read_csv(chemin_fichier, sep=";")


In [2]:
# 3. aper√ßu des donn√©es

# dimensions et types
print(f"dimensions du jeu de donn√©es : {df.shape}")
print("\ntypes de variables :")
print(df.dtypes)

# valeurs manquantes
print("\nvaleurs manquantes par colonne :")
print(df.isnull().sum())

# aper√ßu statistique des variables num√©riques
print("\nstatistiques descriptives :")
print(df.describe())


dimensions du jeu de donn√©es : (4636800, 16)

types de variables :
annee                   int64
patho_niv1             object
patho_niv2             object
patho_niv3             object
top                    object
cla_age_5              object
sexe                    int64
region                  int64
dept                   object
Ntop                  float64
Npop                    int64
prev                  float64
Niveau prioritaire     object
libelle_classe_age     object
libelle_sexe           object
tri                   float64
dtype: object

valeurs manquantes par colonne :
annee                       0
patho_niv1                  0
patho_niv2             483840
patho_niv3            1048320
top                         0
cla_age_5                   0
sexe                        0
region                      0
dept                        0
Ntop                  1238024
Npop                        0
prev                  1238024
Niveau prioritaire      60480
libelle_classe

### 3. description et s√©lection des variables

ce jeu de donn√©es contient des informations agr√©g√©es sur des groupes de population selon diff√©rents crit√®res : ann√©e, √¢ge, sexe, r√©gion, pathologie, etc.

parmi les variables pr√©sentes :

- `annee`, `region`, `dept` : localisation et p√©riode  
- `sexe`, `cla_age_5` : caract√©ristiques d√©mographiques  
- `patho_niv1` : cat√©gorie principale de pathologie  
- `Npop` : nombre total de personnes dans le groupe  
- `Ntop` : nombre de personnes atteintes par la pathologie  
- `prev` : pr√©valence = proportion de personnes malades dans le groupe (`Ntop / Npop * 100`)

certaines colonnes comme `patho_niv2`, `patho_niv3` ou `libelle_*` non utilis√©es trop de valeurs manquantes

#### variables retenues

on garde les variables principales suivantes pour la suite :

- `annee`, `patho_niv1`, `cla_age_5`, `sexe`, `region`, `dept`, `prev`

les colonnes `Npop` et `Ntop` sont exclues car `prev` contient d√©j√† l‚Äôinformation qu‚Äôelles d√©crivent sous forme de pourcentage.

on supprimera aussi les lignes o√π `prev` est manquant.


In [3]:

colonnes_utiles = ["annee", "patho_niv1", "cla_age_5", "sexe", "region", "dept", "prev"]

df_ = df[colonnes_utiles].copy()
df = df[df["prev"].notna()]

print(f"{len(df)} lignes restantes apr√®s filtrage.")
df.head()


3398776 lignes restantes apr√®s filtrage.


Unnamed: 0,annee,patho_niv1,patho_niv2,patho_niv3,top,cla_age_5,sexe,region,dept,Ntop,Npop,prev,Niveau prioritaire,libelle_classe_age,libelle_sexe,tri
0,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,28,999,6130.0,87700,6.986,123,de 20 √† 24 ans,hommes,3.0
1,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,32,62,3200.0,41610,7.686,123,de 20 √† 24 ans,hommes,3.0
2,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,32,80,1100.0,15770,6.974,123,de 20 √† 24 ans,hommes,3.0
3,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,44,51,1020.0,16260,6.285,123,de 20 √† 24 ans,hommes,3.0
4,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,44,57,1570.0,26040,6.029,123,de 20 √† 24 ans,hommes,3.0


In [4]:
df.dtypes


annee                   int64
patho_niv1             object
patho_niv2             object
patho_niv3             object
top                    object
cla_age_5              object
sexe                    int64
region                  int64
dept                   object
Ntop                  float64
Npop                    int64
prev                  float64
Niveau prioritaire     object
libelle_classe_age     object
libelle_sexe           object
tri                   float64
dtype: object

In [5]:
# r√©partitions simples
for col in ["annee", "sexe", "patho_niv1", "cla_age_5"]:
    print(f"\nDistribution de {col} :")
    print(df[col].value_counts(normalize=True).head())



Distribution de annee :
annee
2022    0.127311
2021    0.126937
2020    0.126215
2019    0.124655
2018    0.124301
Name: proportion, dtype: float64

Distribution de sexe :
sexe
9    0.361003
2    0.320935
1    0.318062
Name: proportion, dtype: float64

Distribution de patho_niv1 :
patho_niv1
Maladies cardioneurovasculaires                      0.194337
Cancers                                              0.164261
Maladies inflammatoires ou rares ou infection VIH    0.139365
Maladies neurologiques                               0.101748
Maladies psychiatriques                              0.101087
Name: proportion, dtype: float64

Distribution de cla_age_5 :
cla_age_5
tsage    0.063892
65-69    0.059637
60-64    0.059543
70-74    0.059164
55-59    0.059010
Name: proportion, dtype: float64


In [6]:

# on filtre les lignes avec sexe 9
df = df[df["sexe"].isin([1, 2])]

# on s'assure qu'il n'y a plus de valeurs manquantes
df = df.dropna()

# on affiche les dimensions finales
print(f"{len(df)} lignes conserv√©es apr√®s nettoyage complet")
df.head()


1570168 lignes conserv√©es apr√®s nettoyage complet


Unnamed: 0,annee,patho_niv1,patho_niv2,patho_niv3,top,cla_age_5,sexe,region,dept,Ntop,Npop,prev,Niveau prioritaire,libelle_classe_age,libelle_sexe,tri
0,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,28,999,6130.0,87700,6.986,123,de 20 √† 24 ans,hommes,3.0
1,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,32,62,3200.0,41610,7.686,123,de 20 √† 24 ans,hommes,3.0
2,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,32,80,1100.0,15770,6.974,123,de 20 √† 24 ans,hommes,3.0
3,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,44,51,1020.0,16260,6.285,123,de 20 √† 24 ans,hommes,3.0
4,2020,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,Hospitalisations hors pathologies rep√©r√©es (av...,HHP_CAT_INC,20-24,1,44,57,1570.0,26040,6.029,123,de 20 √† 24 ans,hommes,3.0


In [7]:
from sklearn.preprocessing import QuantileTransformer
print("FINI")
# normalisation de la variable continue
qt = QuantileTransformer(output_distribution='normal', random_state=42)

# on cr√©e une version normalis√©e de 'prev'
df["prev_norm"] = qt.fit_transform(df[["prev"]])

# v√©rification rapide
df[["prev", "prev_norm"]].describe()

colonnes_utiles = ["annee", "patho_niv1", "cla_age_5", "sexe", "region", "dept", "prev_norm"]
df_train = df[colonnes_utiles].copy()

colonnes_categorielle = ["annee", "patho_niv1", "cla_age_5", "sexe", "region", "dept"]

print("FINI")

FINI
FINI


In [None]:
from ctgan import CTGAN
from tqdm import tqdm  # pour un affichage progressif si besoin (optionnel)

# cr√©ation du mod√®le CTGAN avec affichage des logs
ctgan = CTGAN(epochs=300, verbose=True, log_frequency=True)

# entra√Ænement du mod√®le sur les donn√©es
print("üîÑ Entra√Ænement du mod√®le CTGAN en cours...")
ctgan.fit(df_train, discrete_columns=colonnes_categorielle)
print("‚úÖ Entra√Ænement termin√©.")

# g√©n√©ration de donn√©es synth√©tiques
print("üì¶ G√©n√©ration des donn√©es synth√©tiques...")
synth_ctgan = ctgan.sample(10000)

# inversion de la normalisation sur la colonne 'prev'
synth_ctgan["prev"] = qt.inverse_transform(synth_ctgan[["prev_norm"]])
synth_ctgan.drop(columns=["prev_norm"], inplace=True)

print(f"‚úÖ Donn√©es g√©n√©r√©es : {len(synth_ctgan)} lignes synth√©tiques")


üîÑ Entra√Ænement du mod√®le CTGAN en cours...


Gen. (-0.28) | Discrim. (-0.03):   4%|‚ñà‚ñå                                        | 11/300 [1:49:17<53:08:13, 661.91s/it]

In [None]:
from sdv.single_table import TVAESynthesizer
from sdv.metadata import SingleTableMetadata

# cr√©ation du metadata automatiquement √† partir des donn√©es d'entra√Ænement
metadata = SingleTableMetadata()
metadata.detect_from_dataframe(df_train)

# cr√©ation et entra√Ænement du mod√®le TVAE
print("üîÑ Entra√Ænement du mod√®le TVAE en cours...")
tvae = TVAESynthesizer(metadata)
tvae.fit(df_train)
print("‚úÖ Entra√Ænement TVAE termin√©.")

# g√©n√©ration des donn√©es synth√©tiques
print("üì¶ G√©n√©ration des donn√©es synth√©tiques...")
synth_tvae = tvae.sample(10000)

# inversion de la normalisation sur la variable continue
synth_tvae["prev"] = qt.inverse_transform(synth_tvae[["prev_norm"]])
synth_tvae.drop(columns=["prev_norm"], inplace=True)

print(f"‚úÖ Donn√©es g√©n√©r√©es : {len(synth_tvae)} lignes synth√©tiques")


## fusion des jeux de donn√©es synth√©tiques : ctgan + tvae

le mod√®le **ctgan** (conditional tabular GAN) est un r√©seau g√©n√©ratif con√ßu pour cr√©er des donn√©es tabulaires synth√©tiques. il est particuli√®rement efficace pour mod√©liser les variables cat√©gorielles complexes et les distributions d√©s√©quilibr√©es. il utilise un m√©canisme de conditionnement qui lui permet de mieux capturer les relations entre les variables.

le mod√®le **tvae** (tabular variational autoencoder) repose sur un autre type d‚Äôarchitecture : les autoencodeurs variationnels. tvae est plus adapt√© aux distributions continues et offre souvent une meilleure couverture de l‚Äôespace des donn√©es (meilleure diversit√©), en g√©n√©rant des √©chantillons plus vari√©s.

**combiner les deux mod√®les** permet de tirer profit de leurs forces respectives : ctgan produit souvent des donn√©es plus pr√©cises pour les variables cat√©gorielles fr√©quentes, tandis que tvae g√©n√®re une diversit√© plus large, utile pour couvrir les cas moins repr√©sent√©s. en fusionnant les deux jeux synth√©tiques (par exemple 40 % ctgan + 60 % tvae), on obtient un r√©sultat plus √©quilibr√©, √† la fois r√©aliste et riche en variations.


In [None]:
# nombre total d'√©chantillons souhait√©
n_total = 10000
n_ctgan = int(n_total * 0.4)
n_tvae = n_total - n_ctgan

# √©chantillonnage al√©atoire (avec graine pour reproductibilit√©)
synth_fusion = pd.concat([
    synth_ctgan.sample(n=n_ctgan, random_state=42),
    synth_tvae.sample(n=n_tvae, random_state=42)
], ignore_index=True)

# aper√ßu
print(f"jeu fusionn√© : {len(synth_fusion)} lignes")
synth_fusion.head()
#shuffle
synth_fusion = synth_fusion.sample(frac=1, random_state=42).reset_index(drop=True)

