# Génération de Données Synthétiques avec GAN

Ce notebook implémente un Generative Adversarial Network (GAN) pour générer des données synthétiques d'utilisation d'applications.
Basé sur le tutoriel : [Synthetic Data Generation with Generative AI](https://amanxai.com/2024/10/14/synthetic-data-generation-with-generative-ai/)

## Structure du Projet
- Les fonctions principales sont dans `data_gen_utils.py`
- Les données d'origine sont dans `./data/screentime_analysis.csv`

In [11]:
# Import des bibliothèques nécessaires
import numpy as np
import pandas as pd

# Import de nos fonctions personnalisées
from data_gen_utils import (
    build_generator, build_discriminator, build_gan,
    train_gan, preprocess_data, generate_synthetic_data
)

## 1. Chargement et Préparation des Données

Nous chargeons les données d'utilisation d'applications et les préparons pour l'entraînement du GAN.

In [12]:
# Chargement des données
data = pd.read_csv('./data/screentime_analysis.csv')
print("Aperçu des données brutes :")
print(data.head())

# Prétraitement des données
normalized_data, scaler = preprocess_data(data)
print("\nDimensions des données normalisées:", normalized_data.shape)

Aperçu des données brutes :
         Date        App  Usage (minutes)  Notifications  Times Opened
0  2024-08-07  Instagram               81             24            57
1  2024-08-08  Instagram               90             30            53
2  2024-08-26  Instagram              112             33            17
3  2024-08-22  Instagram               82             11            38
4  2024-08-12  Instagram               59             47            16

Dimensions des données normalisées: (200, 3)


## 2. Configuration du GAN

Configuration et construction des modèles Generator et Discriminator.

In [13]:
# Paramètres du modèle
latent_dim = 100  # dimension de l'espace latent

# Construction des modèles
generator = build_generator(latent_dim)
discriminator = build_discriminator()
gan = build_gan(generator, discriminator)

# Affichage des architectures
print("Architecture du Generator :")
generator.summary()
print("\nArchitecture du Discriminator :")
discriminator.summary()

Architecture du Generator :


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)



Architecture du Discriminator :


## 3. Entraînement du Modèle

Entraînement du GAN sur nos données normalisées.

In [14]:
# Entraînement du GAN
train_gan(
    gan=gan,
    generator=generator,
    discriminator=discriminator,
    data=normalized_data,
    nb_epochs=100,  # Ajuster selon les besoins
    batch_size=128,
    latent_dim=latent_dim
)

[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 




Epoch 0: D Loss: [0.6914638 0.7714844], G Loss: 0.6931794285774231
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/ste

## 4. Génération de Données Synthétiques

Utilisation du modèle entraîné pour générer de nouvelles données.

In [15]:
# Génération de nouvelles données
feature_names = [col for col in data.columns if col not in ['Date', 'App']]
generated_df = generate_synthetic_data(
    generator=generator,
    scaler=scaler,
    n_samples=1000,
    latent_dim=latent_dim,
    feature_names=feature_names
)

print("Aperçu des données générées :")
print(generated_df.head())

[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step
Aperçu des données générées :
   Usage (minutes)  Notifications  Times Opened
0         1.000102     145.779831     98.980690
1       118.999969       0.233817      1.003303
2       118.976395       0.379667      1.972411
3       118.998901       0.066980      2.279521
4        27.851057       4.110766     98.968048
