In [6]:
import pandas as pd
import numpy as np
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

class SyntheticDataGenerator:
    """
    G√©n√©rateur de donn√©es synth√©tiques pour machine learning
    Pr√©serve les distributions statistiques des donn√©es originales
    EN COLLABORATION AVEC NOTRE CHER AMI CHATGPT
    """
    
    def __init__(self, filepath):
        """
        Initialise le g√©n√©rateur avec les donn√©es originales
        
        Args:
            filepath: Chemin vers le fichier CSV (d√©limiteur point-virgule)
        """
        self.df_original = pd.read_csv(filepath, delimiter=';', encoding='utf-8')
        self.stats = {}
        self._analyze_data()
        
    def _analyze_data(self):
        """Analyse les distributions statistiques des donn√©es"""
        print(f" Analyse de {len(self.df_original)} lignes...")
        print(f" Colonnes: {list(self.df_original.columns)}\n")
        
        for col in self.df_original.columns:
            if self.df_original[col].dtype == 'object' or pd.api.types.is_categorical_dtype(self.df_original[col]):
                # Variable cat√©gorielle
                value_counts = self.df_original[col].value_counts(dropna=True)
                distribution = value_counts / value_counts.sum()
                probabilities = list(distribution.values)
                # Normaliser pour s'assurer que la somme = 1
                probabilities = np.array(probabilities)
                probabilities = probabilities / probabilities.sum()
                self.stats[col] = {
                    'type': 'categorical',
                    'values': list(value_counts.index),
                    'probabilities': list(probabilities)
                }
                print(f"‚úì {col} (cat√©gorielle): {len(value_counts)} valeurs uniques")
            else:
                # Variable num√©rique
                self.stats[col] = {
                    'type': 'numeric',
                    'mean': self.df_original[col].mean(),
                    'std': self.df_original[col].std(),
                    'min': self.df_original[col].min(),
                    'max': self.df_original[col].max()
                }
                print(f" {col} (num√©rique): Œº={self.stats[col]['mean']:.2f}, œÉ={self.stats[col]['std']:.2f}")
    
    def generate(self, n_rows=1000):
        """
        G√©n√®re des donn√©es synth√©tiques
        
        Args:
            n_rows: Nombre de lignes √† g√©n√©rer
            
        Returns:
            DataFrame avec les donn√©es synth√©tiques
        """
        print(f"\n G√©n√©ration de {n_rows} lignes synth√©tiques...")
        
        synthetic_data = {}
        
        for col, stat in self.stats.items():
            if stat['type'] == 'categorical':
                # √âchantillonnage selon la distribution d'origine
                synthetic_data[col] = np.random.choice(
                    stat['values'],
                    size=n_rows,
                    p=stat['probabilities']
                )
            else:
                # Distribution normale avec les param√®tres d'origine
                values = np.random.normal(
                    loc=stat['mean'],
                    scale=stat['std'],
                    size=n_rows
                )
                # Limiter aux min/max d'origine
                values = np.clip(values, stat['min'], stat['max'])
                # Arrondir √† 2 d√©cimales
                synthetic_data[col] = np.round(values, 2)
        
        df_synthetic = pd.DataFrame(synthetic_data)
        print(f"G√©n√©ration termin√©e!")
        
        return df_synthetic
    
    def save(self, df_synthetic, output_path='synthetic_data.csv'):
        """
        Sauvegarde les donn√©es synth√©tiques en CSV
        
        Args:
            df_synthetic: DataFrame √† sauvegarder
            output_path: Chemin du fichier de sortie
        """
        df_synthetic.to_csv(output_path, sep=';', index=False, encoding='utf-8')
        print(f"Fichier sauvegard√©: {output_path}")
        print(f"Dimensions: {df_synthetic.shape[0]} lignes √ó {df_synthetic.shape[1]} colonnes")
    
    def compare_distributions(self, df_synthetic):
        """
        Compare les distributions originales et synth√©tiques
        
        Args:
            df_synthetic: DataFrame synth√©tique √† comparer
        """
        print("\n COMPARAISON DES DISTRIBUTIONS")
        print("=" * 60)
        
        for col in self.df_original.columns:
            if self.stats[col]['type'] == 'numeric':
                orig_mean = self.df_original[col].mean()
                synth_mean = df_synthetic[col].mean()
                orig_std = self.df_original[col].std()
                synth_std = df_synthetic[col].std()
                
                print(f"\n{col}:")
                print(f"  Moyenne  ‚Üí Original: {orig_mean:.2f} | Synth√©tique: {synth_mean:.2f}")
                print(f"  √âcart-type ‚Üí Original: {orig_std:.2f} | Synth√©tique: {synth_std:.2f}")
            else:
                print(f"\n{col} (cat√©gorielle):")
                orig_dist = self.df_original[col].value_counts(normalize=True)
                synth_dist = df_synthetic[col].value_counts(normalize=True)
                
                for val in orig_dist.index[:3]:  # Top 3 valeurs
                    orig_pct = orig_dist.get(val, 0) * 100
                    synth_pct = synth_dist.get(val, 0) * 100
                    print(f"  {val} ‚Üí Original: {orig_pct:.1f}% | Synth√©tique: {synth_pct:.1f}%")


# -_-_-_-_-_-_-_-_-_-_-_
# EXEMPLE D'UTILISATION
# -_-_-_-_-_-_-_-_-_-_-_

if __name__ == "__main__":
    print("=" * 22)
    print(" G√âN√âRATEUR DE DONN√âES SYNTH√âTIQUES POUR ML")
    print("=" * 22)
    print()
    
    # 1. Charger et analyser les donn√©es originales
    generator = SyntheticDataGenerator('dataset_final.csv')
    
    # 2. G√©n√©rer des donn√©es synth√©tiques
    n_rows = 1000  # Modifiez ce nombre selon vos besoins
    df_synthetic = generator.generate(n_rows=n_rows)
    
    # 3. Aper√ßu des donn√©es g√©n√©r√©es
    print("\n APER√áU DES DONN√âES G√âN√âR√âES")
    print("=" * 60)
    print(df_synthetic.head(10))
    
    # 4. Sauvegarder
    generator.save(df_synthetic, output_path=f'synthetic_2data_{n_rows}.csv')
    
    # 5. Comparer les distributions
    generator.compare_distributions(df_synthetic)
    
    print("\n" + "=" * 22)
    print("TERMIN√â! Nos donn√©es synth√©tiques sont pr√™tes pour le ML!")
    print("=" * 22)

üöÄ G√âN√âRATEUR DE DONN√âES SYNTH√âTIQUES POUR ML

üìä Analyse de 276 lignes...
üìã Colonnes: ['sexe', 'niveau', 'sport', 'E. Social', 'repos', 'assistance', 'pratique', 'qualit√©', 'organisation', 'assiduite', 'facteurs +', 'revision', 'note']

‚úì sexe (num√©rique): Œº=0.40, œÉ=0.90
‚úì niveau (num√©rique): Œº=2.29, œÉ=1.20
‚úì sport (num√©rique): Œº=0.31, œÉ=0.74
‚úì E. Social (num√©rique): Œº=0.69, œÉ=0.44
‚úì repos (num√©rique): Œº=5.90, œÉ=1.70
‚úì assistance (num√©rique): Œº=0.53, œÉ=0.13
‚úì pratique (num√©rique): Œº=0.14, œÉ=0.99
‚úì qualit√© (num√©rique): Œº=0.25, œÉ=0.51
‚úì organisation (num√©rique): Œº=0.01, œÉ=0.82
‚úì assiduite (num√©rique): Œº=0.56, œÉ=0.51
‚úì facteurs + (num√©rique): Œº=1.19, œÉ=0.97
‚úì revision (cat√©gorielle): 41 valeurs uniques
‚úì note (cat√©gorielle): 66 valeurs uniques

üîÑ G√©n√©ration de 1000 lignes synth√©tiques...
‚úÖ G√©n√©ration termin√©e!

üëÄ APER√áU DES DONN√âES G√âN√âR√âES
   sexe  niveau  sport  E. Social  repos  assistance  pr