In [4]:
df_dict = pd.read_excel("Excel donn√©s qualit√© UGB.xlsx", sheet_name=None, header=3)

for name, data in df_dict.items():
    print(f"{name}: {data.shape}, colonnes: {list(data.columns)}")


Entree 1: (16, 21), colonnes: ['Mois', 'Data', 'Heure echantillon ', 'Debit entree (m3/jour)', 'Temperature (¬∫C)', 'pH', 'CE (¬µSm/cm)', 'Redox', 'DBO5 (mg/L)', 'DCO (mg/L)', 'MeS (mg/L)', 'MVS (%)', 'Nitrates (mgNO3-/l)', 'Ammonium (mgNH4-/l) ', 'Azot total (mgN/l)', 'Phosphates (mgPO4-/l)', 'Coliformes f√©caux (CFU/100ml)', 'Oeufs helmint', 'Huiles et graisses', 'Op√©ration', 'Observation']
Entree FV1: (16, 21), colonnes: ['Mois', 'Data', 'Heure echantillon /observations', 'Debit entree (m3/jour)', 'Temperature (¬∫C)', 'pH', 'CE (¬µsm/cm)', 'Redox', 'DBO5 (mg/L)', 'DCO (mg/L)', 'MeS (mg/L)', 'MVS (%)', 'Nitrates (mgNO3-/l)', 'Ammonium (mgNH4-/l) ', 'Azote total (mgN/l)', 'Phosphates (mgPO4-/l)', 'Coliformes f√©caux (CFU/100ml)', 'Oeufs helmint', 'Huiles et graisses', 'Op√©ration', 'Observation']
SFV1a: (16, 21), colonnes: ['Mois', 'Data', 'Heure echantillon /observations', 'Charge hydraulique (cm/jour)', 'Temperature (¬∫C)', 'pH', 'CE (¬µsm/cm)', 'Redox', 'DBO5 (mg/L)', 'DCO (mg/L)'

In [8]:
import pandas as pd
import numpy as np
from datetime import datetime
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

class UGBDataProcessor:
    """
    Classe pour le pr√©traitement des donn√©es de qualit√© d'eau UGB
    """
    
    def __init__(self):
        # Mapping pour uniformiser les noms de colonnes
        self.column_mapping = {
            # Colonnes temporelles
            'Mois': 'Mois',
            'Data': 'Date',
            'Heure echantillon ': 'Heure_Echantillon',
            'Heure echantillon /observations': 'Heure_Echantillon',
            
            # Param√®tres hydrauliques
            'Debit entree (m3/jour)': 'Debit_Entree_m3_jour',
            'Charge hydraulique (cm/jour)': 'Charge_Hydraulique_cm_jour',
            
            # Param√®tres physico-chimiques
            'Temperature (¬∫C)': 'Temperature_C',
            'pH': 'pH',
            'CE (¬µSm/cm)': 'Conductivite_uS_cm',
            'CE (¬µsm/cm)': 'Conductivite_uS_cm',
            'Redox': 'Potentiel_Redox_mV',
            
            # Param√®tres de pollution
            'DBO5 (mg/L)': 'DBO5_mg_L',
            'DCO (mg/L)': 'DCO_mg_L',
            'MeS (mg/L)': 'MES_mg_L',
            'MVS (%)': 'MVS_pct',
            
            # Param√®tres azot√©s (TOUTES LES VARIANTES vers le m√™me nom)
            'Nitrates (mgNO3-/l)': 'Nitrates_mg_L',
            'Ammonium (mgNH4-/l) ': 'Ammonium_mg_L',
            'Azot total (mgN/l)': 'Azote_Total_mg_L',      # Variante 1
            'Azote total (mgN/l)': 'Azote_Total_mg_L',     # Variante 2 
            'Azote toal (mgN/l)': 'Azote_Total_mg_L',      # Variante 3 (typo)
            
            # Param√®tres phosphor√©s
            'Phosphates (mgPO4-/l)': 'Phosphates_mg_L',
            
            # Param√®tres microbiologiques
            'Coliformes f√©caux (CFU/100ml)': 'Coliformes_Fecaux_CFU_100ml',
            'Oeufs helmint': 'Oeufs_Helminthes',
            
            # Autres
            'Huiles et graisses': 'Huiles_Graisses',
            'Op√©ration': 'Operation',
            'Observation': 'Observations'
        }
        
        # D√©finition des types de feuilles et leurs caract√©ristiques
        self.sheet_config = {
            'entree': {
                'sheets': ['Entree 1', 'Entree FV1', 'Entr√©√© FV2'],
                'phase': 'Entree',
                'description': 'Eaux d\'entr√©e'
            },
            'sortie_fv': {
                'sheets': ['SFV1a', 'SFV1b', 'SFV1c', 'SFV2a', 'SFV2b'],
                'phase': 'Sortie',
                'type_filtre': 'Filtre_Vertical',
                'description': 'Sorties filtres verticaux'
            },
            'sortie_fh': {
                'sheets': ['SFHa', 'SFHb'],
                'phase': 'Sortie',
                'type_filtre': 'Filtre_Horizontal',
                'description': 'Sorties filtres horizontaux'
            },
            'performance': {
                'sheets': ['% √©l FV1', '% √©l FV2', '% √©l de la station'],
                'phase': 'Performance',
                'description': 'Donn√©es de performance'
            }
        }
    
    def clean_value(self, x):
        """
        Nettoie une valeur individuelle
        G√®re sp√©cifiquement : <2000, >500, "pas de donn√©e", etc.
        """
        if pd.isna(x):
            return np.nan
        
        if isinstance(x, str):
            x = x.strip()
            
            # G√©rer les valeurs sp√©ciales (valeurs manquantes)
            missing_indicators = ['pas de donn√©e', 'nd', 'n.d.', '-', 'absent', '', 'nan', 'null']
            if any(term in x.lower() for term in missing_indicators):
                return np.nan
            
            # G√©rer les valeurs avec > (ex: ">500" devient 500)
            # Interpr√©tation: valeur minimale possible
            if '>' in x:
                try:
                    numeric_part = x.replace('>', '').strip()
                    return float(numeric_part)
                except ValueError:
                    return np.nan
            
            # G√©rer les valeurs avec < (ex: "<2000" devient 2000) 
            # Interpr√©tation: valeur maximale possible (limite de d√©tection)
            if '<' in x:
                try:
                    numeric_part = x.replace('<', '').strip()
                    return float(numeric_part)
                except ValueError:
                    return np.nan
            
            # G√©rer d'autres formats possibles
            # Retirer les espaces et caract√®res parasites
            x = x.replace(',', '.').replace(' ', '')
            
            # Essayer de convertir en num√©rique
            try:
                return float(x)
            except ValueError:
                # Si ce n'est pas num√©rique, retourner tel quel (texte)
                return x if x else np.nan
        
        return x
    
    def standardize_columns(self, df, sheet_name):
        """
        Standardise les noms de colonnes d'un DataFrame
        """
        df_clean = df.copy()
        
        # Renommer les colonnes selon le mapping
        df_clean.rename(columns=self.column_mapping, inplace=True)
        
        # Ajouter les m√©tadonn√©es
        df_clean['ID_Station'] = 'Sanar_Station'
        df_clean['Nom_Feuille'] = sheet_name
        
        # D√©terminer le type et la phase selon la feuille
        for config_type, config in self.sheet_config.items():
            if sheet_name in config['sheets']:
                df_clean['Phase'] = config['phase']
                if 'type_filtre' in config:
                    df_clean['Type_Filtre'] = config['type_filtre']
                else:
                    df_clean['Type_Filtre'] = 'Non_Applicable'
                break
        
        # Identifier le filtre sp√©cifique
        if 'FV1' in sheet_name:
            df_clean['ID_Filtre'] = 'FV1'
        elif 'FV2' in sheet_name:
            df_clean['ID_Filtre'] = 'FV2'
        elif 'FH' in sheet_name:
            df_clean['ID_Filtre'] = 'FH'
        else:
            df_clean['ID_Filtre'] = 'General'
        
        return df_clean
    
    def process_sheet(self, df, sheet_name):
        """
        Traite une feuille individuelle
        """
        print(f"Traitement de la feuille : {sheet_name}")
        
        # Standardiser les colonnes
        df_processed = self.standardize_columns(df, sheet_name)
        
        # Nettoyer les valeurs (sauf les m√©tadonn√©es)
        metadata_cols = ['ID_Station', 'Nom_Feuille', 'Phase', 'Type_Filtre', 'ID_Filtre']
        
        for col in df_processed.columns:
            if col not in metadata_cols:
                df_processed[col] = df_processed[col].apply(self.clean_value)
        
        # Traiter la date
        if 'Date' in df_processed.columns:
            df_processed['Date'] = pd.to_datetime(df_processed['Date'], errors='coerce')
        
        return df_processed
    
    def create_unified_dataset(self, excel_file_path):
        """
        Cr√©e un dataset unifi√© √† partir du fichier Excel
        """
        print("=== D√âBUT DU PR√âTRAITEMENT UGB ===")
        
        # 1. Charger toutes les feuilles
        try:
            df_dict = pd.read_excel(excel_file_path, sheet_name=None)
            print(f"Nombre de feuilles charg√©es : {len(df_dict)}")
        except Exception as e:
            print(f"Erreur lors du chargement : {e}")
            return None
        
        # 2. Traiter chaque feuille (exclure les feuilles de performance pour l'instant)
        processed_sheets = []
        performance_sheets = []
        
        for sheet_name, data in df_dict.items():
            if sheet_name.startswith('% √©l'):
                # Traiter s√©par√©ment les feuilles de performance
                performance_sheets.append((sheet_name, data))
                continue
            
            try:
                processed_df = self.process_sheet(data, sheet_name)
                processed_sheets.append(processed_df)
                print(f"  ‚úì {sheet_name}: {len(processed_df)} lignes")
            except Exception as e:
                print(f"  ‚úó Erreur avec {sheet_name}: {e}")
        
        # 3. Combiner toutes les feuilles
        if processed_sheets:
            df_unified = pd.concat(processed_sheets, ignore_index=True, sort=False)
            print(f"\nDataset unifi√© cr√©√© : {len(df_unified)} lignes, {len(df_unified.columns)} colonnes")
        else:
            print("Aucune feuille trait√©e avec succ√®s")
            return None
        
        # 4. Analyser les valeurs manquantes
        missing_analysis = self.analyze_missing_values(df_unified)
        
        # 5. G√©rer les valeurs manquantes 
        # CHOISIR UNE SEULE STRAT√âGIE selon vos besoins :
        
        # Option 1 - HYBRID (Recommand√©e - approche intelligente)
        df_unified = self.handle_missing_values(df_unified, strategy='hybrid')
        
        # Option 2 - CONSERVATIVE (d√©commenter si vous voulez garder toutes les donn√©es)
        # df_unified = self.handle_missing_values(df_unified, strategy='conservative')
        
        # Option 3 - AGGRESSIVE (d√©commenter si vous voulez supprimer les colonnes tr√®s incompl√®tes)
        # df_unified = self.handle_missing_values(df_unified, strategy='aggressive')
        
        # Option 4 - INTERPOLATE (d√©commenter si vous voulez interpoler les s√©ries temporelles)  
        # df_unified = self.handle_missing_values(df_unified, strategy='interpolate')
        
        # 6. Post-traitement final
        df_unified = self.post_process(df_unified)
        
        return df_unified, performance_sheets, missing_analysis
    
    def analyze_missing_values(self, df):
        """
        Analyse d√©taill√©e des valeurs manquantes
        """
        print("\n=== ANALYSE DES VALEURS MANQUANTES ===")
        
        # Compter les valeurs manquantes par colonne
        missing_stats = []
        for col in df.columns:
            missing_count = df[col].isnull().sum()
            total_count = len(df)
            missing_pct = (missing_count / total_count) * 100
            
            # Analyser les types de valeurs non-manquantes
            non_missing = df[col].dropna()
            if len(non_missing) > 0:
                if col in ['Date', 'Mois', 'Heure_Echantillon', 'ID_Station', 'Phase', 'Type_Filtre']:
                    data_type = 'M√©tadonn√©e'
                elif non_missing.dtype in ['float64', 'int64']:
                    data_type = 'Num√©rique'
                else:
                    data_type = 'Texte'
            else:
                data_type = 'Vide'
            
            missing_stats.append({
                'Colonne': col,
                'Valeurs_Manquantes': missing_count,
                'Total': total_count,
                'Pourcentage_Manquant': missing_pct,
                'Type_Donnee': data_type
            })
        
        missing_df = pd.DataFrame(missing_stats)
        missing_df = missing_df.sort_values('Pourcentage_Manquant', ascending=False)
        
        # Afficher le top 10 des colonnes avec le plus de valeurs manquantes
        print("Top 10 des colonnes avec le plus de valeurs manquantes :")
        print(missing_df.head(10)[['Colonne', 'Valeurs_Manquantes', 'Pourcentage_Manquant']].to_string(index=False))
        
        # Statistiques globales
        colonnes_numeriques = missing_df[missing_df['Type_Donnee'] == 'Num√©rique']
        if len(colonnes_numeriques) > 0:
            print(f"\nColonnes num√©riques : {len(colonnes_numeriques)}")
            print(f"Valeurs manquantes moyennes (param√®tres num√©riques) : {colonnes_numeriques['Pourcentage_Manquant'].mean():.1f}%")
        
        return missing_df
    
    def handle_missing_values(self, df, strategy='hybrid'):
        """
        G√®re les valeurs manquantes selon diff√©rentes strat√©gies
        
        Strat√©gies :
        - 'conservative' : Garde les NaN, supprime les lignes compl√®tement vides
        - 'aggressive' : Supprime les colonnes avec >80% de valeurs manquantes
        - 'interpolate' : Interpole les valeurs manquantes pour les donn√©es temporelles
        - 'hybrid' : Approche intelligente combin√©e (RECOMMAND√âE)
        """
        print(f"\n=== GESTION DES VALEURS MANQUANTES (strat√©gie: {strategy}) ===")
        
        df_clean = df.copy()
        initial_shape = df_clean.shape
        
        if strategy == 'conservative':
            # Supprimer les lignes compl√®tement vides (toutes les valeurs num√©riques sont NaN)
            numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
            df_clean = df_clean.dropna(subset=numeric_cols, how='all')
            print(f"Lignes compl√®tement vides supprim√©es : {initial_shape[0] - len(df_clean)}")
            
        elif strategy == 'aggressive':
            # Supprimer les colonnes avec plus de 80% de valeurs manquantes
            threshold = 0.8
            cols_to_drop = []
            for col in df_clean.columns:
                if col not in ['ID_Station', 'Phase', 'Type_Filtre', 'Date']:  # Garder les m√©tadonn√©es importantes
                    missing_pct = df_clean[col].isnull().sum() / len(df_clean)
                    if missing_pct > threshold:
                        cols_to_drop.append(col)
            
            df_clean = df_clean.drop(columns=cols_to_drop)
            print(f"Colonnes supprim√©es (>{threshold*100}% manquantes) : {len(cols_to_drop)}")
            if cols_to_drop:
                print(f"Colonnes supprim√©es : {cols_to_drop}")
            
        elif strategy == 'interpolate':
            # Interpolation pour les donn√©es temporelles
            if 'Date' in df_clean.columns:
                df_clean = df_clean.sort_values('Date')
                numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
                
                for col in numeric_cols:
                    if col.endswith('_mg_L') or col.endswith('_C') or col.endswith('_pct'):
                        # Interpolation lin√©aire pour les param√®tres de qualit√©
                        df_clean[col] = df_clean.groupby(['Phase', 'ID_Filtre'])[col].transform(
                            lambda x: x.interpolate(method='linear', limit=2)
                        )
        
        elif strategy == 'hybrid':
            # APPROCHE HYBRIDE - La meilleure pour les donn√©es de qualit√© d'eau
            print("Approche hybride intelligente...")
            
            # √âtape 1: Supprimer les lignes compl√®tement vides
            numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
            rows_before = len(df_clean)
            df_clean = df_clean.dropna(subset=numeric_cols, how='all')
            rows_removed = rows_before - len(df_clean)
            print(f"  ‚Üí Lignes vides supprim√©es : {rows_removed}")
            
            # √âtape 2: Identifier les colonnes tr√®s probl√©matiques (>95% manquantes)
            very_empty_cols = []
            for col in df_clean.columns:
                if col not in ['ID_Station', 'Phase', 'Type_Filtre', 'Date', 'Mois']:
                    missing_pct = df_clean[col].isnull().sum() / len(df_clean)
                    if missing_pct > 0.95:  # Plus strict que aggressive
                        very_empty_cols.append(col)
            
            if very_empty_cols:
                df_clean = df_clean.drop(columns=very_empty_cols)
                print(f"  ‚Üí Colonnes quasi-vides supprim√©es (>95% manquantes) : {len(very_empty_cols)}")
                print(f"    Colonnes : {very_empty_cols}")
            
            # √âtape 3: Interpolation douce pour les param√®tres physiques stables (pH, Temp√©rature)
            stable_params = ['Temperature_C', 'pH', 'Conductivite_uS_cm']
            interpolated_count = 0
            
            for param in stable_params:
                if param in df_clean.columns and 'Date' in df_clean.columns:
                    # Interpolation seulement si max 1 valeur manquante cons√©cutive
                    df_clean = df_clean.sort_values(['Date', 'Phase', 'ID_Filtre'])
                    original_nulls = df_clean[param].isnull().sum()
                    
                    df_clean[param] = df_clean.groupby(['Phase', 'ID_Filtre'])[param].transform(
                        lambda x: x.interpolate(method='linear', limit=1)  # Max 1 trou
                    )
                    
                    final_nulls = df_clean[param].isnull().sum()
                    if original_nulls > final_nulls:
                        interpolated_count += (original_nulls - final_nulls)
            
            if interpolated_count > 0:
                print(f"  ‚Üí Valeurs interpol√©es (param√®tres stables) : {interpolated_count}")
            
            # √âtape 4: Marquer les valeurs estim√©es vs mesur√©es
            df_clean['Contient_Valeurs_Estimees'] = False
            for col in df_clean.select_dtypes(include=[np.number]).columns:
                if col not in ['ID_Station']:
                    # Marquer les lignes o√π au moins 30% des param√®tres principaux sont manquants
                    main_params = ['DBO5_mg_L', 'DCO_mg_L', 'MES_mg_L', 'pH', 'Temperature_C']
                    available_main = [p for p in main_params if p in df_clean.columns]
                    
                    if available_main:
                        missing_main = df_clean[available_main].isnull().sum(axis=1)
                        df_clean.loc[missing_main >= len(available_main) * 0.3, 'Contient_Valeurs_Estimees'] = True
        
        final_shape = df_clean.shape
        print(f"Shape avant : {initial_shape}")
        print(f"Shape apr√®s : {final_shape}")
        print(f"Donn√©es conserv√©es : {(final_shape[0]/initial_shape[0]*100):.1f}% des lignes, "
              f"{(final_shape[1]/initial_shape[1]*100):.1f}% des colonnes")
        
        return df_clean
        """
        Post-traitement du dataset unifi√©
        """
        print("\n=== POST-TRAITEMENT ===")
        
        # R√©organiser les colonnes
        priority_cols = ['ID_Station', 'Phase', 'Type_Filtre', 'ID_Filtre', 'Date', 'Mois', 'Heure_Echantillon']
        other_cols = [col for col in df.columns if col not in priority_cols]
        df = df[priority_cols + other_cols]
        
        # Trier par date
        if 'Date' in df.columns:
            df = df.sort_values(['Date', 'Phase', 'ID_Filtre']).reset_index(drop=True)
        
        # Statistiques de nettoyage
        total_cells = df.shape[0] * df.shape[1]
        missing_cells = df.isnull().sum().sum()
        missing_pct = (missing_cells / total_cells) * 100
        
        print(f"Donn√©es manquantes : {missing_cells}/{total_cells} ({missing_pct:.1f}%)")
        
        # R√©sum√© par phase
        phase_summary = df.groupby('Phase').size()
        print("R√©partition par phase :")
        for phase, count in phase_summary.items():
            print(f"  - {phase}: {count} lignes")
        
        return df
    
    def create_performance_analysis(self, df_unified, performance_sheets):
        """
        Analyse les donn√©es de performance si disponibles
        """
        print("\n=== ANALYSE DES PERFORMANCES ===")
        
        # Cr√©er des paires entr√©e-sortie pour calcul des rendements
        paires_filtres = {
            'FV1': {
                'entree': df_unified[(df_unified['Phase'] == 'Entree') & 
                                   (df_unified['ID_Filtre'].isin(['FV1', 'General']))],
                'sortie': df_unified[(df_unified['Phase'] == 'Sortie') & 
                                   (df_unified['ID_Filtre'] == 'FV1')]
            },
            'FV2': {
                'entree': df_unified[(df_unified['Phase'] == 'Entree') & 
                                   (df_unified['ID_Filtre'].isin(['FV2', 'General']))],
                'sortie': df_unified[(df_unified['Phase'] == 'Sortie') & 
                                   (df_unified['ID_Filtre'] == 'FV2')]
            }
        }
        
        performance_results = []
        
        for filtre_id, data in paires_filtres.items():
            if len(data['entree']) > 0 and len(data['sortie']) > 0:
                print(f"Calcul des rendements pour {filtre_id}")
                
                # Fusionner entr√©e et sortie sur la date
                merged = pd.merge(
                    data['entree'], 
                    data['sortie'], 
                    on='Date', 
                    suffixes=('_entree', '_sortie'),
                    how='inner'
                )
                
                if len(merged) > 0:
                    # Calculer les rendements pour les param√®tres cl√©s
                    parametres = ['DBO5_mg_L', 'DCO_mg_L', 'MES_mg_L', 'Azote_Total_mg_L', 'Phosphates_mg_L']
                    
                    for param in parametres:
                        col_entree = f"{param}_entree"
                        col_sortie = f"{param}_sortie"
                        
                        if col_entree in merged.columns and col_sortie in merged.columns:
                            merged[f"Rendement_{param.replace('_mg_L', '')}_pct"] = (
                                (merged[col_entree] - merged[col_sortie]) / 
                                merged[col_entree] * 100
                            ).round(2)
                    
                    performance_results.append(merged)
        
        return performance_results

def main():
    """
    Fonction principale
    """
    # V√©rifier que le fichier existe
    excel_file = "Excel donn√©s qualit√© UGB.xlsx"
    
    if not Path(excel_file).exists():
        print(f"‚ùå ERREUR : Fichier '{excel_file}' introuvable !")
        print("üìÅ Fichiers Excel trouv√©s dans le r√©pertoire actuel :")
        excel_files = list(Path('.').glob('*.xlsx'))
        if excel_files:
            for i, file in enumerate(excel_files, 1):
                print(f"   {i}. {file.name}")
            print("\nüí° Conseil : V√©rifiez le nom exact du fichier ci-dessus")
        else:
            print("   Aucun fichier .xlsx trouv√©")
        return
    
    # Initialiser le processeur
    processor = UGBDataProcessor()
    
    # Traiter les donn√©es
    result = processor.create_unified_dataset(excel_file)
    
    if result is None:
        print("√âchec du traitement")
        return
    
    df_unified, performance_sheets, missing_analysis = result
    
    # Afficher un aper√ßu
    print("\n=== APER√áU DU DATASET FINAL ===")
    print(f"Shape: {df_unified.shape}")
    print("\nPremi√®res lignes :")
    print(df_unified.head())
    
    print("\nColonnes disponibles :")
    for i, col in enumerate(df_unified.columns):
        print(f"{i+1:2d}. {col}")
    
    # Sauvegarder le dataset principal en CSV
    output_file_csv = "UGB_Sanar_Station_Dataset_Clean.csv"
    df_unified.to_csv(output_file_csv, index=False, encoding='utf-8')
    print(f"‚úì Dataset principal sauvegard√© : {output_file_csv}")
    
    # Sauvegarder l'analyse des valeurs manquantes en CSV
    missing_file_csv = "UGB_Missing_Values_Analysis.csv"
    missing_analysis.to_csv(missing_file_csv, index=False, encoding='utf-8')
    print(f"‚úì Analyse des valeurs manquantes : {missing_file_csv}")
    
    # Analyser les performances si demand√©
    performance_results = processor.create_performance_analysis(df_unified, performance_sheets)
    
    if performance_results:
        df_performance = pd.concat(performance_results, ignore_index=True)
        performance_file_csv = "UGB_Performance_Analysis.csv"
        df_performance.to_csv(performance_file_csv, index=False, encoding='utf-8')
        print(f"‚úì Analyse des performances : {performance_file_csv}")
    
    print("\n=== TRAITEMENT TERMIN√â ===")

if __name__ == "__main__":
    main()

=== D√âBUT DU PR√âTRAITEMENT UGB ===
Nombre de feuilles charg√©es : 13
Traitement de la feuille : Entree 1
  ‚úì Entree 1: 19 lignes
Traitement de la feuille : Entree FV1
  ‚úì Entree FV1: 19 lignes
Traitement de la feuille : SFV1a
  ‚úì SFV1a: 19 lignes
Traitement de la feuille : SFV1b
  ‚úì SFV1b: 19 lignes
Traitement de la feuille : SFV1c
  ‚úì SFV1c: 19 lignes
Traitement de la feuille : Entr√©√© FV2
  ‚úì Entr√©√© FV2: 19 lignes
Traitement de la feuille : SFV2a
  ‚úì SFV2a: 19 lignes
Traitement de la feuille : SFV2b
  ‚úì SFV2b: 19 lignes
Traitement de la feuille : SFHa
  ‚úì SFHa: 19 lignes
Traitement de la feuille : SFHb
  ‚úì SFHb: 19 lignes

Dataset unifi√© cr√©√© : 190 lignes, 34 colonnes

=== ANALYSE DES VALEURS MANQUANTES ===
Top 10 des colonnes avec le plus de valeurs manquantes :
       Colonne  Valeurs_Manquantes  Pourcentage_Manquant
ENTREE station                 190                 100.0
    Unnamed: 2                 190                 100.0
    Entr√©e FV1          

AttributeError: 'UGBDataProcessor' object has no attribute 'post_process'

In [9]:
import pandas as pd
import numpy as np
from datetime import datetime
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

class UGBDataProcessor:
    """
    Classe pour le pr√©traitement des donn√©es de qualit√© d'eau UGB
    """
    
    def __init__(self):
        # Mapping pour uniformiser les noms de colonnes
        self.column_mapping = {
            # Colonnes temporelles
            'Mois': 'Mois',
            'Data': 'Date',
            'Heure echantillon ': 'Heure_Echantillon',
            'Heure echantillon /observations': 'Heure_Echantillon',
            
            # Param√®tres hydrauliques
            'Debit entree (m3/jour)': 'Debit_Entree_m3_jour',
            'Charge hydraulique (cm/jour)': 'Charge_Hydraulique_cm_jour',
            
            # Param√®tres physico-chimiques
            'Temperature (¬∫C)': 'Temperature_C',
            'pH': 'pH',
            'CE (¬µSm/cm)': 'Conductivite_uS_cm',
            'CE (¬µsm/cm)': 'Conductivite_uS_cm',
            'Redox': 'Potentiel_Redox_mV',
            
            # Param√®tres de pollution
            'DBO5 (mg/L)': 'DBO5_mg_L',
            'DCO (mg/L)': 'DCO_mg_L',
            'MeS (mg/L)': 'MES_mg_L',
            'MVS (%)': 'MVS_pct',
            
            # Param√®tres azot√©s (TOUTES LES VARIANTES vers le m√™me nom)
            'Nitrates (mgNO3-/l)': 'Nitrates_mg_L',
            'Ammonium (mgNH4-/l) ': 'Ammonium_mg_L',
            'Azot total (mgN/l)': 'Azote_Total_mg_L',      # Variante 1
            'Azote total (mgN/l)': 'Azote_Total_mg_L',     # Variante 2 
            'Azote toal (mgN/l)': 'Azote_Total_mg_L',      # Variante 3 (typo)
            
            # Param√®tres phosphor√©s
            'Phosphates (mgPO4-/l)': 'Phosphates_mg_L',
            
            # Param√®tres microbiologiques
            'Coliformes f√©caux (CFU/100ml)': 'Coliformes_Fecaux_CFU_100ml',
            'Oeufs helmint': 'Oeufs_Helminthes',
            
            # Autres
            'Huiles et graisses': 'Huiles_Graisses',
            'Op√©ration': 'Operation',
            'Observation': 'Observations'
        }
        
        # D√©finition des types de feuilles et leurs caract√©ristiques
        self.sheet_config = {
            'entree': {
                'sheets': ['Entree 1', 'Entree FV1', 'Entr√©√© FV2'],
                'phase': 'Entree',
                'description': 'Eaux d\'entr√©e'
            },
            'sortie_fv': {
                'sheets': ['SFV1a', 'SFV1b', 'SFV1c', 'SFV2a', 'SFV2b'],
                'phase': 'Sortie',
                'type_filtre': 'Filtre_Vertical',
                'description': 'Sorties filtres verticaux'
            },
            'sortie_fh': {
                'sheets': ['SFHa', 'SFHb'],
                'phase': 'Sortie',
                'type_filtre': 'Filtre_Horizontal',
                'description': 'Sorties filtres horizontaux'
            },
            'performance': {
                'sheets': ['% √©l FV1', '% √©l FV2', '% √©l de la station'],
                'phase': 'Performance',
                'description': 'Donn√©es de performance'
            }
        }
    
    def clean_value(self, x):
        """
        Nettoie une valeur individuelle
        G√®re sp√©cifiquement : <2000, >500, "pas de donn√©e", etc.
        """
        if pd.isna(x):
            return np.nan
        
        if isinstance(x, str):
            x = x.strip()
            
            # G√©rer les valeurs sp√©ciales (valeurs manquantes)
            missing_indicators = ['pas de donn√©e', 'nd', 'n.d.', '-', 'absent', '', 'nan', 'null']
            if any(term in x.lower() for term in missing_indicators):
                return np.nan
            
            # G√©rer les valeurs avec > (ex: ">500" devient 500)
            # Interpr√©tation: valeur minimale possible
            if '>' in x:
                try:
                    numeric_part = x.replace('>', '').strip()
                    return float(numeric_part)
                except ValueError:
                    return np.nan
            
            # G√©rer les valeurs avec < (ex: "<2000" devient 2000) 
            # Interpr√©tation: valeur maximale possible (limite de d√©tection)
            if '<' in x:
                try:
                    numeric_part = x.replace('<', '').strip()
                    return float(numeric_part)
                except ValueError:
                    return np.nan
            
            # G√©rer d'autres formats possibles
            # Retirer les espaces et caract√®res parasites
            x = x.replace(',', '.').replace(' ', '')
            
            # Essayer de convertir en num√©rique
            try:
                return float(x)
            except ValueError:
                # Si ce n'est pas num√©rique, retourner tel quel (texte)
                return x if x else np.nan
        
        return x
    
    def standardize_columns(self, df, sheet_name):
        """
        Standardise les noms de colonnes d'un DataFrame
        """
        df_clean = df.copy()
        
        # Renommer les colonnes selon le mapping
        df_clean.rename(columns=self.column_mapping, inplace=True)
        
        # Ajouter les m√©tadonn√©es
        df_clean['ID_Station'] = 'Sanar_Station'
        df_clean['Nom_Feuille'] = sheet_name
        
        # D√©terminer le type et la phase selon la feuille
        for config_type, config in self.sheet_config.items():
            if sheet_name in config['sheets']:
                df_clean['Phase'] = config['phase']
                if 'type_filtre' in config:
                    df_clean['Type_Filtre'] = config['type_filtre']
                else:
                    df_clean['Type_Filtre'] = 'Non_Applicable'
                break
        
        # Identifier le filtre sp√©cifique
        if 'FV1' in sheet_name:
            df_clean['ID_Filtre'] = 'FV1'
        elif 'FV2' in sheet_name:
            df_clean['ID_Filtre'] = 'FV2'
        elif 'FH' in sheet_name:
            df_clean['ID_Filtre'] = 'FH'
        else:
            df_clean['ID_Filtre'] = 'General'
        
        return df_clean
    
    def process_sheet(self, df, sheet_name):
        """
        Traite une feuille individuelle
        """
        print(f"Traitement de la feuille : {sheet_name}")
        
        # Standardiser les colonnes
        df_processed = self.standardize_columns(df, sheet_name)
        
        # Nettoyer les valeurs (sauf les m√©tadonn√©es)
        metadata_cols = ['ID_Station', 'Nom_Feuille', 'Phase', 'Type_Filtre', 'ID_Filtre']
        
        for col in df_processed.columns:
            if col not in metadata_cols:
                df_processed[col] = df_processed[col].apply(self.clean_value)
        
        # Traiter la date
        if 'Date' in df_processed.columns:
            df_processed['Date'] = pd.to_datetime(df_processed['Date'], errors='coerce')
        
        return df_processed
    
    def create_unified_dataset(self, excel_file_path):
        """
        Cr√©e un dataset unifi√© √† partir du fichier Excel
        """
        print("=== D√âBUT DU PR√âTRAITEMENT UGB ===")
        
        # 1. Charger toutes les feuilles
        try:
            df_dict = pd.read_excel(excel_file_path, sheet_name=None)
            print(f"Nombre de feuilles charg√©es : {len(df_dict)}")
        except Exception as e:
            print(f"Erreur lors du chargement : {e}")
            return None
        
        # 2. Traiter chaque feuille (exclure les feuilles de performance pour l'instant)
        processed_sheets = []
        performance_sheets = []
        
        for sheet_name, data in df_dict.items():
            if sheet_name.startswith('% √©l'):
                # Traiter s√©par√©ment les feuilles de performance
                performance_sheets.append((sheet_name, data))
                continue
            
            try:
                processed_df = self.process_sheet(data, sheet_name)
                processed_sheets.append(processed_df)
                print(f"  ‚úì {sheet_name}: {len(processed_df)} lignes")
            except Exception as e:
                print(f"  ‚úó Erreur avec {sheet_name}: {e}")
        
        # 3. Combiner toutes les feuilles
        if processed_sheets:
            df_unified = pd.concat(processed_sheets, ignore_index=True, sort=False)
            print(f"\nDataset unifi√© cr√©√© : {len(df_unified)} lignes, {len(df_unified.columns)} colonnes")
        else:
            print("Aucune feuille trait√©e avec succ√®s")
            return None
        
        # 4. Analyser les valeurs manquantes
        missing_analysis = self.analyze_missing_values(df_unified)
        
        # 5. G√©rer les valeurs manquantes 
        # CHOISIR UNE SEULE STRAT√âGIE selon vos besoins :
        
        # Option 1 - HYBRID (Recommand√©e - approche intelligente)
        df_unified = self.handle_missing_values(df_unified, strategy='hybrid')
        
        # Option 2 - CONSERVATIVE (d√©commenter si vous voulez garder toutes les donn√©es)
        # df_unified = self.handle_missing_values(df_unified, strategy='conservative')
        
        # Option 3 - AGGRESSIVE (d√©commenter si vous voulez supprimer les colonnes tr√®s incompl√®tes)
        # df_unified = self.handle_missing_values(df_unified, strategy='aggressive')
        
        # Option 4 - INTERPOLATE (d√©commenter si vous voulez interpoler les s√©ries temporelles)  
        # df_unified = self.handle_missing_values(df_unified, strategy='interpolate')
        
        # 6. Post-traitement final
        df_unified = self.post_process(df_unified)
        
        return df_unified, performance_sheets, missing_analysis
    
    def analyze_missing_values(self, df):
        """
        Analyse d√©taill√©e des valeurs manquantes
        """
        print("\n=== ANALYSE DES VALEURS MANQUANTES ===")
        
        # Compter les valeurs manquantes par colonne
        missing_stats = []
        for col in df.columns:
            missing_count = df[col].isnull().sum()
            total_count = len(df)
            missing_pct = (missing_count / total_count) * 100
            
            # Analyser les types de valeurs non-manquantes
            non_missing = df[col].dropna()
            if len(non_missing) > 0:
                if col in ['Date', 'Mois', 'Heure_Echantillon', 'ID_Station', 'Phase', 'Type_Filtre']:
                    data_type = 'M√©tadonn√©e'
                elif non_missing.dtype in ['float64', 'int64']:
                    data_type = 'Num√©rique'
                else:
                    data_type = 'Texte'
            else:
                data_type = 'Vide'
            
            missing_stats.append({
                'Colonne': col,
                'Valeurs_Manquantes': missing_count,
                'Total': total_count,
                'Pourcentage_Manquant': missing_pct,
                'Type_Donnee': data_type
            })
        
        missing_df = pd.DataFrame(missing_stats)
        missing_df = missing_df.sort_values('Pourcentage_Manquant', ascending=False)
        
        # Afficher le top 10 des colonnes avec le plus de valeurs manquantes
        print("Top 10 des colonnes avec le plus de valeurs manquantes :")
        print(missing_df.head(10)[['Colonne', 'Valeurs_Manquantes', 'Pourcentage_Manquant']].to_string(index=False))
        
        # Statistiques globales
        colonnes_numeriques = missing_df[missing_df['Type_Donnee'] == 'Num√©rique']
        if len(colonnes_numeriques) > 0:
            print(f"\nColonnes num√©riques : {len(colonnes_numeriques)}")
            print(f"Valeurs manquantes moyennes (param√®tres num√©riques) : {colonnes_numeriques['Pourcentage_Manquant'].mean():.1f}%")
        
        return missing_df
    
    def handle_missing_values(self, df, strategy='hybrid'):
        """
        G√®re les valeurs manquantes selon diff√©rentes strat√©gies
        
        Strat√©gies :
        - 'conservative' : Garde les NaN, supprime les lignes compl√®tement vides
        - 'aggressive' : Supprime les colonnes avec >80% de valeurs manquantes
        - 'interpolate' : Interpole les valeurs manquantes pour les donn√©es temporelles
        - 'hybrid' : Approche intelligente combin√©e (RECOMMAND√âE)
        """
        print(f"\n=== GESTION DES VALEURS MANQUANTES (strat√©gie: {strategy}) ===")
        
        df_clean = df.copy()
        initial_shape = df_clean.shape
        
        if strategy == 'conservative':
            # Supprimer les lignes compl√®tement vides (toutes les valeurs num√©riques sont NaN)
            numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
            df_clean = df_clean.dropna(subset=numeric_cols, how='all')
            print(f"Lignes compl√®tement vides supprim√©es : {initial_shape[0] - len(df_clean)}")
            
        elif strategy == 'aggressive':
            # Supprimer les colonnes avec plus de 80% de valeurs manquantes
            threshold = 0.8
            cols_to_drop = []
            for col in df_clean.columns:
                if col not in ['ID_Station', 'Phase', 'Type_Filtre', 'Date']:  # Garder les m√©tadonn√©es importantes
                    missing_pct = df_clean[col].isnull().sum() / len(df_clean)
                    if missing_pct > threshold:
                        cols_to_drop.append(col)
            
            df_clean = df_clean.drop(columns=cols_to_drop)
            print(f"Colonnes supprim√©es (>{threshold*100}% manquantes) : {len(cols_to_drop)}")
            if cols_to_drop:
                print(f"Colonnes supprim√©es : {cols_to_drop}")
            
        elif strategy == 'interpolate':
            # Interpolation pour les donn√©es temporelles
            if 'Date' in df_clean.columns:
                df_clean = df_clean.sort_values('Date')
                numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
                
                for col in numeric_cols:
                    if col.endswith('_mg_L') or col.endswith('_C') or col.endswith('_pct'):
                        # Interpolation lin√©aire pour les param√®tres de qualit√©
                        df_clean[col] = df_clean.groupby(['Phase', 'ID_Filtre'])[col].transform(
                            lambda x: x.interpolate(method='linear', limit=2)
                        )
        
        elif strategy == 'hybrid':
            # APPROCHE HYBRIDE - La meilleure pour les donn√©es de qualit√© d'eau
            print("Approche hybride intelligente...")
            
            # √âtape 1: Supprimer les lignes compl√®tement vides
            numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
            rows_before = len(df_clean)
            df_clean = df_clean.dropna(subset=numeric_cols, how='all')
            rows_removed = rows_before - len(df_clean)
            print(f"  ‚Üí Lignes vides supprim√©es : {rows_removed}")
            
            # √âtape 2: Identifier les colonnes tr√®s probl√©matiques (>95% manquantes)
            very_empty_cols = []
            for col in df_clean.columns:
                if col not in ['ID_Station', 'Phase', 'Type_Filtre', 'Date', 'Mois']:
                    missing_pct = df_clean[col].isnull().sum() / len(df_clean)
                    if missing_pct > 0.95:  # Plus strict que aggressive
                        very_empty_cols.append(col)
            
            if very_empty_cols:
                df_clean = df_clean.drop(columns=very_empty_cols)
                print(f"  ‚Üí Colonnes quasi-vides supprim√©es (>95% manquantes) : {len(very_empty_cols)}")
                print(f"    Colonnes : {very_empty_cols}")
            
            # √âtape 3: Interpolation douce pour les param√®tres physiques stables (pH, Temp√©rature)
            stable_params = ['Temperature_C', 'pH', 'Conductivite_uS_cm']
            interpolated_count = 0
            
            for param in stable_params:
                if param in df_clean.columns and 'Date' in df_clean.columns:
                    # Interpolation seulement si max 1 valeur manquante cons√©cutive
                    df_clean = df_clean.sort_values(['Date', 'Phase', 'ID_Filtre'])
                    original_nulls = df_clean[param].isnull().sum()
                    
                    df_clean[param] = df_clean.groupby(['Phase', 'ID_Filtre'])[param].transform(
                        lambda x: x.interpolate(method='linear', limit=1)  # Max 1 trou
                    )
                    
                    final_nulls = df_clean[param].isnull().sum()
                    if original_nulls > final_nulls:
                        interpolated_count += (original_nulls - final_nulls)
            
            if interpolated_count > 0:
                print(f"  ‚Üí Valeurs interpol√©es (param√®tres stables) : {interpolated_count}")
            
            # √âtape 4: Marquer les valeurs estim√©es vs mesur√©es
            df_clean['Contient_Valeurs_Estimees'] = False
            for col in df_clean.select_dtypes(include=[np.number]).columns:
                if col not in ['ID_Station']:
                    # Marquer les lignes o√π au moins 30% des param√®tres principaux sont manquants
                    main_params = ['DBO5_mg_L', 'DCO_mg_L', 'MES_mg_L', 'pH', 'Temperature_C']
                    available_main = [p for p in main_params if p in df_clean.columns]
                    
                    if available_main:
                        missing_main = df_clean[available_main].isnull().sum(axis=1)
                        df_clean.loc[missing_main >= len(available_main) * 0.3, 'Contient_Valeurs_Estimees'] = True
        
        final_shape = df_clean.shape
        print(f"Shape avant : {initial_shape}")
        print(f"Shape apr√®s : {final_shape}")
        print(f"Donn√©es conserv√©es : {(final_shape[0]/initial_shape[0]*100):.1f}% des lignes, "
              f"{(final_shape[1]/initial_shape[1]*100):.1f}% des colonnes")
        
        return df_clean
        """
        Post-traitement du dataset unifi√©
        """
        print("\n=== POST-TRAITEMENT ===")
        
        # R√©organiser les colonnes
        priority_cols = ['ID_Station', 'Phase', 'Type_Filtre', 'ID_Filtre', 'Date', 'Mois', 'Heure_Echantillon']
        other_cols = [col for col in df.columns if col not in priority_cols]
        df = df[priority_cols + other_cols]
        
        # Trier par date
        if 'Date' in df.columns:
            df = df.sort_values(['Date', 'Phase', 'ID_Filtre']).reset_index(drop=True)
        
        # Statistiques de nettoyage
        total_cells = df.shape[0] * df.shape[1]
        missing_cells = df.isnull().sum().sum()
        missing_pct = (missing_cells / total_cells) * 100
        
        print(f"Donn√©es manquantes : {missing_cells}/{total_cells} ({missing_pct:.1f}%)")
        
        # R√©sum√© par phase
        phase_summary = df.groupby('Phase').size()
        print("R√©partition par phase :")
        for phase, count in phase_summary.items():
            print(f"  - {phase}: {count} lignes")
        
        return df
    
    def create_performance_analysis(self, df_unified, performance_sheets):
        """
        Analyse les donn√©es de performance si disponibles
        """
        print("\n=== ANALYSE DES PERFORMANCES ===")
        
        # Cr√©er des paires entr√©e-sortie pour calcul des rendements
        paires_filtres = {
            'FV1': {
                'entree': df_unified[(df_unified['Phase'] == 'Entree') & 
                                   (df_unified['ID_Filtre'].isin(['FV1', 'General']))],
                'sortie': df_unified[(df_unified['Phase'] == 'Sortie') & 
                                   (df_unified['ID_Filtre'] == 'FV1')]
            },
            'FV2': {
                'entree': df_unified[(df_unified['Phase'] == 'Entree') & 
                                   (df_unified['ID_Filtre'].isin(['FV2', 'General']))],
                'sortie': df_unified[(df_unified['Phase'] == 'Sortie') & 
                                   (df_unified['ID_Filtre'] == 'FV2')]
            }
        }
        
        performance_results = []
        
        for filtre_id, data in paires_filtres.items():
            if len(data['entree']) > 0 and len(data['sortie']) > 0:
                print(f"Calcul des rendements pour {filtre_id}")
                
                # Fusionner entr√©e et sortie sur la date
                merged = pd.merge(
                    data['entree'], 
                    data['sortie'], 
                    on='Date', 
                    suffixes=('_entree', '_sortie'),
                    how='inner'
                )
                
                if len(merged) > 0:
                    # Calculer les rendements pour les param√®tres cl√©s
                    parametres = ['DBO5_mg_L', 'DCO_mg_L', 'MES_mg_L', 'Azote_Total_mg_L', 'Phosphates_mg_L']
                    
                    for param in parametres:
                        col_entree = f"{param}_entree"
                        col_sortie = f"{param}_sortie"
                        
                        if col_entree in merged.columns and col_sortie in merged.columns:
                            merged[f"Rendement_{param.replace('_mg_L', '')}_pct"] = (
                                (merged[col_entree] - merged[col_sortie]) / 
                                merged[col_entree] * 100
                            ).round(2)
                    
                    performance_results.append(merged)
        
        return performance_results

def main():
    """
    Fonction principale
    """
    # V√©rifier que le fichier existe
    excel_file = "Excel donn√©s qualit√© UGB.xlsx"
    
    if not Path(excel_file).exists():
        print(f"‚ùå ERREUR : Fichier '{excel_file}' introuvable !")
        print("üìÅ Fichiers Excel trouv√©s dans le r√©pertoire actuel :")
        excel_files = list(Path('.').glob('*.xlsx'))
        if excel_files:
            for i, file in enumerate(excel_files, 1):
                print(f"   {i}. {file.name}")
            print("\nüí° Conseil : V√©rifiez le nom exact du fichier ci-dessus")
        else:
            print("   Aucun fichier .xlsx trouv√©")
        return
    
    # Initialiser le processeur
    processor = UGBDataProcessor()
    
    # Traiter les donn√©es
    result = processor.create_unified_dataset(excel_file)
    
    if result is None:
        print("√âchec du traitement")
        return
    
    df_unified, performance_sheets, missing_analysis = result
    
    # Afficher un aper√ßu
    print("\n=== APER√áU DU DATASET FINAL ===")
    print(f"Shape: {df_unified.shape}")
    print("\nPremi√®res lignes :")
    print(df_unified.head())
    
    print("\nColonnes disponibles :")
    for i, col in enumerate(df_unified.columns):
        print(f"{i+1:2d}. {col}")
    
    # Sauvegarder le dataset principal en CSV
    output_file_csv = "UGB_Sanar_Station_Dataset_Clean.csv"
    df_unified.to_csv(output_file_csv, index=False, encoding='utf-8')
    print(f"‚úì Dataset principal sauvegard√© : {output_file_csv}")
    
    # Sauvegarder l'analyse des valeurs manquantes en CSV
    missing_file_csv = "UGB_Missing_Values_Analysis.csv"
    missing_analysis.to_csv(missing_file_csv, index=False, encoding='utf-8')
    print(f"‚úì Analyse des valeurs manquantes : {missing_file_csv}")
    
    # Analyser les performances si demand√©
    performance_results = processor.create_performance_analysis(df_unified, performance_sheets)
    
    if performance_results:
        df_performance = pd.concat(performance_results, ignore_index=True)
        performance_file_csv = "UGB_Performance_Analysis.csv"
        df_performance.to_csv(performance_file_csv, index=False, encoding='utf-8')
        print(f"‚úì Analyse des performances : {performance_file_csv}")
    
    print("\n=== TRAITEMENT TERMIN√â ===")

if __name__ == "__main__":
    main()

=== D√âBUT DU PR√âTRAITEMENT UGB ===
Nombre de feuilles charg√©es : 13
Traitement de la feuille : Entree 1
  ‚úì Entree 1: 19 lignes
Traitement de la feuille : Entree FV1
  ‚úì Entree FV1: 19 lignes
Traitement de la feuille : SFV1a
  ‚úì SFV1a: 19 lignes
Traitement de la feuille : SFV1b
  ‚úì SFV1b: 19 lignes
Traitement de la feuille : SFV1c
  ‚úì SFV1c: 19 lignes
Traitement de la feuille : Entr√©√© FV2
  ‚úì Entr√©√© FV2: 19 lignes
Traitement de la feuille : SFV2a
  ‚úì SFV2a: 19 lignes
Traitement de la feuille : SFV2b
  ‚úì SFV2b: 19 lignes
Traitement de la feuille : SFHa
  ‚úì SFHa: 19 lignes
Traitement de la feuille : SFHb
  ‚úì SFHb: 19 lignes

Dataset unifi√© cr√©√© : 190 lignes, 34 colonnes

=== ANALYSE DES VALEURS MANQUANTES ===
Top 10 des colonnes avec le plus de valeurs manquantes :
       Colonne  Valeurs_Manquantes  Pourcentage_Manquant
ENTREE station                 190                 100.0
    Unnamed: 2                 190                 100.0
    Entr√©e FV1          

AttributeError: 'UGBDataProcessor' object has no attribute 'post_process'

In [18]:
import pandas as pd
import numpy as np
from datetime import datetime
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

class UGBDataProcessor:
    """
    Classe pour le pr√©traitement des donn√©es de qualit√© d'eau UGB
    """
    
    def __init__(self):
        # Mapping pour uniformiser les noms de colonnes
        self.column_mapping = {
            # Colonnes temporelles
            'Mois': 'Mois',
            'Data': 'Date',
            'Heure echantillon ': 'Heure_Echantillon',
            'Heure echantillon /observations': 'Heure_Echantillon',
            
            # Param√®tres hydrauliques
            'Debit entree (m3/jour)': 'Debit_Entree_m3_jour',
            'Charge hydraulique (cm/jour)': 'Charge_Hydraulique_cm_jour',
            
            # Param√®tres physico-chimiques
            'Temperature (¬∫C)': 'Temperature_C',
            'pH': 'pH',
            'CE (¬µSm/cm)': 'Conductivite_uS_cm',
            'CE (¬µsm/cm)': 'Conductivite_uS_cm',
            'Redox': 'Potentiel_Redox_mV',
            
            # Param√®tres de pollution
            'DBO5 (mg/L)': 'DBO5_mg_L',
            'DCO (mg/L)': 'DCO_mg_L',
            'MeS (mg/L)': 'MES_mg_L',
            'MVS (%)': 'MVS_pct',
            
            # Param√®tres azot√©s (TOUTES LES VARIANTES vers le m√™me nom)
            'Nitrates (mgNO3-/l)': 'Nitrates_mg_L',
            'Ammonium (mgNH4-/l) ': 'Ammonium_mg_L',
            'Azot total (mgN/l)': 'Azote_Total_mg_L',      # Variante 1
            'Azote total (mgN/l)': 'Azote_Total_mg_L',     # Variante 2 
            'Azote toal (mgN/l)': 'Azote_Total_mg_L',      # Variante 3 (typo)
            
            # Param√®tres phosphor√©s
            'Phosphates (mgPO4-/l)': 'Phosphates_mg_L',
            
            # Param√®tres microbiologiques
            'Coliformes f√©caux (CFU/100ml)': 'Coliformes_Fecaux_CFU_100ml',
            'Oeufs helmint': 'Oeufs_Helminthes',
            
            # Autres
            'Huiles et graisses': 'Huiles_Graisses',
            'Op√©ration': 'Operation',
            'Observation': 'Observations'
        }
        
        # D√©finition des types de feuilles et leurs caract√©ristiques
        self.sheet_config = {
            'entree': {
                'sheets': ['Entree 1', 'Entree FV1', 'Entr√©√© FV2'],
                'phase': 'Entree',
                'description': 'Eaux d\'entr√©e'
            },
            'sortie_fv': {
                'sheets': ['SFV1a', 'SFV1b', 'SFV1c', 'SFV2a', 'SFV2b'],
                'phase': 'Sortie',
                'type_filtre': 'Filtre_Vertical',
                'description': 'Sorties filtres verticaux'
            },
            'sortie_fh': {
                'sheets': ['SFHa', 'SFHb'],
                'phase': 'Sortie',
                'type_filtre': 'Filtre_Horizontal',
                'description': 'Sorties filtres horizontaux'
            },
            'performance': {
                'sheets': ['% √©l FV1', '% √©l FV2', '% √©l de la station'],
                'phase': 'Performance',
                'description': 'Donn√©es de performance'
            }
        }
    
    def clean_value(self, x):
        """
        Nettoie une valeur individuelle
        G√®re sp√©cifiquement : <2000, >500, "pas de donn√©e", etc.
        """
        if pd.isna(x):
            return np.nan
        
        if isinstance(x, str):
            x = x.strip()
            
            # G√©rer les valeurs sp√©ciales (valeurs manquantes)
            missing_indicators = ['pas de donn√©e', 'nd', 'n.d.', '-', 'absent', '', 'nan', 'null']
            if any(term in x.lower() for term in missing_indicators):
                return np.nan
            
            # G√©rer les valeurs avec > (ex: ">500" devient 500)
            # Interpr√©tation: valeur minimale possible
            if '>' in x:
                try:
                    numeric_part = x.replace('>', '').strip()
                    return float(numeric_part)
                except ValueError:
                    return np.nan
            
            # G√©rer les valeurs avec < (ex: "<2000" devient 2000) 
            # Interpr√©tation: valeur maximale possible (limite de d√©tection)
            if '<' in x:
                try:
                    numeric_part = x.replace('<', '').strip()
                    return float(numeric_part)
                except ValueError:
                    return np.nan
            
            # G√©rer d'autres formats possibles
            # Retirer les espaces et caract√®res parasites
            x = x.replace(',', '.').replace(' ', '')
            
            # Essayer de convertir en num√©rique
            try:
                return float(x)
            except ValueError:
                # Si ce n'est pas num√©rique, retourner tel quel (texte)
                return x if x else np.nan
        
        return x
    
    def standardize_columns(self, df, sheet_name):
        """
        Standardise les noms de colonnes d'un DataFrame
        """
        df_clean = df.copy()
        
        # Renommer les colonnes selon le mapping
        df_clean.rename(columns=self.column_mapping, inplace=True)
        
        # Ajouter les m√©tadonn√©es
        df_clean['ID_Station'] = 'Sanar_Station'
        df_clean['Nom_Feuille'] = sheet_name
        
        # D√©terminer le type et la phase selon la feuille
        for config_type, config in self.sheet_config.items():
            if sheet_name in config['sheets']:
                df_clean['Phase'] = config['phase']
                if 'type_filtre' in config:
                    df_clean['Type_Filtre'] = config['type_filtre']
                else:
                    df_clean['Type_Filtre'] = 'Non_Applicable'
                break
        
        # Identifier le filtre sp√©cifique
        if 'FV1' in sheet_name:
            df_clean['ID_Filtre'] = 'FV1'
        elif 'FV2' in sheet_name:
            df_clean['ID_Filtre'] = 'FV2'
        elif 'FH' in sheet_name:
            df_clean['ID_Filtre'] = 'FH'
        else:
            df_clean['ID_Filtre'] = 'General'
        
        return df_clean
    
    def process_sheet(self, df, sheet_name):
        """
        Traite une feuille individuelle
        """
        print(f"Traitement de la feuille : {sheet_name}")
        
        # Standardiser les colonnes
        df_processed = self.standardize_columns(df, sheet_name)
        
        # Nettoyer les valeurs (sauf les m√©tadonn√©es)
        metadata_cols = ['ID_Station', 'Nom_Feuille', 'Phase', 'Type_Filtre', 'ID_Filtre']
        
        for col in df_processed.columns:
            if col not in metadata_cols:
                df_processed[col] = df_processed[col].apply(self.clean_value)
        
        # Traiter la date
        if 'Date' in df_processed.columns:
            df_processed['Date'] = pd.to_datetime(df_processed['Date'], errors='coerce')
        
        return df_processed
    
    def analyze_missing_values(self, df):
        """
        Analyse d√©taill√©e des valeurs manquantes
        """
        print("\n=== ANALYSE DES VALEURS MANQUANTES ===")
        
        # Compter les valeurs manquantes par colonne
        missing_stats = []
        for col in df.columns:
            missing_count = df[col].isnull().sum()
            total_count = len(df)
            missing_pct = (missing_count / total_count) * 100
            
            # Analyser les types de valeurs non-manquantes
            non_missing = df[col].dropna()
            if len(non_missing) > 0:
                if col in ['Date', 'Mois', 'Heure_Echantillon', 'ID_Station', 'Phase', 'Type_Filtre']:
                    data_type = 'M√©tadonn√©e'
                elif non_missing.dtype in ['float64', 'int64']:
                    data_type = 'Num√©rique'
                else:
                    data_type = 'Texte'
            else:
                data_type = 'Vide'
            
            missing_stats.append({
                'Colonne': col,
                'Valeurs_Manquantes': missing_count,
                'Total': total_count,
                'Pourcentage_Manquant': missing_pct,
                'Type_Donnee': data_type
            })
        
        missing_df = pd.DataFrame(missing_stats)
        missing_df = missing_df.sort_values('Pourcentage_Manquant', ascending=False)
        
        # Afficher le top 10 des colonnes avec le plus de valeurs manquantes
        print(" 10 des colonnes avec le plus de valeurs manquantes :")
        print(missing_df.head(10)[['Colonne', 'Valeurs_Manquantes', 'Pourcentage_Manquant']].to_string(index=False))
        
        # Statistiques globales
        colonnes_numeriques = missing_df[missing_df['Type_Donnee'] == 'Num√©rique']
        if len(colonnes_numeriques) > 0:
            print(f"\nColonnes num√©riques : {len(colonnes_numeriques)}")
            print(f"Valeurs manquantes moyennes (param√®tres num√©riques) : {colonnes_numeriques['Pourcentage_Manquant'].mean():.1f}%")
        
        return missing_df
    
    def handle_missing_values(self, df, strategy='hybrid'):
        """
        G√®re les valeurs manquantes selon diff√©rentes strat√©gies
        """
        print(f"\n=== GESTION DES VALEURS MANQUANTES (strat√©gie: {strategy}) ===")
        
        df_clean = df.copy()
        initial_shape = df_clean.shape
        
        if strategy == 'conservative':
            # Supprimer les lignes compl√®tement vides (toutes les valeurs num√©riques sont NaN)
            numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
            df_clean = df_clean.dropna(subset=numeric_cols, how='all')
            print(f"Lignes compl√®tement vides supprim√©es : {initial_shape[0] - len(df_clean)}")
            
        elif strategy == 'aggressive':
            # Supprimer les colonnes avec plus de 80% de valeurs manquantes
            threshold = 0.8
            cols_to_drop = []
            for col in df_clean.columns:
                if col not in ['ID_Station', 'Phase', 'Type_Filtre', 'Date']:  # Garder les m√©tadonn√©es importantes
                    missing_pct = df_clean[col].isnull().sum() / len(df_clean)
                    if missing_pct > threshold:
                        cols_to_drop.append(col)
            
            df_clean = df_clean.drop(columns=cols_to_drop)
            print(f"Colonnes supprim√©es (>{threshold*100}% manquantes) : {len(cols_to_drop)}")
            if cols_to_drop:
                print(f"Colonnes supprim√©es : {cols_to_drop}")
                
        elif strategy == 'hybrid':
            # APPROCHE HYBRIDE - La meilleure pour les donn√©es de qualit√© d'eau
            print("Approche hybride intelligente...")
            
            # √âtape 1: Supprimer les lignes compl√®tement vides
            numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
            rows_before = len(df_clean)
            df_clean = df_clean.dropna(subset=numeric_cols, how='all')
            rows_removed = rows_before - len(df_clean)
            print(f"  ‚Üí Lignes vides supprim√©es : {rows_removed}")
            
            # √âtape 2: Identifier les colonnes tr√®s probl√©matiques (>95% manquantes)
            very_empty_cols = []
            for col in df_clean.columns:
                if col not in ['ID_Station', 'Phase', 'Type_Filtre', 'Date', 'Mois']:
                    missing_pct = df_clean[col].isnull().sum() / len(df_clean)
                    if missing_pct > 0.95:  # Plus strict que aggressive
                        very_empty_cols.append(col)
            
            if very_empty_cols:
                df_clean = df_clean.drop(columns=very_empty_cols)
                print(f"  ‚Üí Colonnes quasi-vides supprim√©es (>95% manquantes) : {len(very_empty_cols)}")
                print(f"    Colonnes : {very_empty_cols}")
            
            # √âtape 3: Interpolation douce pour les param√®tres physiques stables
            stable_params = ['Temperature_C', 'pH', 'Conductivite_uS_cm']
            interpolated_count = 0
            
            for param in stable_params:
                if param in df_clean.columns and 'Date' in df_clean.columns:
                    # Interpolation seulement si max 1 valeur manquante cons√©cutive
                    df_clean = df_clean.sort_values(['Date', 'Phase', 'ID_Filtre'])
                    original_nulls = df_clean[param].isnull().sum()
                    
                    df_clean[param] = df_clean.groupby(['Phase', 'ID_Filtre'])[param].transform(
                        lambda x: x.interpolate(method='linear', limit=1)  # Max 1 trou
                    )
                    
                    final_nulls = df_clean[param].isnull().sum()
                    if original_nulls > final_nulls:
                        interpolated_count += (original_nulls - final_nulls)
            
            if interpolated_count > 0:
                print(f"  ‚Üí Valeurs interpol√©es (param√®tres stables) : {interpolated_count}")
            
            # √âtape 4: Marquer les valeurs estim√©es vs mesur√©es
            df_clean['Contient_Valeurs_Estimees'] = False
            main_params = ['DBO5_mg_L', 'DCO_mg_L', 'MES_mg_L', 'pH', 'Temperature_C']
            available_main = [p for p in main_params if p in df_clean.columns]
            
            if available_main:
                missing_main = df_clean[available_main].isnull().sum(axis=1)
                df_clean.loc[missing_main >= len(available_main) * 0.3, 'Contient_Valeurs_Estimees'] = True
        
        final_shape = df_clean.shape
        print(f"Shape avant : {initial_shape}")
        print(f"Shape apr√®s : {final_shape}")
        print(f"Donn√©es conserv√©es : {(final_shape[0]/initial_shape[0]*100):.1f}% des lignes, "
              f"{(final_shape[1]/initial_shape[1]*100):.1f}% des colonnes")
        
        return df_clean

    def post_process(self, df):
        """
        Post-traitement du dataset unifi√©
        """
        print("\n=== POST-TRAITEMENT ===")
        
        # R√©organiser les colonnes par ordre de priorit√©
        priority_cols = ['ID_Station', 'Phase', 'Type_Filtre', 'ID_Filtre', 'Date', 'Mois', 'Heure_Echantillon']
        available_priority = [col for col in priority_cols if col in df.columns]
        other_cols = [col for col in df.columns if col not in priority_cols]
        df = df[available_priority + other_cols]
        
        # Trier par date si possible
        if 'Date' in df.columns:
            df = df.sort_values(['Date', 'Phase', 'ID_Filtre']).reset_index(drop=True)
        
        # Statistiques de nettoyage finales
        total_cells = df.shape[0] * df.shape[1]
        missing_cells = df.isnull().sum().sum()
        missing_pct = (missing_cells / total_cells) * 100
        
        print(f"Donn√©es manquantes finales : {missing_cells}/{total_cells} ({missing_pct:.1f}%)")
        
        # R√©sum√© par phase
        if 'Phase' in df.columns:
            phase_summary = df.groupby('Phase').size()
            print("R√©partition par phase :")
            for phase, count in phase_summary.items():
                print(f"  - {phase}: {count} lignes")
        
        return df
    
    def create_unified_dataset(self, excel_file_path):
        """
        Cr√©e un dataset unifi√© √† partir du fichier Excel
        """
        print("=== D√âBUT DU PR√âTRAITEMENT UGB ===")
        
        # 1. Charger toutes les feuilles
        try:
            df_dict = pd.read_excel(excel_file_path, sheet_name=None, header=3)

            print(f"Nombre de feuilles charg√©es : {len(df_dict)}")
        except Exception as e:
            print(f"Erreur lors du chargement : {e}")
            return None
        
        # 2. Traiter chaque feuille (exclure les feuilles de performance pour l'instant)
        processed_sheets = []
        performance_sheets = []
        
        for sheet_name, data in df_dict.items():
            if sheet_name.startswith('% √©l'):
                # Traiter s√©par√©ment les feuilles de performance
                performance_sheets.append((sheet_name, data))
                continue
            
            try:
                processed_df = self.process_sheet(data, sheet_name)
                processed_sheets.append(processed_df)
                print(f"  ‚úì {sheet_name}: {len(processed_df)} lignes")
            except Exception as e:
                print(f"  ‚úó Erreur avec {sheet_name}: {e}")
        
        # 3. Combiner toutes les feuilles
        if processed_sheets:
            df_unified = pd.concat(processed_sheets, ignore_index=True, sort=False)
            print(f"\nDataset unifi√© cr√©√© : {len(df_unified)} lignes, {len(df_unified.columns)} colonnes")
        else:
            print("Aucune feuille trait√©e avec succ√®s")
            return None
        
        # 4. Analyser les valeurs manquantes
        missing_analysis = self.analyze_missing_values(df_unified)
        
        # 5. G√©rer les valeurs manquantes avec strat√©gie hybrid
        df_unified = self.handle_missing_values(df_unified, strategy='hybrid')
        
        # 6. Post-traitement final
        df_unified = self.post_process(df_unified)
        
        return df_unified, performance_sheets, missing_analysis

    def create_performance_analysis(self, df_unified, performance_sheets):
        """
        Analyse les donn√©es de performance si disponibles
        """
        print("\n=== ANALYSE DES PERFORMANCES ===")
        
        # Cr√©er des paires entr√©e-sortie pour calcul des rendements
        paires_filtres = {
            'FV1': {
                'entree': df_unified[(df_unified['Phase'] == 'Entree') & 
                                   (df_unified['ID_Filtre'].isin(['FV1', 'General']))],
                'sortie': df_unified[(df_unified['Phase'] == 'Sortie') & 
                                   (df_unified['ID_Filtre'] == 'FV1')]
            },
            'FV2': {
                'entree': df_unified[(df_unified['Phase'] == 'Entree') & 
                                   (df_unified['ID_Filtre'].isin(['FV2', 'General']))],
                'sortie': df_unified[(df_unified['Phase'] == 'Sortie') & 
                                   (df_unified['ID_Filtre'] == 'FV2')]
            }
        }
        
        performance_results = []
        
        for filtre_id, data in paires_filtres.items():
            if len(data['entree']) > 0 and len(data['sortie']) > 0:
                print(f"Calcul des rendements pour {filtre_id}")
                
                # Fusionner entr√©e et sortie sur la date
                merged = pd.merge(
                    data['entree'], 
                    data['sortie'], 
                    on='Date', 
                    suffixes=('_entree', '_sortie'),
                    how='inner'
                )
                
                if len(merged) > 0:
                    # Calculer les rendements pour les param√®tres cl√©s
                    parametres = ['DBO5_mg_L', 'DCO_mg_L', 'MES_mg_L', 'Azote_Total_mg_L', 'Phosphates_mg_L']
                    
                    for param in parametres:
                        col_entree = f"{param}_entree"
                        col_sortie = f"{param}_sortie"
                        
                        if col_entree in merged.columns and col_sortie in merged.columns:
                            merged[f"Rendement_{param.replace('_mg_L', '')}_pct"] = (
                                (merged[col_entree] - merged[col_sortie]) / 
                                merged[col_entree] * 100
                            ).round(2)
                    
                    performance_results.append(merged)
        
        return performance_results

def main():
    """
    Fonction principale
    """
    # V√©rifier que le fichier existe
    excel_file = "Excel donn√©s qualit√© UGB.xlsx"
    
    if not Path(excel_file).exists():
        print(f"‚ùå ERREUR : Fichier '{excel_file}' introuvable !")
        print("üìÅ Fichiers Excel trouv√©s dans le r√©pertoire actuel :")
        excel_files = list(Path('.').glob('*.xlsx'))
        if excel_files:
            for i, file in enumerate(excel_files, 1):
                print(f"   {i}. {file.name}")
            print("\nüí° Conseil : V√©rifiez le nom exact du fichier ci-dessus")
        else:
            print("   Aucun fichier .xlsx trouv√©")
        return
    
    # Initialiser le processeur
    processor = UGBDataProcessor()
    
    # Traiter les donn√©es
    result = processor.create_unified_dataset(excel_file)
    
    if result is None:
        print("√âchec du traitement")
        return
    
    # CORRECTION: R√©cup√©rer les r√©sultats AVANT le diagnostic
    df_unified, performance_sheets, missing_analysis = result
    
    # Afficher un aper√ßu
    print("\n=== APER√áU DU DATASET FINAL ===")
    print(f"Shape: {df_unified.shape}")
    print("\nPremi√®res lignes :")
    print(df_unified.head())
    
    print("\nColonnes disponibles :")
    for i, col in enumerate(df_unified.columns):
        print(f"{i+1:2d}. {col}")
    
    # Sauvegarder le dataset principal en CSV
    output_file_csv = "UGB_Sanar_Station_Dataset_Clean.csv"
    df_unified.to_csv(output_file_csv, index=False, encoding='utf-8')
    print(f"‚úì Dataset principal sauvegard√© : {output_file_csv}")
    
    # Sauvegarder l'analyse des valeurs manquantes en CSV
    missing_file_csv = "UGB_Missing_Values_Analysis.csv"
    missing_analysis.to_csv(missing_file_csv, index=False, encoding='utf-8')
    print(f"‚úì Analyse des valeurs manquantes : {missing_file_csv}")
    
    # DIAGNOSTIC AVANT L'ANALYSE DE PERFORMANCE
    print("\n=== DIAGNOSTIC AVANT PERFORMANCE ===")
    print(f"Colonnes dans df_unified : {list(df_unified.columns)}")
    if 'Date' in df_unified.columns:
        print(f"Dates valides : {df_unified['Date'].notna().sum()}/{len(df_unified)}")
        
        # V√©rifier les phases et filtres
        if 'Phase' in df_unified.columns:
            print(f"Phases disponibles : {df_unified['Phase'].unique()}")
        if 'ID_Filtre' in df_unified.columns:
            print(f"Filtres disponibles : {df_unified['ID_Filtre'].unique()}")
            
        # V√©rifier les donn√©es par phase/filtre
        if 'Phase' in df_unified.columns and 'ID_Filtre' in df_unified.columns:
            entree_data = df_unified[df_unified['Phase'] == 'Entree']
            sortie_data = df_unified[df_unified['Phase'] == 'Sortie']
            print(f"Donn√©es d'entr√©e : {len(entree_data)} lignes")
            print(f"Donn√©es de sortie : {len(sortie_data)} lignes")
            
            # D√©tail par filtre
            for filtre_id in ['FV1', 'FV2']:
                entree_filtre = entree_data[entree_data['ID_Filtre'].isin([filtre_id, 'General'])]
                sortie_filtre = sortie_data[sortie_data['ID_Filtre'] == filtre_id]
                print(f"  - {filtre_id}: {len(entree_filtre)} entr√©es, {len(sortie_filtre)} sorties")
    else:
        print("‚ùå Colonne 'Date' manquante !")
        print("Le probl√®me est dans le mapping des colonnes ou le traitement des feuilles.")
        return
    
    # Analyser les performances si demand√©
    try:
        performance_results = processor.create_performance_analysis(df_unified, performance_sheets)
        
        if performance_results:
            df_performance = pd.concat(performance_results, ignore_index=True)
            performance_file_csv = "UGB_Performance_Analysis.csv"
            df_performance.to_csv(performance_file_csv, index=False, encoding='utf-8')
            print(f"‚úì Analyse des performances : {performance_file_csv}")
        else:
            print("‚ö† Aucune analyse de performance g√©n√©r√©e")
            
    except Exception as e:
        print(f"‚ùå Erreur lors de l'analyse de performance : {e}")
        import traceback
        traceback.print_exc()
    
    print("\n=== TRAITEMENT TERMIN√â ===")


# Version alternative avec gestion d'erreur plus robuste
def main_with_error_handling():
    """
    Version alternative de main() avec gestion d'erreur robuste
    """
    try:
        # V√©rifier que le fichier existe
        excel_file = "Excel donn√©s qualit√© UGB.xlsx"
        
        if not Path(excel_file).exists():
            print(f"‚ùå ERREUR : Fichier '{excel_file}' introuvable !")
            return
        
        # Initialiser le processeur
        processor = UGBDataProcessor()
        
        # Traiter les donn√©es
        print("=== D√âBUT DU TRAITEMENT ===")
        result = processor.create_unified_dataset(excel_file)
        
        if result is None:
            print("‚ùå √âchec du traitement des donn√©es")
            return
        
        df_unified, performance_sheets, missing_analysis = result
        
        # V√©rifications de s√©curit√©
        if df_unified is None or len(df_unified) == 0:
            print("‚ùå Dataset vide apr√®s traitement")
            return
        
        print(f"‚úÖ Dataset trait√© avec succ√®s : {df_unified.shape}")
        
        # Diagnostic d√©taill√©
        print("\n=== DIAGNOSTIC D√âTAILL√â ===")
        print("Colonnes critiques :")
        critical_cols = ['Date', 'Phase', 'ID_Filtre', 'Type_Filtre']
        for col in critical_cols:
            if col in df_unified.columns:
                non_null = df_unified[col].notna().sum()
                print(f"  ‚úÖ {col}: {non_null}/{len(df_unified)} valeurs")
                if col in ['Phase', 'ID_Filtre']:
                    print(f"      Valeurs uniques: {list(df_unified[col].dropna().unique())}")
            else:
                print(f"  ‚ùå {col}: MANQUANTE")
        
        # Sauvegardes
        try:
            output_file_csv = "UGB_Sanar_Station_Dataset_Clean.csv"
            df_unified.to_csv(output_file_csv, index=False, encoding='utf-8')
            print(f"\n‚úÖ Dataset sauvegard√© : {output_file_csv}")
            
            missing_file_csv = "UGB_Missing_Values_Analysis.csv"
            missing_analysis.to_csv(missing_file_csv, index=False, encoding='utf-8')
            print(f"‚úÖ Analyse missing values : {missing_file_csv}")
            
        except Exception as e:
            print(f"‚ùå Erreur lors de la sauvegarde : {e}")
        
        # Analyse de performance (optionnelle)
        if 'Date' in df_unified.columns and 'Phase' in df_unified.columns:
            print("\n=== TENTATIVE D'ANALYSE DE PERFORMANCE ===")
            try:
                performance_results = processor.create_performance_analysis(df_unified, performance_sheets)
                
                if performance_results and len(performance_results) > 0:
                    df_performance = pd.concat(performance_results, ignore_index=True)
                    performance_file_csv = "UGB_Performance_Analysis.csv"
                    df_performance.to_csv(performance_file_csv, index=False, encoding='utf-8')
                    print(f"‚úÖ Analyse de performance : {performance_file_csv}")
                else:
                    print("‚ö† Aucune donn√©e de performance g√©n√©r√©e")
                    
            except Exception as e:
                print(f"‚ö† √âchec de l'analyse de performance (non critique) : {e}")
        else:
            print("‚ö† Analyse de performance ignor√©e (colonnes manquantes)")
        
        print("\nüéâ TRAITEMENT TERMIN√â AVEC SUCC√àS")
        
    except Exception as e:
        print(f"‚ùå ERREUR CRITIQUE : {e}")
        import traceback
        traceback.print_exc()


if __name__ == "__main__":
    # Choisissez la version que vous pr√©f√©rez
    main()  # Version avec diagnostic
    # main_with_error_handling()  # Version ultra-robuste

=== D√âBUT DU PR√âTRAITEMENT UGB ===
Nombre de feuilles charg√©es : 13
Traitement de la feuille : Entree 1
  ‚úì Entree 1: 16 lignes
Traitement de la feuille : Entree FV1
  ‚úì Entree FV1: 16 lignes
Traitement de la feuille : SFV1a
  ‚úì SFV1a: 16 lignes
Traitement de la feuille : SFV1b
  ‚úì SFV1b: 16 lignes
Traitement de la feuille : SFV1c
  ‚úì SFV1c: 16 lignes
Traitement de la feuille : Entr√©√© FV2
  ‚úì Entr√©√© FV2: 16 lignes
Traitement de la feuille : SFV2a
  ‚úì SFV2a: 16 lignes
Traitement de la feuille : SFV2b
  ‚úì SFV2b: 16 lignes
Traitement de la feuille : SFHa
  ‚úì SFHa: 16 lignes
Traitement de la feuille : SFHb
  ‚úì SFHb: 16 lignes

Dataset unifi√© cr√©√© : 160 lignes, 27 colonnes

=== ANALYSE DES VALEURS MANQUANTES ===
 10 des colonnes avec le plus de valeurs manquantes :
                   Colonne  Valeurs_Manquantes  Pourcentage_Manquant
                      Mois                 160                100.00
         Heure_Echantillon                 160               

In [19]:
import pandas as pd

# Supposons que votre DataFrame nettoy√© est nomm√© df_unified
# Si ce n'est pas d√©j√† fait, chargez le fichier CSV dans un DataFrame
df_unified = pd.read_csv("UGB_Sanar_Station_Dataset_Clean.csv")

# Affichez le nombre de lignes et de colonnes
print(df_unified.shape)

(122, 23)
