### Chargement du jeu de donn√©es nettoy√©

Importer les biblioth√®ques n√©cessaires et charger le fichier `data_drop_duplicates.csv`,
en convertissant automatiquement la colonne `time` en datetime. V√©rification des informations g√©n√©rales du DataFrame.


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Chemin vers votre fichier nettoy√©
file_path = 'data_drop_duplicates.csv'

# Charger le CSV en convertissant la colonne 'time' en datetime d√®s le d√©but
try:
    df = pd.read_csv(file_path, parse_dates=['time'])
    print("Fichier CSV charg√© avec succ√®s.")
    print("La colonne 'time' a √©t√© automatiquement convertie en datetime.")
except FileNotFoundError:
    print(f"Erreur : Le fichier '{file_path}' n'a pas √©t√© trouv√©. V√©rifiez le chemin.")
    # Si le fichier n'est pas trouv√©, on arr√™te le script pour √©viter des erreurs
    exit()

# Afficher les informations pour v√©rifier le type de la colonne 'time'
print("\nInformations sur le DataFrame :")
df.info()


### üßπ Nettoyage des doublons √† la minute

Nous proc√©dons ici au nettoyage d√©taill√© des doublons temporels avec trois √©tapes principales :

#### üîπ √âtape 1 : D√©tection et suppression des doublons profonds
- üîç Identifier les lignes totalement identiques (m√™me minute + m√™mes valeurs sur tous les capteurs).
- üóëÔ∏è Supprimer ces doublons en conservant la premi√®re occurrence.
- ‚úÖ V√©rifier que tous les doublons profonds ont bien √©t√© supprim√©s.

#### üîπ √âtape 2 : Identification des quasi-doublons
- ‚è±Ô∏è Compter le nombre d‚Äôenregistrements par minute.
- ‚ö†Ô∏è Rep√©rer les minutes avec plusieurs valeurs diff√©rentes.
- üìù Extraire ces lignes dans `df_quasi_duplicates` pour une analyse plus approfondie.

#### üîπ √âtape 3 : Nettoyage final
- ‚úÇÔ∏è Supprimer la colonne temporaire `time_minute`.
- üìä V√©rifier la taille finale du DataFrame principal `df`.

Cette √©tape permet de pr√©parer le DataFrame pour la **fusion conditionnelle** des mesures similaires.


In [None]:
print("--- D√©but du processus de nettoyage des doublons √† la minute ---")
print(f"Taille initiale du DataFrame : {df.shape}")

# =============================================================================
# === √âTAPE 1 : D√âTECTION ET SUPPRESSION DES DOUBLONS PROFONDS ===
# =============================================================================
print("\n--- √âtape 1: Traitement des doublons profonds ---")

# Cr√©ation de la colonne de travail 'time_minute'
df['time_minute'] = df['time'].dt.floor('min')

# D√©finition du sous-ensemble de colonnes pour la v√©rification
# (la minute + tous les capteurs, en ignorant les secondes de 'time')
columns_to_check = df.columns.drop('time').tolist()

# 1a. D√©tecter le nombre de doublons profonds AVANT suppression
num_deep_duplicates_before = df.duplicated(subset=columns_to_check).sum()

if num_deep_duplicates_before > 0:
    print(f"Trouv√© {num_deep_duplicates_before} doublon(s) profond(s). Suppression en cours...")

    # 1b. Appliquer la suppression
    rows_before_deep_dup_removal = len(df)
    df.drop_duplicates(subset=columns_to_check, keep='first', inplace=True)
    rows_after_deep_dup_removal = len(df)

    # 1c. V√©rification et rapport
    print(f"{rows_before_deep_dup_removal - rows_after_deep_dup_removal} ligne(s) de doublons profonds ont √©t√© supprim√©es.")

    # Re-v√©rification pour s'assurer que tout a √©t√© supprim√©
    num_deep_duplicates_after = df.duplicated(subset=columns_to_check).sum()
    if num_deep_duplicates_after == 0:
        print("‚úÖ V√©rification : Suppression des doublons profonds r√©ussie.")
    else:
        print("‚ö†Ô∏è Erreur : Il reste des doublons profonds apr√®s la tentative de suppression.")
else:
    print("‚úÖ Aucun doublon profond trouv√©.")

print(f"Taille du DataFrame apr√®s l'√©tape 1 : {df.shape}")

# =============================================================================
# === √âTAPE 2 : IDENTIFICATION DES QUASI-DOUBLONS RESTANTS ===
# =============================================================================
print("\n--- √âtape 2: Identification des minutes avec des valeurs diff√©rentes ---")

# La colonne 'time_minute' existe d√©j√†, nous pouvons la r√©utiliser.

# 2a. Compter le nombre d'occurrences de chaque minute
minute_counts = df['time_minute'].value_counts()

# 2b. Identifier les minutes qui apparaissent encore plus d'une fois
# Ce sont, par d√©finition, les cas o√π les valeurs des capteurs sont diff√©rentes.
quasi_duplicate_minutes = minute_counts[minute_counts > 1].index

if not quasi_duplicate_minutes.empty:
    print(f"{len(quasi_duplicate_minutes)} minutes contiennent encore des enregistrements multiples (avec des valeurs diff√©rentes).")

    # 2c. Extraire ces lignes pour une analyse future
    df_quasi_duplicates = df[df['time_minute'].isin(quasi_duplicate_minutes)].copy()

    # Trier pour la lisibilit√©
    df_quasi_duplicates.sort_values(by=['time_minute', 'time'], inplace=True)

    print(f"Un total de {len(df_quasi_duplicates)} lignes sont concern√©es.")
    print("Ces lignes sont stock√©es dans le DataFrame 'df_quasi_duplicates' pour une analyse plus approfondie.")
    # display(df_quasi_duplicates.head()) # D√©commenter pour voir un aper√ßu
else:
    print("‚úÖ Aucune minute avec des enregistrements multiples ne reste.")

# =============================================================================
# === √âTAPE 3 : NETTOYAGE FINAL ===
# =============================================================================

# Supprimer la colonne de travail 'time_minute' du DataFrame principal
df.drop(columns=['time_minute'], inplace=True, errors='ignore')

print("\n--- Processus de nettoyage termin√© ---")
print(f"Taille finale du DataFrame principal 'df' : {df.shape}")

### ‚öóÔ∏è Fusion conditionnelle des enregistrements par minute

Apr√®s avoir identifi√© les quasi-doublons, nous fusionnons les mesures similaires pour chaque minute en suivant une logique pr√©cise :

#### üîπ √âtape 1 : Cr√©ation des groupes temporels
- ‚è±Ô∏è Cr√©er la colonne `time_minute` (arrondie √† la minute) pour regrouper les enregistrements.
- üî¢ Identifier toutes les colonnes num√©riques (`numeric_cols`) pour le calcul des statistiques.

#### üîπ √âtape 2 : Calcul des moyennes globales
- üìä Calculer la **moyenne globale** pour chaque capteur afin de servir de r√©f√©rence pour le seuil de fusion.

#### üîπ √âtape 3 : Analyse des variations locales
- Min et max de chaque capteur pour chaque minute multi-enregistrement.
- Calcul de la **plage de variation** (spread) pour chaque groupe.
- D√©finir un **seuil global** bas√© sur 20% de la moyenne globale (`marge = 0.2`).
- D√©terminer quelles minutes sont **fusionnables** (variation ‚â§ seuil pour toutes les colonnes).

#### üîπ √âtape 4 & 5 : S√©parer et traiter les donn√©es
- üìå Minutes non touch√©es : enregistrements uniques ou groupes √† forte variation.
- üîó Minutes √† fusionner : calcul de la moyenne pour chaque capteur et conservation du premier `time`.

#### üîπ √âtape 6 : Combiner et finaliser
- üîÑ Concat√©ner les DataFrames fusionn√©s et inchang√©s pour cr√©er `df_cleaned`.
- üîç Trier par `time` pour la coh√©rence chronologique.
- ‚úÖ V√©rifier et afficher le nombre de minutes encore contenant des enregistrements multiples.

Cette √©tape permet de **r√©duire les doublons subtils** tout en conservant la pr√©cision et la coh√©rence des mesures.


In [None]:
# Cr√©er la colonne 'time_minute' pour identifier les groupes
df['time_minute'] = df['time'].dt.floor('min')

marge = 0.2

# Lister les colonnes num√©riques
numeric_cols = df.select_dtypes(include=np.number).columns

# --- √âtape 1 : Calcul des moyennes GLOBALES (la modification cl√©) ---
print("\n--- Calcul des moyennes globales pour chaque capteur ---")
global_means = df[numeric_cols].mean()

# --- √âtape 2 : Identifier les groupes et calculer leurs stats locales ---

# On ne travaille que sur les minutes ayant plus d'un enregistrement
minute_counts = df['time_minute'].value_counts()
multi_record_minutes = minute_counts[minute_counts > 1].index
df_multi = df[df['time_minute'].isin(multi_record_minutes)]

# Calculer les stats MIN et MAX pour ces groupes
stats_per_minute = df_multi.groupby('time_minute')[numeric_cols].agg(['min', 'max'])

# Extraire chaque statistique pour des calculs plus clairs
mins = stats_per_minute.xs('min', axis=1, level=1)
maxs = stats_per_minute.xs('max', axis=1, level=1)

# --- √âtape 3 : Appliquer la condition de fusion avec le seuil GLOBAL ---

# Calculer la plage de variation (spread) pour chaque groupe
spread = maxs - mins

# Calculer le seuil en utilisant les moyennes GLOBALES
# C'est la ligne de code qui change la logique !
threshold = marge * global_means

# La condition est vraie si la plage est inf√©rieure ou √©gale au seuil global.
# Pandas aligne automatiquement le DataFrame 'spread' et la S√©rie 'threshold' par colonne.
condition_met = spread <= threshold

# Une minute est "fusionnable" si la condition est vraie pour TOUTES ses colonnes
is_mergeable = condition_met.all(axis=1)

# Extraire les listes de minutes pour chaque cat√©gorie
minutes_to_merge = is_mergeable[is_mergeable].index
minutes_to_keep = is_mergeable[~is_mergeable].index

print(f"\nAnalyse de {len(multi_record_minutes)} minutes avec plusieurs enregistrements :")
print(f"  -> {len(minutes_to_merge)} minutes seront fusionn√©es (variation < 20% de la moyenne globale).")
print(f"  -> {len(minutes_to_keep)} minutes seront conserv√©es telles quelles (variation > 20% de la moyenne globale).")

# --- √âtape 4 & 5 : S√©parer et traiter les donn√©es (identique √† avant) ---

# 1. Donn√©es qui ne sont pas touch√©es (enregistrements uniques ou groupes √† forte variation)
single_record_minutes = minute_counts[minute_counts == 1].index
minutes_untouched = single_record_minutes.union(minutes_to_keep)
df_untouched = df[df['time_minute'].isin(minutes_untouched)].copy()

# 2. Donn√©es √† fusionner en calculant leur moyenne
df_to_merge = df[df['time_minute'].isin(minutes_to_merge)]

agg_dict = {col: 'mean' for col in numeric_cols}
agg_dict['time'] = 'first'
df_merged = df_to_merge.groupby('time_minute').agg(agg_dict)

# --- √âtape 6 : Combiner et analyser le r√©sultat (identique √† avant) ---

# Pr√©parer les DataFrames pour la concat√©nation
df_untouched.drop(columns=['time_minute'], inplace=True)
df_merged.reset_index(drop=True, inplace=True)

# Combiner pour cr√©er le DataFrame final nettoy√©
df_cleaned = pd.concat([df_untouched, df_merged], ignore_index=True)
df_cleaned.sort_values(by='time', inplace=True, ignore_index=True)

print(f"\nTaille du DataFrame apr√®s fusion conditionnelle : {df_cleaned.shape}")

# Compter les "doublons" restants dans le nouveau DataFrame
df_cleaned['time_minute'] = df_cleaned['time'].dt.floor('min')
final_minute_counts = df_cleaned['time_minute'].value_counts()
remaining_multi_records = final_minute_counts[final_minute_counts > 1]

print("\n" + "="*50)
print("R√âSULTAT FINAL")
print("="*50)
print(f"Nombre de minutes contenant encore des enregistrements multiples : {len(remaining_multi_records)}")

### üïµÔ∏è‚Äç‚ôÇÔ∏è Analyse d√©taill√©e des minutes avec variation significative

Apr√®s la fusion conditionnelle, certaines minutes pr√©sentent encore des **√©carts importants** entre les enregistrements.
Cette cellule permet de les isoler et de les examiner.

#### üîπ √âtape 1 : Isolation des lignes √† analyser
- ‚è±Ô∏è Identifier les minutes restantes avec plusieurs enregistrements (`remaining_multi_records`).
- üìÇ Filtrer le DataFrame `df_cleaned` pour ne garder que ces lignes ‚Üí `df_to_inspect`.

#### üîπ √âtape 2 : Pr√©paration de l‚Äôaffichage
- üîÄ Trier par `time_minute` et `time` pour regrouper les enregistrements d‚Äôune m√™me minute.
- üëÄ Configurer Pandas pour afficher toutes les colonnes et une largeur suffisante pour une lecture claire.

#### üîπ √âtape 3 : Affichage des r√©sultats
- üìù Afficher le nombre total de lignes et de minutes restantes.
- ‚ö†Ô∏è Identifier pour chaque minute les **colonnes probl√©matiques** dont l‚Äô√©cart d√©passe le seuil.
- üóÇÔ∏è Ajouter ces informations au DataFrame `df_to_inspect` dans la colonne `problem_columns`.

Cette √©tape fournit une **vue d√©taill√©e des anomalies restantes** et pr√©pare les minutes probl√©matiques pour une analyse ou un traitement compl√©mentaire.


In [None]:
# --- √âtape 1 : Isoler les lignes √† analyser ---

# Obtenir la liste des timestamps (minutes) qui nous int√©ressent
minutes_to_inspect = remaining_multi_records.index

# Filtrer le DataFrame 'df_cleaned' pour ne garder que les lignes correspondant √† ces minutes
df_to_inspect = df_cleaned[df_cleaned['time_minute'].isin(minutes_to_inspect)].copy()

# --- √âtape 2 : Pr√©parer l'affichage pour une meilleure lisibilit√© ---

# Trier les lignes pour que les enregistrements d'une m√™me minute soient regroup√©s
df_to_inspect.sort_values(by=['time_minute', 'time'], inplace=True)

# Pour s'assurer que toutes les 92 colonnes sont visibles et non tronqu√©es
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000) # Augmenter la largeur d'affichage

# --- √âtape 3 : Afficher le r√©sultat ---

print("\n" + "="*80)
print("AFFICHAGE DES LIGNES POUR LES MINUTES AVEC UNE VARIATION SIGNIFICATIVE")
print("="*80)
print(f"Voici les {len(df_to_inspect)} lignes correspondant aux {len(remaining_multi_records)} minutes restantes :")

# --- √âtape A (Rappel de la logique) : D√©terminer les colonnes probl√©matiques par minute ---
# (Ces variables 'spread' et 'threshold' doivent √™tre disponibles depuis le script pr√©c√©dent)
is_problematic = spread > threshold

# --- √âtape B : Pour chaque minute, cr√©er une liste des noms de colonnes probl√©matiques ---
# C'est la ligne cl√© : elle transforme la grille de True/False en une S√©rie de listes de noms
problematic_cols_per_minute = is_problematic.apply(lambda row: row.index[row].tolist(), axis=1)

# --- √âtape C : Ajouter cette information au DataFrame d'inspection ---
# On utilise .map() pour assigner la liste de colonnes √† chaque ligne en fonction de sa minute
df_to_inspect['problem_columns'] = df_to_inspect['time_minute'].map(problematic_cols_per_minute)

display(df_to_inspect)

### üîç Analyse contextuelle des groupes probl√©matiques

Cette √©tape permet d‚Äôexaminer en d√©tail les **groupes de deux lignes pr√©sentant une variation significative** pour chaque minute probl√©matique.

#### üîπ V√©rifications initiales
- ‚ö†Ô∏è S‚Äôassurer que les DataFrames `df_cleaned` et `df_to_inspect` existent avant de commencer.
- üî¢ Identifier les colonnes num√©riques √† analyser.

#### üîπ √âtape 1 : Calcul des moyennes globales
- üìä Calculer **une seule fois** les moyennes globales pour chaque capteur (`global_means`) afin de les utiliser comme r√©f√©rence dans la comparaison.

#### üîπ √âtape 2 : Parcourir chaque groupe probl√©matique
- ‚è±Ô∏è Boucler sur chaque minute ayant deux enregistrements significatifs.
- ‚ùå Ignorer les groupes avec un nombre de lignes diff√©rent de 2.

#### üîπ √âtape 3 : Calcul des moyennes avant et apr√®s
- üîπ Pour chaque ligne du groupe, calculer la moyenne des 10 lignes pr√©c√©dentes (`moyenne_avant`).
- üîπ Calculer la moyenne des 10 lignes suivantes (`moyenne_apres`).
- Ces statistiques locales servent de **contexte** pour √©valuer les √©carts.

#### üîπ √âtape 4 : Pr√©parer le DataFrame de comparaison
- üìù Ajouter les lignes probl√©matiques, les moyennes avant/apr√®s et les moyennes globales dans un DataFrame unique (`comparison_df`).

#### üîπ √âtape 5 : Calculer les diff√©rences absolues
- ‚ûñ Diff√©rences entre chaque ligne et les moyennes avant/apr√®s pour les colonnes num√©riques.
- üîó Concat√©ner ces diff√©rences au DataFrame principal pour visualiser les √©carts.

#### üîπ √âtape 6 : Affichage final
- üëÄ Afficher uniquement les colonnes probl√©matiques et la colonne `time`.
- üñ•Ô∏è Fournir une vue claire de la variation par rapport aux contextes global et local pour chaque minute analys√©e.

Cette analyse fournit un **diagnostic pr√©cis** des anomalies et pr√©pare le DataFrame pour d‚Äô√©ventuelles corrections ou d√©cisions.


In [None]:
if 'df_cleaned' not in locals() or 'df_to_inspect' not in locals():
    print("Erreur : Les DataFrames 'df_cleaned' ou 'df_to_inspect' n'ont pas √©t√© trouv√©s.")
else:
    numeric_cols = df_cleaned.select_dtypes(include=np.number).columns.drop('time_minute', errors='ignore')

    # =============================================================================
    # === NOUVELLE √âTAPE : CALCULER LES MOYENNES GLOBALES UNE SEULE FOIS ===
    # =============================================================================
    # On le fait avant la boucle pour √™tre plus efficace
    global_means = df_cleaned[numeric_cols].mean()
    global_means.name = 'moyenne_globale_colonne'
    # =============================================================================

    grouped_problems = df_to_inspect.groupby('time_minute')
    print(f"D√©but de l'analyse contextuelle pour {len(grouped_problems)} groupes probl√©matiques...")

    for minute, group in grouped_problems:
        if len(group) != 2:
            print(f"\n--- Le groupe √† {minute} a {len(group)} lignes, il est ignor√©. ---")
            continue

        # --- √âtapes 1 √† 3 (inchang√©es) ---
        ligne1 = group.iloc[0]
        ligne2 = group.iloc[1]
        pos1 = df_cleaned.index.get_loc(ligne1.name)
        pos2 = df_cleaned.index.get_loc(ligne2.name)

        start_before = max(0, pos1 - 10)
        df_before = df_cleaned.iloc[start_before:pos1]
        moyenne_avant = df_before[numeric_cols].mean() if not df_before.empty else pd.Series(np.nan, index=numeric_cols)
        moyenne_avant.name = 'moyenne_10_avant'

        start_after = pos2 + 1
        end_after = min(len(df_cleaned), start_after + 10)
        df_after = df_cleaned.iloc[start_after:end_after]
        moyenne_apres = df_after[numeric_cols].mean() if not df_after.empty else pd.Series(np.nan, index=numeric_cols)
        moyenne_apres.name = 'moyenne_10_apres'

        # --- MODIFICATION DE L'√âTAPE 4 ---
        ligne1.name = f"ligne_{ligne1.name} (problem)"
        ligne2.name = f"ligne_{ligne2.name} (problem)"
        # On ajoute la ligne 'global_means' au d√©but du DataFrame de comparaison
        comparison_df = pd.DataFrame([global_means, moyenne_avant, ligne1, ligne2, moyenne_apres])

        # --- √âtape 5 (inchang√©e) : Calculer les diff√©rences ---
        ligne1_numeric = ligne1[numeric_cols]
        ligne2_numeric = ligne2[numeric_cols]
        diff_l1_vs_avant = abs(ligne1_numeric - moyenne_avant); diff_l1_vs_avant.name = 'abs_diff(L1-Avant)'
        diff_l2_vs_avant = abs(ligne2_numeric - moyenne_avant); diff_l2_vs_avant.name = 'abs_diff(L2-Avant)'
        diff_l1_vs_apres = abs(ligne1_numeric - moyenne_apres); diff_l1_vs_apres.name = 'abs_diff(L1-Apres)'
        diff_l2_vs_apres = abs(ligne2_numeric - moyenne_apres); diff_l2_vs_apres.name = 'abs_diff(L2-Apres)'
        diff_df = pd.DataFrame([diff_l1_vs_avant, diff_l2_vs_avant, diff_l1_vs_apres, diff_l2_vs_apres])

        final_comparison_df = pd.concat([comparison_df, diff_df])

        # --- √âtape 6 (inchang√©e) : Affichage ---
        problem_cols = ligne1['problem_columns']
        display_cols = ['time'] + problem_cols
        display_cols = [col for col in display_cols if col in final_comparison_df.columns]

        print("\n" + "="*80)
        print(f"ANALYSE DU GROUPE √Ä {minute.strftime('%Y-%m-%d %H:%M')}")
        print(f"Colonnes avec variation significative : {problem_cols}")
        print("="*80)

        pd.set_option('display.float_format', '{:.2f}'.format)
        display(final_comparison_df[display_cols])

### ‚öôÔ∏è Correction automatique et analyse des cas non r√©solus

Cette √©tape combine deux phases principales pour g√©rer les **doublons de mesures par minute**.

---

#### üîπ Phase 1 : Correction automatique
- üü¢ Objectif : Identifier automatiquement la ligne √† supprimer lorsque deux enregistrements pr√©sentent une variation minime par rapport au contexte.
- ‚öôÔ∏è Calcul de :
  - Moyennes globales des colonnes num√©riques (`global_means`).
  - Moyennes locales sur 10 lignes avant et 5 lignes apr√®s chaque groupe probl√©matique.
- üìå Crit√®re de suppression :
  - Si la diff√©rence minimale entre une ligne et le contexte est inf√©rieure √† 30‚ÄØ% de la moyenne globale pour cette colonne.
- üóëÔ∏è Les lignes identifi√©es sont supprim√©es de `df_corrected`.

---

#### üîπ Phase 2 : Affichage d√©taill√© des cas non r√©solus
- üîç Objectif : Analyser les groupes qui restent probl√©matiques apr√®s la correction automatique.
- üìä Pour chaque groupe restant :
  - Calcul des moyennes locales avant/apr√®s.
  - Affichage des lignes probl√©matiques et des colonnes pr√©sentant des variations significatives.
  - Comparaison avec la moyenne globale pour rep√©rer les anomalies.
- üëÄ R√©sultat :
  - Identification pr√©cise des lignes √† examiner manuellement.
  - Vue contextualis√©e pour chaque minute, facilitant la prise de d√©cision.

---

‚úÖ Cette double approche permet de **corriger automatiquement la majorit√© des doublons** tout en offrant un diagnostic clair pour les cas n√©cessitant une intervention manuelle.


In [None]:
if 'df_cleaned' not in locals() or 'df_to_inspect' not in locals():
    print("Erreur : Les DataFrames requis n'ont pas √©t√© trouv√©s.")
else:
    # --- D√©finitions communes ---
    marge_diff = 0.3
    numeric_cols = df_cleaned.select_dtypes(include=np.number).columns.drop('time_minute', errors='ignore')
    global_means = df_cleaned[numeric_cols].mean()

    # =============================================================================
    # === PHASE 1 : CORRECTION AUTOMATIQUE ===
    # =============================================================================
    df_corrected = df_cleaned.copy()
    grouped_problems_for_correction = df_to_inspect.groupby('time_minute')
    indexes_to_delete = []

    print("--- PHASE 1: D√©but du processus de correction automatique ---")
    for minute, group in grouped_problems_for_correction:
        if len(group) != 2: continue

        ligne1, original_index1 = group.iloc[0], group.iloc[0].name
        ligne2, original_index2 = group.iloc[1], group.iloc[1].name
        pos1 = df_cleaned.index.get_loc(original_index1)
        pos2 = df_cleaned.index.get_loc(original_index2)

        moyenne_avant = df_cleaned.iloc[max(0, pos1 - 10):pos1][numeric_cols].mean()
        moyenne_apres = df_cleaned.iloc[pos2 + 1:min(len(df_cleaned), pos2 + 6)][numeric_cols].mean()

        diff_df = pd.DataFrame({
            'abs_diff(L1-Avant)': abs(ligne1[numeric_cols] - moyenne_avant),
            'abs_diff(L2-Avant)': abs(ligne2[numeric_cols] - moyenne_avant),
            'abs_diff(L1-Apres)': abs(ligne1[numeric_cols] - moyenne_apres),
            'abs_diff(L2-Apres)': abs(ligne2[numeric_cols] - moyenne_apres)
        }).transpose()

        problem_cols = ligne1['problem_columns']
        problem_cols_in_diff = [col for col in problem_cols if col in diff_df.columns]
        if not problem_cols_in_diff: continue

        unstacked_diffs = diff_df[problem_cols_in_diff].unstack()
        min_loc = unstacked_diffs.idxmin()
        min_col_name, min_row_name = min_loc
        min_diff_value = unstacked_diffs[min_loc]

        threshold_value = marge_diff * global_means[min_col_name]

        if min_diff_value < threshold_value:
            if 'L1' in min_row_name: indexes_to_delete.append(original_index2)
            else: indexes_to_delete.append(original_index1)

    if indexes_to_delete:
        print(f"--- {len(indexes_to_delete)} lignes ont √©t√© identifi√©es pour suppression. ---")
        df_corrected.drop(index=indexes_to_delete, inplace=True)
    else:
        print("--- Aucune ligne n'a √©t√© supprim√©e automatiquement. ---")

    # =============================================================================
    # === PHASE 2 : AFFICHAGE D√âTAILL√â DES CAS NON R√âSOLUS ===
    # =============================================================================
    print("\n" + "="*80)
    print("PHASE 2: ANALYSE D√âTAILL√âE DES CAS NON R√âSOLUS")
    print("="*80)

    # Identifier les minutes qui posent encore probl√®me DANS LE DATAFRAME CORRIG√â
    df_corrected['time_minute'] = df_corrected['time'].dt.floor('min')
    final_counts = df_corrected['time_minute'].value_counts()
    remaining_problems_series = final_counts[final_counts > 1]

    if remaining_problems_series.empty:
        print("‚úÖ Tous les cas de doublons ont √©t√© r√©solus automatiquement !")
    else:
        print(f"{len(remaining_problems_series)} minute(s) contiennent encore des enregistrements multiples.")

        # Pour l'analyse, on retourne chercher les informations compl√®tes dans df_to_inspect
        remaining_to_inspect = df_to_inspect[df_to_inspect['time_minute'].isin(remaining_problems_series.index)]
        grouped_remaining_for_display = remaining_to_inspect.groupby('time_minute')

        for minute, group in grouped_remaining_for_display:
            if len(group) != 2: continue

            # Ici, on utilise le code d'affichage que vous avez fourni, qui fonctionne
            ligne1 = group.iloc[0]
            ligne2 = group.iloc[1]
            pos1 = df_cleaned.index.get_loc(ligne1.name)
            pos2 = df_cleaned.index.get_loc(ligne2.name)

            start_before = max(0, pos1 - 10)
            df_before = df_cleaned.iloc[start_before:pos1]
            moyenne_avant = df_before[numeric_cols].mean() if not df_before.empty else pd.Series(np.nan, index=numeric_cols)
            moyenne_avant.name = 'moyenne_10_avant'

            start_after = pos2 + 1
            end_after = min(len(df_cleaned), start_after + 10)
            df_after = df_cleaned.iloc[start_after:end_after]
            moyenne_apres = df_after[numeric_cols].mean() if not df_after.empty else pd.Series(np.nan, index=numeric_cols)
            moyenne_apres.name = 'moyenne_10_apres'

            global_means.name = 'moyenne_globale_colonne'
            ligne1.name = f"ligne_{ligne1.name} (problem)"
            ligne2.name = f"ligne_{ligne2.name} (problem)"
            comparison_df = pd.DataFrame([global_means, moyenne_avant, ligne1, ligne2, moyenne_apres])

            ligne1_numeric = ligne1[numeric_cols]
            ligne2_numeric = ligne2[numeric_cols]
            diff_l1_vs_avant = abs(ligne1_numeric - moyenne_avant); diff_l1_vs_avant.name = 'abs_diff(L1-Avant)'
            diff_l2_vs_avant = abs(ligne2_numeric - moyenne_avant); diff_l2_vs_avant.name = 'abs_diff(L2-Avant)'
            diff_l1_vs_apres = abs(ligne1_numeric - moyenne_apres); diff_l1_vs_apres.name = 'abs_diff(L1-Apres)'
            diff_l2_vs_apres = abs(ligne2_numeric - moyenne_apres); diff_l2_vs_apres.name = 'abs_diff(L2-Apres)'
            diff_df = pd.DataFrame([diff_l1_vs_avant, diff_l2_vs_avant, diff_l1_vs_apres, diff_l2_vs_apres])

            final_comparison_df = pd.concat([comparison_df, diff_df])

            # Cette partie est maintenant s√ªre car 'ligne1' vient de 'df_to_inspect'
            problem_cols = ligne1['problem_columns']
            display_cols = ['time'] + problem_cols
            display_cols = [col for col in display_cols if col in final_comparison_df.columns]

            print("\n" + "-"*80)
            print(f"ANALYSE DU GROUPE √Ä {minute.strftime('%Y-%m-%d %H:%M')}")
            print(f"Colonnes avec variation significative : {problem_cols}")
            print("-"*80)
            pd.set_option('display.float_format', '{:.2f}'.format)
            display(final_comparison_df[display_cols])

### üåä Lissage final et rapport des doublons restants

Cette √©tape vise √† traiter les **cas restants non r√©solus** apr√®s les phases de correction automatique.

---

#### üîπ Phase 3 : Tentative de lissage
- üéØ Objectif : Fusionner les lignes probl√©matiques lorsque le **contexte avant/apr√®s est stable**.
- üìù M√©thodologie :
  - Calcul des moyennes locales **avant** et **apr√®s** chaque minute probl√©matique.
  - V√©rification de la stabilit√© du contexte : diff√©rence entre moyennes < 20‚ÄØ% de la moyenne globale (`marge * global_means`).
  - Si stable :
    - Les deux lignes sont fusionn√©es.
    - Valeur de chaque colonne probl√©matique remplac√©e par la moyenne du contexte.
    - Suppression de la ligne redondante.
  - Si instable :
    - Les deux lignes sont conserv√©es pour √©viter de d√©former les donn√©es.

- ‚úÖ B√©n√©fice : r√©duit manuellement les doublons tout en respectant la coh√©rence temporelle.

---

#### üîπ Phase 4 : Rapport final
- üìä V√©rification du nombre de minutes restant avec des doublons apr√®s lissage.
- ‚úÖ R√©sultat attendu : **tous les doublons corrig√©s ou liss√©s**, sauf quelques cas complexes √† conserver pour analyse.
- ‚ö†Ô∏è Les cas complexes sont affich√©s pour examen manuel.

---

üí° Cette approche en plusieurs phases permet un **nettoyage tr√®s fin** des donn√©es temporelles tout en pr√©servant l'int√©grit√© des mesures.


In [None]:
if 'df_cleaned' not in locals() or 'df_to_inspect' not in locals():
    print("Erreur : Les DataFrames requis n'ont pas √©t√© trouv√©s.")
else:
    # =============================================================================
    # === NOUVELLE PHASE 3 : LISSAGE DES CAS RESTANTS ===
    # =============================================================================
    if not remaining_problems_series.empty:
        print("\n" + "="*80)
        print("PHASE 3: TENTATIVE DE LISSAGE FINAL DES CAS RESTANTS")
        print("="*80)

        updates_to_make = []
        indexes_to_delete_phase3 = []

        remaining_to_inspect = df_to_inspect[df_to_inspect['time_minute'].isin(remaining_problems_series.index)]
        grouped_remaining_for_smoothing = remaining_to_inspect.groupby('time_minute')

        for minute, group in grouped_remaining_for_smoothing:
            if len(group) != 2: continue

            ligne1 = group.iloc[0]
            ligne2 = group.iloc[1]
            pos1 = df_cleaned.index.get_loc(ligne1.name)
            pos2 = df_cleaned.index.get_loc(ligne2.name)
            moyenne_avant = df_cleaned.iloc[max(0, pos1 - 10):pos1][numeric_cols].mean()
            moyenne_apres = df_cleaned.iloc[pos2 + 1:min(len(df_cleaned), pos2 + 11)][numeric_cols].mean()

            is_context_stable = True
            problem_cols = ligne1['problem_columns']
            for col in problem_cols:
                if col not in numeric_cols: continue
                mycontext_diff = abs(moyenne_avant[col] - moyenne_apres[col])
                mythreshold = marge * global_means[col]
                if mycontext_diff > mythreshold:
                    is_context_stable = False
                    break

            if is_context_stable:
                print(f"Groupe √† {minute.strftime('%H:%M')}: CONTEXTE STABLE -> Lissage et fusion des lignes.")
                index_to_update = group.index[0]
                index_to_delete = group.index[1]
                indexes_to_delete_phase3.append(index_to_delete)
                for col in problem_cols:
                    if col not in numeric_cols: continue
                    new_value = (moyenne_avant[col] + moyenne_apres[col]) / 2
                    updates_to_make.append((index_to_update, col, new_value))
            else:
                print(f"Groupe √† {minute.strftime('%H:%M')}: CONTEXTE INSTABLE -> Conservation des deux lignes.")

        if updates_to_make:
            for idx, col, val in updates_to_make:
                df_corrected.loc[idx, col] = val

        if indexes_to_delete_phase3:
            df_corrected.drop(index=indexes_to_delete_phase3, inplace=True)
            print(f"\n--- {len(indexes_to_delete_phase3)} ligne(s) ont √©t√© liss√©es et fusionn√©es. ---")

    # =============================================================================
    # === PHASE 4 : RAPPORT FINAL ===
    # =============================================================================
    print("\n" + "="*80)
    print("PHASE 4: RAPPORT FINAL APR√àS LISSAGE")
    print("="*80)

    df_corrected['time_minute'] = df_corrected['time'].dt.floor('min')
    final_final_counts = df_corrected['time_minute'].value_counts()
    truly_remaining_problems = final_final_counts[final_final_counts > 1]

    if truly_remaining_problems.empty:
        print("‚úÖ Tous les cas de doublons ont √©t√© r√©solus par correction ou lissage.")
    else:
        print(f"‚ö†Ô∏è {len(truly_remaining_problems)} cas complexes subsistent et ont √©t√© conserv√©s :")
        display(df_corrected[df_corrected['time_minute'].isin(truly_remaining_problems.index)])

### üîç V√©rification finale avant indexation

Cette √©tape permet de **contr√¥ler qu‚Äôaucune duplication √† la minute ne subsiste** avant d‚Äôindexer le DataFrame.

---

#### üîπ √âtape 1 : Identifier les minutes avec doublons
- ‚è±Ô∏è Cr√©ation d'une colonne temporaire `time_minute` (temps tronqu√© √† la minute).
- üìä Comptage du nombre d‚Äôoccurrences pour chaque minute.
- ‚ö†Ô∏è Filtrage pour ne garder que les minutes contenant **plus d‚Äôun enregistrement**.

---

#### üîπ √âtape 2 : Affichage des lignes probl√©matiques
- ‚úÖ Si aucune duplication n‚Äôest trouv√©e : pr√™t pour l‚Äôindexation et la sauvegarde.
- ‚ö†Ô∏è Si des doublons persistent :
  - Affichage d√©taill√© des minutes et lignes concern√©es.
  - Les cas sont conserv√©s car leur variation a √©t√© jug√©e **significative**.
  - Classement par minute pour une lecture facile.
  - Toutes les colonnes visibles pour l‚Äôanalyse.

---

#### üîπ √âtapes possibles pour g√©rer les doublons restants
1. **Agr√©gation par moyenne** : solution simple pour obtenir un index unique.
   Exemple :
   `df_final = df_corrected.groupby(df_corrected['time'].dt.floor('min')).mean()`
2. **Suppression manuelle** : retirer les lignes clairement erron√©es.
3. **Conservation pour analyse sp√©cifique** : certains √©v√©nements peuvent n√©cessiter un traitement s√©par√©.

üí° Cette √©tape est cruciale pour garantir l‚Äô**int√©grit√© temporelle** avant toute manipulation ou sauvegarde finale.


In [None]:
if 'df_corrected' not in locals():
    print("Erreur : Le DataFrame 'df_corrected' n'a pas √©t√© trouv√©.")
else:
    print("V√©rification finale du DataFrame 'df_corrected' avant indexation...")

    # Cr√©er une copie pour l'analyse
    df_analysis = df_corrected.copy()

    # =============================================================================
    # === √âTAPE 1 : IDENTIFIER LES MINUTES CONTENANT DES DOUBLONS ===
    # =============================================================================

    # Cr√©er une colonne temporaire avec le temps tronqu√© √† la minute
    df_analysis['time_minute'] = df_analysis['time'].dt.floor('min')

    # Compter le nombre d'occurrences de chaque minute
    minute_counts = df_analysis['time_minute'].value_counts()

    # Filtrer pour ne garder que les minutes qui apparaissent plus d'une fois
    remaining_duplicates_minutes = minute_counts[minute_counts > 1].index

    # =============================================================================
    # === √âTAPE 2 : AFFICHER LES LIGNES CORRESPONDANTES ===
    # =============================================================================

    if remaining_duplicates_minutes.empty:
        print("\n‚úÖ BONNE NOUVELLE : Aucune duplication √† la minute n'a √©t√© trouv√©e.")
        print("Vous pouvez proc√©der directement √† l'indexation et √† la sauvegarde.")
    else:
        print("\n" + "="*80)
        print("ATTENTION : LES LIGNES SUIVANTES PROVOQUERONT UN INDEX NON UNIQUE")
        print("="*80)
        print(f"{len(remaining_duplicates_minutes)} minute(s) contiennent encore plusieurs enregistrements.")
        print("Ces cas ont √©t√© conserv√©s par votre algorithme car leur variation a √©t√© jug√©e 'significative'.")

        # Filtrer le DataFrame pour n'afficher QUE les lignes qui posent probl√®me
        df_to_display = df_analysis[df_analysis['time_minute'].isin(remaining_duplicates_minutes)]

        # Trier pour que les groupes soient bien visibles
        df_to_display.sort_values(by=['time_minute', 'time'], inplace=True)

        # Configurer l'affichage pour voir toutes les colonnes
        pd.set_option('display.max_columns', None)
        pd.set_option('display.width', 1000)

        # Afficher le DataFrame final
        display(df_to_display)

        print("\n--- Analyse et Prochaines √âtapes ---")
        print("Vous devez maintenant d√©cider comment g√©rer ces cas restants :")
        print("1. Agr√©ger par la moyenne : C'est la solution la plus simple pour obtenir un index unique.")
        print("   Ex: df_final = df_corrected.groupby(df_corrected['time'].dt.floor('min')).mean()")
        print("2. Suppression manuelle : Si une ligne est clairement une erreur, vous pouvez la supprimer par son index.")
        print("3. Conserver pour une analyse sp√©cifique : Peut-√™tre que ces √©v√©nements ne doivent pas √™tre dans le jeu de donn√©es principal, mais analys√©s s√©par√©ment.")

### ‚è±Ô∏è V√©rification des minutes manquantes dans l‚Äôindex temporel

Cette √©tape permet de s'assurer que le **jeu de donn√©es est continu minute par minute** apr√®s nettoyage et indexation.

---

#### üîπ √âtape 1 : Chargement des donn√©es
- üìÇ Fichier : `data_final_cleaned_indexed.csv`
- ‚úÖ Chargement avec `index_col=0` pour utiliser la colonne temporelle comme index.
- ‚ÑπÔ∏è Affichage de l‚Äôintervalle temporel couvert par le jeu de donn√©es : du premier au dernier timestamp.

---

#### üîπ √âtape 2 : V√©rification de la continuit√©
1. üìè Cr√©ation d‚Äôun **index de r√©f√©rence attendu** :
   - D√©but : premi√®re minute
   - Fin : derni√®re minute
   - Fr√©quence : 1 minute (`freq='min'`)
2. üîç Identification des timestamps **manquants** dans le DataFrame par rapport √† l‚Äôindex de r√©f√©rence.
3. üìä Rapport :
   - ‚úÖ Si aucune minute manquante : le jeu de donn√©es est complet.
   - ‚ö†Ô∏è Si des minutes manquent :
     - Nombre total de minutes manquantes.
     - Pourcentage de donn√©es manquantes.
     - Aper√ßu des premi√®res minutes manquantes (jusqu‚Äô√† 10) pour inspection rapide.

---

üí° Cette √©tape est cruciale pour garantir que **l‚Äôanalyse chronologique ou les calculs par minute** ne seront pas fauss√©s par des interruptions dans la s√©rie temporelle.


In [None]:
# --- √âtape 1 : Chargement des donn√©es (comme vous l'avez fait) ---

file_path = 'data_final_cleaned_indexed.csv'
try:
    df = pd.read_csv(file_path, index_col=0, parse_dates=True)
    print("Fichier CSV charg√© avec succ√®s.")
except FileNotFoundError:
    print(f"Erreur : Le fichier '{file_path}' n'a pas √©t√© trouv√©.")
    exit()

print(f"\nLe jeu de donn√©es s'√©tend de {df.index.min()} √† {df.index.max()}.")

# =============================================================================
# === √âTAPE 2 : V√âRIFICATION DES MINUTES MANQUANTES ===
# =============================================================================

print("\n" + "="*80)
print("V√âRIFICATION DES MINUTES MANQUANTES DANS L'INDEX TEMPOREL")
print("="*80)

# 1. Cr√©er l'index de r√©f√©rence attendu
#    Il commence au premier timestamp, se termine au dernier, avec une fr√©quence d'une minute ('min').
expected_index = pd.date_range(start=df.index.min(), end=df.index.max(), freq='min')

# 2. Trouver les timestamps qui sont dans l'index de r√©f√©rence mais PAS dans l'index de notre DataFrame
missing_timestamps = expected_index.difference(df.index)

# 3. Afficher le rapport
if missing_timestamps.empty:
    print("‚úÖ BONNE NOUVELLE : Aucune minute manquante n'a √©t√© d√©tect√©e dans l'intervalle.")
    print("Votre jeu de donn√©es a une fr√©quence temporelle continue.")
else:
    print(f"‚ö†Ô∏è ATTENTION : {len(missing_timestamps)} minutes manquantes ont √©t√© d√©tect√©es.")

    total_expected_minutes = len(expected_index)
    percentage_missing = (len(missing_timestamps) / total_expected_minutes) * 100

    print(f"   - P√©riode totale attendue : {total_expected_minutes} minutes.")
    print(f"   - Pourcentage de donn√©es manquantes : {percentage_missing:.2f}%")

    print("\nVoici un aper√ßu des 10 premi√®res minutes manquantes :")
    # On affiche seulement les 10 premi√®res pour ne pas surcharger l'affichage
    for ts in missing_timestamps[:10]:
        print(f"   - {ts}")

### üïµÔ∏è Analyse des p√©riodes de minutes manquantes cons√©cutives

Cette √©tape permet d‚Äôidentifier **les blocs de minutes manquantes** et leur dur√©e, plut√¥t que de lister chaque minute isol√©e.

---

#### üîπ √âtape 1 : V√©rification de l‚Äôexistence de minutes manquantes
- Si aucune minute n‚Äôest manquante : message `Aucune minute manquante √† analyser.`
- Sinon : passage √† l‚Äôanalyse des p√©riodes cons√©cutives.

---

#### üîπ √âtape 2 : Identification des p√©riodes manquantes
1. üîπ Initialisation de la premi√®re p√©riode avec le premier timestamp manquant.
2. üîπ Parcours de tous les timestamps manquants :
   - Si le timestamp actuel **n‚Äôest pas cons√©cutif** au pr√©c√©dent, la p√©riode pr√©c√©dente est termin√©e.
   - Enregistrer le **d√©but**, la **fin**, et la **dur√©e** de la p√©riode.
   - D√©marrer une **nouvelle p√©riode**.
3. üîπ Apr√®s la boucle, ajouter la derni√®re p√©riode manquante restante.

---

#### üîπ √âtape 3 : Pr√©parer les r√©sultats pour affichage
- Conversion de la liste des p√©riodes en **DataFrame** (`gaps_df`).
- Conversion de la dur√©e en **minutes enti√®res** pour plus de clart√©.
- Tri par **dur√©e d√©croissante** pour mettre en √©vidence les plus longues interruptions.
- R√©initialisation de l‚Äôindex pour un affichage propre.

---

#### üîπ √âtape 4 : Interpr√©tation
- üìä Chaque ligne du DataFrame contient :
  - `start` : d√©but de la p√©riode manquante
  - `end` : fin de la p√©riode manquante
  - `duration_minutes` : dur√©e totale en minutes
- üìù Ce tableau permet de prioriser les **p√©riodes critiques √† combler ou analyser**.


In [None]:
# --- Ce code s'ex√©cute si la condition 'if not missing_timestamps.empty:' est vraie ---

# S'assurer que la variable 'missing_timestamps' existe depuis la cellule pr√©c√©dente.
if 'missing_timestamps' not in locals() or missing_timestamps.empty:
    print("Aucune minute manquante √† analyser.")
else:
    print("\n" + "="*80)
    print("ANALYSE DES P√âRIODES DE MINUTES MANQUANTES CONS√âCUTIVES")
    print("="*80)

    # Liste pour stocker les informations sur chaque p√©riode (gap)
    gaps = []

    # D√©marrer la premi√®re p√©riode avec le premier timestamp manquant
    start_of_gap = missing_timestamps[0]
    previous_ts = missing_timestamps[0]

    # Parcourir tous les timestamps manquants √† partir du deuxi√®me
    for ts in missing_timestamps[1:]:
        # V√©rifier si le timestamp actuel n'est PAS la minute qui suit la pr√©c√©dente
        if ts != previous_ts + pd.Timedelta(minutes=1):
            # Si c'est le cas, la p√©riode pr√©c√©dente est termin√©e.
            end_of_gap = previous_ts
            # Calculer la dur√©e de la p√©riode
            duration = (end_of_gap - start_of_gap) + pd.Timedelta(minutes=1)
            # Ajouter les informations √† notre liste
            gaps.append({'start': start_of_gap, 'end': end_of_gap, 'duration_minutes': duration.total_seconds() / 60})

            # D√©marrer une nouvelle p√©riode
            start_of_gap = ts

        # Mettre √† jour le timestamp pr√©c√©dent pour la prochaine it√©ration
        previous_ts = ts

    # --- Important : Ajouter la toute derni√®re p√©riode apr√®s la fin de la boucle ---
    end_of_gap = missing_timestamps[-1]
    duration = (end_of_gap - start_of_gap) + pd.Timedelta(minutes=1)
    gaps.append({'start': start_of_gap, 'end': end_of_gap, 'duration_minutes': duration.total_seconds() / 60})

    # --- Afficher les r√©sultats de mani√®re lisible ---

    # Convertir la liste de r√©sultats en DataFrame pour un affichage et un tri faciles
    gaps_df = pd.DataFrame(gaps)

    # Convertir la dur√©e en entier pour plus de clart√©
    gaps_df['duration_minutes'] = gaps_df['duration_minutes'].astype(int)

    # Trier par dur√©e pour voir les plus longues p√©riodes manquantes en premier
    gaps_df.sort_values(by='duration_minutes', ascending=False, inplace=True)

    # R√©initialiser l'index pour un affichage propre
    gaps_df.reset_index(drop=True, inplace=True)

    print(f"Les {len(missing_timestamps)} minutes manquantes sont r√©parties en {len(gaps_df)} p√©riodes cons√©cutives :")
    display(gaps_df)

### üõ†Ô∏è R√©√©chantillonnage pour rendre les minutes manquantes explicites

Cette √©tape permet de **mettre en √©vidence les minutes manquantes** en cr√©ant des lignes avec `NaN` dans le DataFrame.

---

#### üîπ √âtape 1 : Chargement des donn√©es
- Lecture du fichier CSV `data_final_cleaned_indexed.csv`
- Indexation sur la colonne temporelle existante (`time`).

---

#### üîπ √âtape 2 : Cr√©ation d‚Äôun index temporel complet
- On cr√©e un **index parfait** √† fr√©quence 1 minute (`freq='min'`) couvrant toute la p√©riode.
- R√©indexation du DataFrame avec cet index :
  - Les minutes **manquantes** sont automatiquement remplies par des lignes contenant `NaN`.

---

#### üîπ √âtape 3 : V√©rification
- ‚úÖ Taille du DataFrame avant et apr√®s r√©√©chantillonnage.
- üìä Nombre de lignes contenant au moins un `NaN` = nombre de minutes manquantes.
- Objectif : pr√©parer le jeu de donn√©es pour un **nettoyage ou interpolation ult√©rieure**.


In [None]:
import pandas as pd

# --- √âtape 1 : Chargement des donn√©es ---
file_path = 'data_final_cleaned_indexed.csv'
df = pd.read_csv(file_path, index_col=0, parse_dates=True)

# =============================================================================
# === √âTAPE 2 : R√â√âCHANTILLONNAGE POUR RENDRE LES TROUS EXPLICITES AVEC NaN ===
# =============================================================================
print("\n--- Cr√©ation d'un index temporel complet ---")

# 1. Cr√©er l'index de r√©f√©rence parfait, sans aucun trou
full_index = pd.date_range(start=df.index.min(), end=df.index.max(), freq='min')

# 2. R√©-indexer le DataFrame. C'est l'√©tape cl√©.
#    Pandas va automatiquement cr√©er des lignes remplies de NaN pour toutes les minutes manquantes.
df_complete = df.reindex(full_index)

print(f"Taille du DataFrame avant r√©√©chantillonnage : {len(df)}")
print(f"Taille du DataFrame apr√®s r√©√©chantillonnage : {len(df_complete)}")

# Compter le nombre de lignes qui contiennent au moins un NaN
# Ce nombre devrait √™tre √©gal au nombre de minutes manquantes que vous aviez trouv√© (2880)
num_rows_with_nan = df_complete.isnull().any(axis=1).sum()
print(f"{num_rows_with_nan} lignes avec des valeurs manquantes (NaN) ont √©t√© cr√©√©es, ce qui est attendu.")


### üèÅ Finalisation et exportation du DataFrame complet

Cette cellule pr√©pare le DataFrame **r√©√©chantillonn√© et compl√©t√©** pour l'analyse ou l'export final.

---

#### üîπ √âtape 1 : Copie de travail
- `df_complete` est copi√© dans `df_final` pour s√©curiser les manipulations finales.

---

#### üîπ √âtape 2 : V√©rification de l'index
- ‚úÖ V√©rifie que l'index temporel est **unique** apr√®s le r√©√©chantillonnage.
- ‚ö†Ô∏è Une anomalie ici indiquerait un probl√®me inattendu dans l'index.

---

#### üîπ √âtape 3 : V√©rification des valeurs manquantes
- Comptabilise les lignes avec au moins un `NaN`.
- Ces lignes correspondent aux **minutes initialement manquantes**, d√©sormais explicites pour analyse/interpolation.

---

#### üîπ √âtape 4 : Exportation
- Le DataFrame final est enregistr√© en CSV (`data_final_cleaned_indexed.csv`) avec l‚Äôindex temporel conserv√©.
- ‚úÖ Permet de disposer d‚Äôun jeu de donn√©es **complet et pr√™t pour l‚Äôanalyse chronologique**.


In [None]:
# =============================================================================
# === NOUVELLE CELLULE : FINALISATION ET EXPORTATION DU DATAFRAME COMPLET ===
# =============================================================================

# --- Pr√©-requis : S'assurer que 'df_complete' est disponible depuis la cellule pr√©c√©dente ---
if 'df_complete' not in locals():
    print("‚ùå Erreur : Le DataFrame 'df_complete' n'a pas √©t√© trouv√©.")
    print("Veuillez d'abord ex√©cuter la cellule de r√©√©chantillonnage.")
else:
    print("Pr√©paration du DataFrame complet pour l'enregistrement...")

    # --- √âtape 1 : Copie de travail ---
    # La variable df_complete est d√©j√† presque parfaite, on la copie pour la finalisation.
    df_final = df_complete.copy()

    # --- √âtape 2 : V√©rification de l'index ---
    # Cette √©tape est toujours une bonne pratique.
    print("\nV√©rification de l'index...")
    if df_final.index.is_unique:
        print("‚úÖ L'index temporel est unique, comme attendu apr√®s le r√©√©chantillonnage.")
    else:
        print("‚ö†Ô∏è Erreur inattendue : L'index n'est pas unique, ce qui ne devrait pas arriver.")

    # --- √âtape 3 : V√©rification des donn√©es manquantes ---
    # C'est une v√©rification utile √† ajouter ici
    num_rows_with_nan = df_final.isnull().any(axis=1).sum()
    if num_rows_with_nan > 0:
        print(f"‚úÖ Le DataFrame contient {num_rows_with_nan} lignes avec des NaN, repr√©sentant les minutes manquantes.")
    else:
        print("Le DataFrame ne contient aucune valeur manquante.")

    print("\nAper√ßu du DataFrame final :")
    display(df_final.head())

    # --- √âtape 4 : Enregistrement dans un fichier CSV ---
    output_file_path = 'data_final_cleaned_indexed.csv'

    # Enregistrer le DataFrame en CSV.
    # L'index sera automatiquement sauvegard√© car il est l'index du DataFrame.
    try:
        df_final.to_csv(output_file_path)
        print(f"\n‚úÖ Le DataFrame final a √©t√© enregistr√© avec succ√®s dans le fichier : '{output_file_path}'")
    except Exception as e:
        print(f"\n‚ùå Une erreur est survenue lors de l'enregistrement du fichier : {e}")

## ‚úÖ Conclusion du notebook

Le DataFrame a √©t√© **nettoy√©, fusionn√©, liss√©** et **r√©index√© avec toutes les minutes explicites**.
Les doublons significatifs ont √©t√© trait√©s et les minutes manquantes sont d√©sormais repr√©sent√©es par des `NaN`, pr√™tes pour toute interpolation ou analyse temporelle.

Vous pouvez maintenant passer au **prochain notebook** : [`data_cleaned_indexed.ipynb`](./data_cleaned_indexed.ipynb) pour continuer l'analyse ou la pr√©paration des donn√©es.
