In [29]:
import pandas as pd
from datetime import datetime

donnees = pd.read_excel('DATA-CONC1-140525-050625.xlsx')

# Étape 1 : Afficher les colonnes initiales et le nombre de lignes
print("Colonnes initiales :", donnees.columns.tolist())
print("Nombre de lignes initiales :", len(donnees))

# Étape 2 : Convertir les horodatages Excel en datetime
def excel_vers_datetime(date_excel):
    if pd.isna(date_excel):
        return pd.NaT
    try:
        return pd.to_datetime('1900-01-01') + pd.to_timedelta(date_excel - 2, unit='D')
    except:
        return pd.NaT

# Identifier les colonnes d'horodatage (valeurs comme 45791.xxxxx)
colonnes_horodatage = [col for col in donnees.columns if donnees[col].dtype == 'float64' and str(donnees[col].iloc[0]).startswith('45791')]
print("Colonnes d'horodatage détectées :", colonnes_horodatage)
if not colonnes_horodatage:
    print("Avertissement : Aucune colonne d'horodatage détectée. Vérifiez les valeurs des colonnes.")
    print("Exemple de premières valeurs des colonnes numériques :", {col: donnees[col].iloc[0] for col in donnees.columns if donnees[col].dtype == 'float64'})

# Appliquer la conversion aux colonnes d'horodatage
for col in colonnes_horodatage:
    donnees[col] = donnees[col].apply(excel_vers_datetime)

# Étape 3 : Unifier les horodatages
if colonnes_horodatage:
    col_horodatage_ref = colonnes_horodatage[0]
    donnees['Horodatage_Unifié'] = donnees[col_horodatage_ref]
else:
    raise ValueError("Aucune colonne d'horodatage détectée. Impossible de continuer.")

# Supprimer les autres colonnes d'horodatage
donnees = donnees.drop(columns=colonnes_horodatage)

# Étape 4 : Afficher les colonnes après suppression des horodatages
print("Colonnes après suppression des horodatages :", donnees.columns.tolist())
print("Nombre de lignes après suppression des horodatages :", len(donnees))

# Étape 5 : Définir les colonnes attendues
colonnes_attendues = [
    'Débit d\'entrée d\'acide m3/h',
    'Débit de vapeur Kg/h',
    'Température de sortie évaporateur en C°',
    'Vide bouilleur en torr',
    'Densité de sortie',
    'Horodatage_Unifié'
]
print("Colonnes attendues :", colonnes_attendues)

# Identifier et supprimer les colonnes supplémentaires
colonnes_supplementaires = [col for col in donnees.columns if col not in colonnes_attendues]
print("Colonnes supplémentaires détectées :", colonnes_supplementaires)
if colonnes_supplementaires:
    print(f"Suppression des colonnes supplémentaires : {colonnes_supplementaires}")
    donnees = donnees.drop(columns=colonnes_supplementaires)

# Étape 6 : Vérifier les colonnes après suppression
print("Colonnes après suppression des colonnes supplémentaires :", donnees.columns.tolist())
print("Nombre de lignes après suppression des colonnes supplémentaires :", len(donnees))
# Étape 7 : Vérifier les valeurs manquantes
print("Valeurs manquantes par colonne :")
print(donnees.isnull().sum())
# Imputer les valeurs manquantes par interpolation linéaire
donnees = donnees.interpolate(method='linear', limit_direction='both')
print("Valeurs manquantes après interpolation :")
print(donnees.isnull().sum())
# Étape 7 : Vérifier les horodatages
print("Plage des horodatages :", donnees['Horodatage_Unifié'].min(), "à", donnees['Horodatage_Unifié'].max())

# Étape 8 : Supprimer les périodes d'arrêt (débits nuls ou négatifs)
donnees_avant_filtrage_debits = donnees.copy()  # Sauvegarder une copie pour diagnostic
try:
    print("Statistiques des débits avant filtrage :")
    print("Débit d'entrée d'acide m3/h :", donnees["Débit d'entrée d'acide m3/h"].describe())
    print("Débit de vapeur Kg/h :", donnees["Débit de vapeur Kg/h"].describe())
    donnees = donnees[(donnees["Débit d'entrée d'acide m3/h"] > 0) & (donnees["Débit de vapeur Kg/h"] > 0)]
except KeyError as e:
    print(f"Erreur : Colonne manquante - {e}. Vérifiez les noms des colonnes dans 'Colonnes après suppression des colonnes supplémentaires'.")
    raise

# Étape 9 : Vérifier le nombre de lignes après filtrage des débits
print("Nombre de lignes après filtrage des débits nuls/négatifs :", len(donnees))

# Étape 10 : Formater la colonne Horodatage_Unifié en 'mois/jour/année Heure:Minutes'
donnees['Horodatage_Unifié'] = donnees['Horodatage_Unifié'].dt.strftime('%m/%d/%Y %H:%M')

# Étape 11 : Renommer les colonnes en français
donnees.columns = [
    'Débit_Acide_m3h',
    'Débit_Vapeur_kgh',
    'Température_Évaporateur_C',
    'Vide_Bouilleur_torr',
    'Densité_Sortie',
    'Horodatage_Unifié'
]

# Étape 12 : Réorganiser les colonnes pour placer l'horodatage en premier
ordre_souhaité = [
    'Horodatage_Unifié',
    'Débit_Acide_m3h',
    'Débit_Vapeur_kgh',
    'Température_Évaporateur_C',
    'Vide_Bouilleur_torr',
    'Densité_Sortie'
]
donnees = donnees[ordre_souhaité]

# Étape 13 : Enregistrer les données nettoyées dans un nouveau fichier Excel
donnees.to_excel('donnees_nettoyees.xlsx', index=False)


# Afficher les premières lignes des données nettoyées
print("\nDonnées nettoyées :")
print(donnees.head())


Colonnes initiales : ['Unnamed: 0', "Débit d'entrée d'acide m3/h", 'Unnamed: 2', 'Débit de vapeur Kg/h', 'Unnamed: 4', 'Unnamed: 5', 'Température de sortie évaporateur en C°', 'Unnamed: 7', 'Unnamed: 8', 'Vide bouilleur en torr', 'Unnamed: 10', 'Densité de sortie']
Nombre de lignes initiales : 2790
Colonnes d'horodatage détectées : ['Unnamed: 0', 'Unnamed: 2', 'Unnamed: 5', 'Unnamed: 8', 'Unnamed: 10']
Colonnes après suppression des horodatages : ["Débit d'entrée d'acide m3/h", 'Débit de vapeur Kg/h', 'Unnamed: 4', 'Température de sortie évaporateur en C°', 'Unnamed: 7', 'Vide bouilleur en torr', 'Densité de sortie', 'Horodatage_Unifié']
Nombre de lignes après suppression des horodatages : 2790
Colonnes attendues : ["Débit d'entrée d'acide m3/h", 'Débit de vapeur Kg/h', 'Température de sortie évaporateur en C°', 'Vide bouilleur en torr', 'Densité de sortie', 'Horodatage_Unifié']
Colonnes supplémentaires détectées : ['Unnamed: 4', 'Unnamed: 7']
Suppression des colonnes supplémentaires :

In [28]:
print("Valeurs manquantes après interpolation :")
print(donnees.isnull().sum())

Valeurs manquantes après interpolation :
Horodatage_Unifié            0
Débit_Acide_m3h              0
Débit_Vapeur_kgh             0
Température_Évaporateur_C    0
Vide_Bouilleur_torr          0
Densité_Sortie               0
dtype: int64
