In [None]:
import pandas as pd
import numpy as np

# --- CHARGEMENT DU FICHIER ---
fichier_entree_initial = "UGB_Sanar_Station_Dataset_Clean.csv"
fichier_sortie_final_nettoye = "UGB_Sanar_Station_Final.csv"

# Lire le fichier CSV
df = pd.read_csv(fichier_entree_initial)

# --- ÉTAPE 1 : SUPPRESSION DES COLONNES PEU REMPLIES ---
taux_complétion = df.notnull().mean()
colonnes_a_supprimer = taux_complétion[taux_complétion < 0.60].index.tolist()
df = df.drop(columns=colonnes_a_supprimer)

# --- ÉTAPE 2 : SUPPRESSION DES COLONNES INUTILES OU BRUITÉES ---
colonnes_inutiles = [col for col in df.columns if "Unnamed" in col or "Commentaire" in col or "responsable" in col.lower()]
df = df.drop(columns=colonnes_inutiles)

# --- ÉTAPE 3 : NETTOYAGE DES NOMS DE COLONNES ---
df.columns = (
    df.columns
    .str.strip()
    .str.replace(r"[^\w\s]", "", regex=True)
    .str.replace(" ", "_")
    .str.lower()
)

# --- ÉTAPE 4 : SUPPRESSION DES LIGNES DOUBLONS ---
df = df.drop_duplicates()

# --- ÉTAPE 5 : CONVERSION DES DATES (si applicable) ---
if 'date' in df.columns:
    df['date'] = pd.to_datetime(df['date'], errors='coerce')

# --- ÉTAPE 6 : AFFICHAGE DES INFORMATIONS ---
print("Colonnes restantes :", df.columns.tolist())
print("\nAperçu des premières lignes :\n", df.head())
print("\nStatistiques descriptives :\n", df.describe(include='all'))

# --- ÉTAPE 7 : ENREGISTREMENT DU FICHIER NETTOYÉ ---
df.to_csv(fichier_sortie_final_nettoye, index=False)
print(f"\n✅ Fichier nettoyé enregistré sous : {fichier_sortie_final_nettoye}")
