In [7]:
import pandas as pd
import os

# ✅ Utilisation de chemins relatifs professionnels
DATA_PATH = os.path.join("..", "..", "data", "donnees_brutes.csv")
OUTPUT_PATH = os.path.join("..", "..", "data", "donnees_nettoyees.csv")

def nettoyer_donnees():
    """
    Charge le fichier brut, nettoie les valeurs manquantes,
    extrait l'année, et exporte le fichier nettoyé.
    """
    df = pd.read_csv(DATA_PATH)

    # 1. Nettoyage des colonnes critiques
    colonnes_essentielles = ["Produit", "Flux", "Date"]
    df = df.dropna(subset=colonnes_essentielles)

    # 2. Traitement des valeurs manquantes pour 'Montant'
    if df["Montant"].isna().sum() > 0:
        mediane_montant = df["Montant"].median()
        df.loc[:, "Montant"] = df["Montant"].fillna(mediane_montant)

    # 3. Nettoyage et conversion des dates
    df["Date"] = pd.to_datetime(df["Date"], errors="coerce")
    df = df.dropna(subset=["Date"])
    df["Année"] = df["Date"].dt.year

    # 4. Export du fichier nettoyé
    df.to_csv(OUTPUT_PATH, index=False, encoding="utf-8-sig")
    return df

if __name__ == "__main__":
    df_resultat = nettoyer_donnees()
    print("✅ Données nettoyées. Aperçu :")
    print(df_resultat.head())


✅ Données nettoyées. Aperçu :
                                             Produit          Flux       Date  \
0                                    ANIMAUX VIVANTS  Exportations 2010-01-01   
1                       VIANDES ET ABATS COMESTIBLES  Exportations 2010-01-01   
2  POISSONS ET CRUSTACES, MOLLUSQUES ET AUTRES IN...  Exportations 2010-01-01   
3  LAIT; OEUFS D'OISEAUX; MIEL; PRODUITS COMESTIB...  Exportations 2010-01-01   
4  AUTRES PRODUITS D'ORIGINE ANIMALE, NON DENOMME...  Exportations 2010-01-01   

        Montant  Année  
0  1.153389e+07   2010  
1  1.941858e+07   2010  
2  8.254505e+09   2010  
3  3.880829e+08   2010  
4  3.535798e+08   2010  
