### Charger les données

Avant de nettoyer les données, il faut les charger :

In [None]:
import pandas as pd

# Charger un fichier CSV
df = pd.read_csv("data.csv")
pd.set_option('display.max_columns', None) #permet d'afficher toutes les colonnes

# Afficher les premières lignes
print(df.head())

On peut aussi charger d'autres formats comme Excel ```(pd.read_excel())```, JSON ```(pd.read_json())``` ou SQL ```(pd.read_sql())```.

### Comprendre les données
Avant de nettoyer, il faut examiner l'état des données :

In [None]:
# Afficher des infos générales
print(df.info())

# Résumé statistique des colonnes numériques
print(df.describe())

# Voir les valeurs uniques d'une colonne
print(df["colonne"].unique())


### Modifier les données

On peut réaliser plusieurs modifications pour plus de lisibilité.

In [None]:
df.rename(columns={
            'price': 'prix(million)', 
            'area': 'air(m2)',
            'bedrooms' : 'chambres',
            'bathrooms' : 'sdb',
            'stories' : 'étages',
            'mainroad' : 'route principale',
            'guestroom' : 'chambre ami',
            'basement' : 'sous sol',
            'hotwaterheating' : 'chauffage au gaz',
            'airconditioning' : 'climatisation',
            'parking' : 'parking',
            'prefarea' : 'résidentiel',
            'furnishingstatus' : 'meublé',
            }, inplace=True)

### Gérer les valeurs manquantes
Les valeurs manquantes sont un problème courant. Voici comment les détecter et les traiter :  

- Détection des valeurs manquantes :

In [None]:
print(df.isnull().sum())  # Compter le nombre de NaN par colonne

- Supprimer les lignes ou colonnes avec des valeurs manquantes :

In [None]:
df = df.dropna()  # Supprime toutes les lignes avec au moins un NaN
df = df.dropna(axis=1)  # Supprime les colonnes avec au moins un NaN

- Remplacer les valeurs manquantes :

In [None]:
df["colonne"] = df["colonne"].fillna("valeur_par_défaut")  # Remplir avec une valeur spécifique
df["colonne"] = df["colonne"].fillna(df["colonne"].mean())  # Remplir avec la moyenne

### Gérer les doublons
Les doublons peuvent fausser les analyses :

In [None]:
# Détection des doublons
print(df.duplicated().sum())
# ou aussi
df.loc[df.duplicated()]

# Suppression des doublons
df = df.drop_duplicates()


### Correction des types de données
Parfois, les données sont mal typées :

In [None]:
# Convertir une colonne en numérique
df["colonne"] = pd.to_numeric(df["colonne"], errors="coerce")

# Convertir une colonne en date
df["date_colonne"] = pd.to_datetime(df["date_colonne"], errors="coerce")


### Standardisation et Normalisation des Données
Les données peuvent être dans des unités différentes ou avoir des échelles variées. Il est souvent nécessaire de les standardiser.

- Standardisation (centrage-réduction, moyenne = 0, écart-type = 1) :

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[["colonne1", "colonne2"]] = scaler.fit_transform(df[["colonne1", "colonne2"]])


- Normalisation (valeurs entre 0 et 1) :

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[["colonne1", "colonne2"]] = scaler.fit_transform(df[["colonne1", "colonne2"]])


### Détection et Suppression des Valeurs Aberrantes (Outliers)
Les valeurs aberrantes peuvent fausser les analyses statistiques.

- Utilisation de l'IQR (Interquartile Rang, 50 % des valeurs centrales) :

In [None]:
Q1 = df["colonne"].quantile(0.25)
Q3 = df["colonne"].quantile(0.75)
IQR = Q3 - Q1

df = df[~((df["colonne"] < (Q1 - 1.5 * IQR)) | (df["colonne"] > (Q3 + 1.5 * IQR)))]

- Utilisation de l'écart-type (variabilité des données) :

In [None]:
mean = df["colonne"].mean()
std = df["colonne"].std()

df = df[(df["colonne"] > mean - 3 * std) & (df["colonne"] < mean + 3 * std)]

### Nettoyage des Données Textuelles
Les données textuelles nécessitent souvent un prétraitement, notamment pour du NLP ou des analyses.

- Suppression des espaces en trop :

In [None]:
df["colonne"] = df["colonne"].str.strip()

- Mise en minuscule :

In [None]:
df["colonne"] = df["colonne"].str.lower()

- Suppression des caractères spéciaux :

In [None]:
import re
df["colonne"] = df["colonne"].apply(lambda x: re.sub(r"[^a-zA-Z0-9 ]", "", x))

- Suppression des stopwords (mots inutiles) avec nltk :

In [None]:
from nltk.corpus import stopwords
stop_words = set(stopwords.words("french"))

df["colonne"] = df["colonne"].apply(lambda x: " ".join([word for word in x.split() if word not in stop_words]))

### Détection et Correction des Fautes de Saisie
On peut utiliser ````fuzzywuzzy```` pour corriger des noms mal écrits.

In [None]:
from fuzzywuzzy import process

choices = ["Paris", "Marseille", "Lyon"]
df["colonne_corrigée"] = df["colonne"].apply(lambda x: process.extractOne(x, choices)[0])

### Encodage des Variables Catégoriques
Si une colonne contient des catégories, il faut l'encoder en numérique :

- Encodage One-Hot (binaire) :

In [None]:
df = pd.get_dummies(df, columns=["categorie"], drop_first=True)

- Encodage Ordinal :

In [None]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder(categories=[["Bas", "Moyen", "Élevé"]])
df["colonne"] = encoder.fit_transform(df[["colonne"]])

### Fusion et Regroupement de Données
Parfois, il faut combiner plusieurs sources de données.

- Jointure entre deux DataFrames :

In [None]:
df_final = df1.merge(df2, on="clé_commune", how="left")

- Concaténation verticale :

In [None]:
df_final = pd.concat([df1, df2], axis=0)

- Agrégation des données :

In [None]:
df_grouped = df.groupby("colonne_catégorique").agg({"colonne_numérique": "mean"})

### Automatisation des Nettoyages avec des Pipelines
Pour structurer le processus, on peut utiliser ```sklearn.pipeline```.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

pipeline = Pipeline([
    ("imputation", SimpleImputer(strategy="mean")),
    ("normalisation", StandardScaler())
])

df[["colonne1", "colonne2"]] = pipeline.fit_transform(df[["colonne1", "colonne2"]])

### Gestion des données volumineuses
Quand on travaille avec des millions de lignes, pandas peut atteindre ses limites. On utilise alors des alternatives comme Dask, Polars ou PySpark.

#### Exemple avec Dask pour charger et traiter un fichier volumineux

In [None]:
import dask.dataframe as dd

# Chargement d'un fichier CSV volumineux
df = dd.read_csv("large_dataset.csv")

# Appliquer des transformations (remplacement des NaN et conversion d'un champ)
df = df.fillna({"colonne1": "Valeur par défaut"})
df["colonne2"] = df["colonne2"].astype(float)

# Sauvegarde après transformation
df.to_csv("cleaned_data.csv", single_file=True)

✅ Avantages de Dask : Il permet de traiter les données en parallèle et de travailler avec des jeux de données qui dépassent la mémoire RAM.

### Traitement des valeurs aberrantes et incohérentes
Les valeurs aberrantes (outliers) peuvent fausser les analyses et les modèles. On peut les identifier via :  
✔ Méthodes statistiques (Z-score, IQR)  
✔ Méthodes basées sur le Machine Learning  

#### Détection des outliers avec l'IQR (Interquartile Range)

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({"salaire": [2500, 3000, 4000, 50000, 3200, 2900, 2800, 2600]})

# Calcul des quartiles
Q1 = df["salaire"].quantile(0.25)
Q3 = df["salaire"].quantile(0.75)
IQR = Q3 - Q1

# Détection des outliers (1.5 fois l'IQR en dehors de Q1 et Q3)
outliers = df[(df["salaire"] < (Q1 - 1.5 * IQR)) | (df["salaire"] > (Q3 + 1.5 * IQR))]
print(outliers)

✅ Solution : Remplacer par la médiane ou utiliser une transformation logarithmique.

### Détection et correction des erreurs typographiques
Les erreurs humaines (ex: "Frnace" au lieu de "France") peuvent fausser les analyses.  

✔ Fuzzy Matching avec fuzzywuzzy ou thefuzz  
✔ Correction automatique avec textdistance ou SymSpell  

#### Correction des fautes avec TheFuzz

In [None]:
from thefuzz import process

# Liste de valeurs correctes
pays_corrects = ["France", "Allemagne", "Espagne", "Italie"]

# Valeur erronée à corriger
valeur_a_corriger = "Frnace"

# Trouver la correspondance la plus proche
correction = process.extractOne(valeur_a_corriger, pays_corrects)
print(correction)  # ('France', 90)

✅ Application : Corriger les noms de clients, pays, villes, etc.

### Fusion et Dédoublonnage des Données
Lorsqu'on intègre des données de sources multiples, on doit fusionner et supprimer les doublons.  

#### Fusion de datasets sur des clés partielles
Exemple : On fusionne deux jeux de données où les identifiants ne sont pas identiques à 100% (```merge_asof``` pour joindre sur des valeurs proches) :

In [None]:
import pandas as pd

df1 = pd.DataFrame({"id_client": [101, 102, 103], "nom": ["Alice", "Bob", "Charlie"]})
df2 = pd.DataFrame({"id_client": [102, 103, 104], "achat": ["Ordinateur", "Téléphone", "Tablette"]})

# Fusion basée sur l'ID client
df_merged = pd.merge(df1, df2, on="id_client", how="outer")
print(df_merged)

✅ Problème classique : Des identifiants mal formatés peuvent empêcher la fusion → On peut normaliser les valeurs avant.

#### Dédoublonnage avancé avec record linkage
On peut identifier des doublons malgré des erreurs typographiques :

In [None]:
import recordlinkage

indexer = recordlinkage.Index()
indexer.block("nom")  # Bloque sur les valeurs exactes

df_pairs = indexer.index(df1, df2)

# Comparaison des champs
compare = recordlinkage.Compare()
compare.string("nom", "nom", method="jarowinkler", threshold=0.85)

similarities = compare.compute(df_pairs, df1, df2)
print(similarities)

✅ Application : Identifier des doublons dans des bases clients.

### Standardisation des formats et des unités
Quand on intègre des données de sources multiples, on doit harmoniser les formats.

#### Conversion d'unités automatiquement
Exemple : Conversion de devises avec ```forex-python```

In [None]:
from forex_python.converter import CurrencyRates

c = CurrencyRates()
usd_to_eur = c.convert("USD", "EUR", 100)
print(usd_to_eur)  # Conversion de 100 USD en EUR

✅ Application : Uniformiser les données financières.

### Détection d'Anomalies avec des Méthodes Avancées
Au-delà des méthodes statistiques, on peut utiliser des algorithmes ML.

#### Détection avec Isolation Forest

In [None]:
from sklearn.ensemble import IsolationForest

df = pd.DataFrame({"valeur": [10, 12, 13, 200, 15, 11, 14]})

iso_forest = IsolationForest(contamination=0.1)
df["anomalie"] = iso_forest.fit_predict(df[["valeur"]])
print(df)

✅ Application : Détection de fraudes, valeurs suspectes.