# Détection des outliers et doublons

Ce notebook présente les techniques pour identifier et traiter les valeurs aberrantes et les doublons.


## Détection des doublons

Les doublons peuvent fausser les analyses en surreprésentant certaines observations.


In [None]:
import pandas as pd

# Charger les données
df = pd.read_csv('../../data/ventes_commerces.csv')

# Détecter les doublons
doublons = df.duplicated()
print(f"Nombre de doublons : {doublons.sum()}")

# Afficher les lignes en doublon
if doublons.sum() > 0:
    print("\nLignes en doublon :")
    print(df[doublons])

# Supprimer les doublons
df_sans_doublons = df.drop_duplicates()
print(f"\nLignes avant : {len(df)}, Lignes après : {len(df_sans_doublons)}")


## Détection des outliers : méthode IQR

L'Inter Quartile Range (IQR) permet d'identifier les valeurs aberrantes statistiquement.


In [None]:
# Calculer l'IQR pour la colonne prix_unitaire
Q1 = df['prix_unitaire'].quantile(0.25)
Q3 = df['prix_unitaire'].quantile(0.75)
IQR = Q3 - Q1

print(f"Q1 : {Q1}, Q3 : {Q3}, IQR : {IQR}")

# Définir les seuils
seuil_bas = Q1 - 1.5 * IQR
seuil_haut = Q3 + 1.5 * IQR

print(f"Seuils : [{seuil_bas}, {seuil_haut}]")

# Identifier les outliers
outliers = df[(df['prix_unitaire'] < seuil_bas) | (df['prix_unitaire'] > seuil_haut)]
print(f"\nNombre d'outliers : {len(outliers)}")
print(outliers[['produit_id', 'prix_unitaire']].head())


### Exercice : Traiter les outliers

1. Identifiez les outliers sur la colonne `montant_total`
2. Décidez d'une stratégie : suppression, remplacement par la médiane, ou conservation
3. Justifiez votre choix


In [None]:
# A COMPLETER
# Identifier les outliers sur montant_total
# ...

# Appliquer une stratégie de traitement
# ...
