# Filtrage de données

Ce notebook présente comment filtrer un DataFrame selon des conditions.


## Problème métier : isoler des sous-ensembles pertinents

En analyse de données, vous devez fréquemment :
- Identifier les ventes supérieures à un seuil
- Filtrer par catégorie ou région
- Combiner plusieurs conditions (ventes élevées ET dans une région spécifique)


In [None]:
import pandas as pd

# Charger les données
df = pd.read_csv('../../data/ventes_commerces.csv')

# Filtrage avec une condition simple
ventes_elevees = df[df['montant_total'] > 200]
print(f"Nombre de ventes > 200 : {len(ventes_elevees)}")
print(ventes_elevees.head())


In [None]:
# Filtrage avec condition sur une colonne catégorielle
ventes_electronique = df[df['categorie'] == 'Electronique']
print(f"Ventes Electronique : {len(ventes_electronique)}")
print(ventes_electronique.head())


## Conditions multiples

Pour combiner plusieurs conditions, utilisez les opérateurs `&` (ET), `|` (OU), `~` (NON). Important : chaque condition doit être entre parenthèses.


In [None]:
# Condition ET : ventes élevées ET Electronique
ventes_elevees_electronique = df[(df['montant_total'] > 200) & (df['categorie'] == 'Electronique')]
print(f"Ventes élevées Electronique : {len(ventes_elevees_electronique)}")

# Condition OU : Electronique OU Meuble
ventes_categories = df[(df['categorie'] == 'Electronique') | (df['categorie'] == 'Meuble')]
print(f"Ventes Electronique ou Meuble : {len(ventes_categories)}")

# Condition NON : toutes les catégories sauf Electronique
ventes_non_electronique = df[~(df['categorie'] == 'Electronique')]
print(f"Ventes non-Electronique : {len(ventes_non_electronique)}")


### Exercice : Filtrage

1. Filtrez les ventes dont le montant_total est supérieur à 150
2. Filtrez les ventes de la région 'Nord'
3. Filtrez les ventes avec montant_total > 100 ET catégorie 'Sport'
4. Filtrez les ventes où la quantité est supérieure ou égale à 5


In [None]:
# A COMPLETER
# 1. Ventes > 150
# ventes_150 = ...

# 2. Ventes région Nord
# ventes_nord = ...

# 3. Ventes > 100 ET Sport
# ventes_sport = ...

# 4. Quantité >= 5
# ventes_quantite = ...
