# Agrégations et groupby

Ce notebook présente comment calculer des statistiques agrégées et utiliser groupby pour des analyses par groupe.


## Problème métier : calculer des indicateurs par groupe

En analyse commerciale, vous devez souvent calculer :
- Le chiffre d'affaires total par catégorie de produit
- La vente moyenne par région
- Le nombre de transactions par client
- Plusieurs indicateurs simultanément par groupe


In [None]:
import pandas as pd

# Charger les données
df = pd.read_csv('../../data/ventes_commerces.csv')

# Agrégations simples sur une colonne
total_ventes = df['montant_total'].sum()
moyenne_ventes = df['montant_total'].mean()
print(f"Total ventes : {total_ventes}")
print(f"Moyenne ventes : {moyenne_ventes:.2f}")


In [None]:
# Plusieurs agrégations avec .agg()
stats_ventes = df['montant_total'].agg(['sum', 'mean', 'min', 'max', 'count'])
print("Statistiques sur montant_total :")
print(stats_ventes)


## Groupby : agrégations par groupe

`groupby()` permet de regrouper les données selon une ou plusieurs colonnes, puis d'appliquer des fonctions d'agrégation à chaque groupe.


In [None]:
# Grouper par catégorie et calculer la somme des ventes
ventes_par_categorie = df.groupby('categorie')['montant_total'].sum()
print("Ventes totales par catégorie :")
print(ventes_par_categorie)


In [None]:
# Plusieurs agrégations par groupe
stats_par_categorie = df.groupby('categorie')['montant_total'].agg(['sum', 'mean', 'count'])
print("Statistiques par catégorie :")
print(stats_par_categorie)


In [None]:
# Grouper par plusieurs colonnes
ventes_par_categorie_region = df.groupby(['categorie', 'region'])['montant_total'].sum()
print("Ventes par catégorie et région :")
print(ventes_par_categorie_region)


### Exercice : Analyses par groupe

1. Calculez le nombre de transactions par région
2. Calculez la vente moyenne par catégorie
3. Groupez par catégorie et région, puis calculez la somme et la moyenne des montants
4. Identifiez la catégorie avec le chiffre d'affaires total le plus élevé


In [None]:
# A COMPLETER
# 1. Nombre de transactions par région
# transactions_region = ...

# 2. Vente moyenne par catégorie
# moyenne_categorie = ...

# 3. Statistiques par catégorie et région
# stats_cat_region = ...

# 4. Catégorie avec CA le plus élevé
# ca_par_categorie = ...
# categorie_max = ...
