# Statistiques descriptives

Ce notebook présente les statistiques descriptives essentielles pour comprendre la distribution des données.


## Problème métier : résumer les données

Avant toute analyse approfondie, vous devez comprendre les caractéristiques de base de vos données :
- Quelle est la valeur typique ?
- Quelle est la dispersion des valeurs ?
- Y a-t-il des asymétries ?


In [None]:
import pandas as pd
import numpy as np

# Charger les données
df = pd.read_csv('../../data/ventes_commerces.csv')

# Aperçu des données
print("Premières lignes :")
print(df.head())
print(f"\nDimensions : {df.shape}")


## Mesures de tendance centrale

Les mesures de tendance centrale indiquent la valeur typique d'une distribution.


In [None]:
# Moyenne : somme des valeurs / nombre de valeurs
moyenne = df['montant_total'].mean()
print(f"Moyenne : {moyenne:.2f}")

# Médiane : valeur centrale (50ème percentile)
mediane = df['montant_total'].median()
print(f"Médiane : {mediane:.2f}")

# Mode : valeur la plus fréquente
mode = df['categorie'].mode()[0]
print(f"Catégorie la plus fréquente : {mode}")


## Mesures de dispersion

Les mesures de dispersion indiquent l'étendue de la variabilité des données.


In [None]:
# Écart-type : mesure de la dispersion autour de la moyenne
ecart_type = df['montant_total'].std()
print(f"Écart-type : {ecart_type:.2f}")

# Variance : carré de l'écart-type
variance = df['montant_total'].var()
print(f"Variance : {variance:.2f}")

# Quartiles
Q1 = df['montant_total'].quantile(0.25)
Q2 = df['montant_total'].quantile(0.50)  # = médiane
Q3 = df['montant_total'].quantile(0.75)
print(f"\nQuartiles : Q1={Q1:.2f}, Q2={Q2:.2f}, Q3={Q3:.2f}")

# Résumé complet
print("\nRésumé statistique :")
print(df[['prix_unitaire', 'quantite', 'montant_total']].describe())


### Exercice : Statistiques par catégorie

Calculez les statistiques descriptives (moyenne, médiane, écart-type) du montant_total pour chaque catégorie de produit. Quelle catégorie a le montant moyen le plus élevé ?


In [None]:
# A COMPLETER
# Calculer les statistiques par catégorie
# stats_par_categorie = ...
