# Statistiques de base avec pandas

Dans ce notebook, nous allons apprendre à calculer les principales statistiques descriptives (moyenne, médiane, écart-type, variance) et à utiliser les regroupements (`groupby`) avec pandas.

## Objectifs
- Calculer moyenne, médiane, écart-type, variance
- Utiliser `groupby` pour des statistiques par groupe
- Interpréter les résultats sur des jeux de données réels

## 1. Préparation de l'environnement

In [None]:
import pandas as pd
import numpy as np

## 2. Chargement d'un jeu de données exemple

Pour cette séance, nous allons utiliser le jeu de données Titanic (ou un jeu de données similaire).

In [None]:
# Exemple avec un lien en ligne (dataset des passagers du Titanic)
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
df.head()

## 3. Statistiques descriptives de base

In [None]:
# Moyenne de l'âge
df['age'].mean()

In [None]:
# Médiane de l'âge
df['age'].median()

In [None]:
# Écart-type de l'âge
df['age'].std()

In [None]:
# Variance de l'âge
df['age'].var()

## 4. Statistiques descriptives sur plusieurs colonnes

In [None]:
# Statistiques descriptives pour plusieurs colonnes numériques
df[['age', 'fare']].describe()

## 5. Regroupements (`groupby`)

Calculons la moyenne de l'âge par classe de billet (`pclass`).

In [None]:
df.groupby('pclass')['age'].mean()

In [None]:
# Médiane du prix du billet par classe
df.groupby('pclass')['fare'].median()

In [None]:
# Moyenne de l'âge par sexe
df.groupby('sex')['age'].mean()

## 6. Statistiques multiples par groupe

On peut appliquer plusieurs fonctions à la fois avec `.agg()`.

In [None]:
df.groupby('pclass')['age'].agg(['mean', 'median', 'std', 'count'])

## 7. Exercice pratique

**Question :**
- Calcule la moyenne et la médiane de l'âge pour chaque combinaison de `sex` et `pclass`.
- Quelle catégorie a l'âge moyen le plus élevé ?

In [None]:
# À compléter par l'apprenant
df.groupby(['sex', 'pclass'])['age'].agg(['mean', 'median'])

## 8. Pour aller plus loin

- Documentation pandas : https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html
- Essayez avec vos propres jeux de données !