# Quelques mesures statistiques

Les mesures que nous abordons dans ce chapitre servent à synthétiser les résultats des observations d’une variable aléatoire, à l’instar des populaires moyenne et médiane. En plus de ces mesures de tendance centrale, nous explorons des mesures de la dispersion des données, comme la variance ou l’écart-type.

Pour illustrer les différentes méthodes décrites dans ce calepin électronique, nous nous appuierons sur une liste de trois cents nombres aléatoires entre 15 et 80, afin de simuler une variable aléatoire qui enregistrerait dans une enquête statistique l’âge des individus interrogés :

In [None]:
import numpy as np
import random

# 300 values between 15-80
ages = [
    random.randint(15, 80)
    for _ in range(300)
]

# some extreme values
outliers = [5, 110, 120, 0, 150]
ages.extend(outliers)

# shuffle
random.shuffle(ages)

## Les mesures de tendance centrale

### La moyenne

Il existe trois types de moyennes que l’on peut juger opportun de calculer pour une série statistique :

- La moyenne arithmétique, qui est une simple division de la somme des observations d’une variable par le nombre des observations ;
- la moyenne tronquée, qui reprend le principe de la première en soustrayant les valeurs extrêmes ;
- la moyenne pondérée, qui affecte un poids différent à une ou plusieurs observations.

#### La moyenne arithmétique

Il s’agit de faire la somme de toutes les valeurs et de la diviser par le nombre des valeurs, selon la formule :

$$
\bar{x} = \dfrac{x_1 + x_2 + \ldots + x_n}{n}
$$

Avec Python :

In [None]:
mean = sum(ages) / len(ages)

print(f"L’âge moyen est de {mean:.2f} ans.")

Il est également possible d’utiliser la fonction `mean()` du module `statistics`.

#### La moyenne réduite

Pour obtenir cette mesure, on va simplement retirer certaines valeurs et appliquer ensuite le calcul de la moyenne arithmétique. Parmi les stratégies possibles, la plus courante consiste à trier les données et à retirer le même nombre de valeurs à droite et à gauche afin de réduire l’impact des données extrêmes voire aberrantes :

$$
\bar{x} = \dfrac{x_2 + x_3 + \ldots + x_{n-1}}{n-2}
$$

Avec Python :

In [None]:
# sort
ages_sorted = sorted(ages)
# nb of values to remove on one side
z = 2

mean = sum(ages_sorted[z:-z]) / len(ages_sorted) - z * 2

print(f"L’âge moyen est de {mean:.2f} ans.")

#### La moyenne pondérée

La moyenne pondérée attribue un poids à chaque valeur afin de déterminer la force de leur impact dans l’ensemble des données :

$$
\bar{x} = \dfrac{\alpha_1 x_1 + \alpha_2 x_2 + \ldots + \alpha_n x_n}{\alpha_1 + \alpha_1 + \ldots + \alpha_n}
$$

**Cas particulier :** si la somme des poids est égale à 1, la formule se simplifie en :

$$
\bar{x} = \sum_{i=1}^{n} \alpha_i x_i
$$

Avec Python :

In [None]:
weights = [ random.random() for _ in range(len(ages)) ]

mean = sum([ age * weight for age, weight in zip(ages, weights) ]) / sum(weights)

print(f"L’âge moyen pondéré est de {mean:.2f} ans.")

Il existe une méthode `.average()` dans la bibliothèque *Numpy* pour réaliser la même opération :

In [None]:
mean = np.average(ages, weights=weights)

### La médiane

Comme le met en lumière le calcul de la moyenne réduite, les valeurs extrêmes peuvent influer fortement sur la moyenne des valeurs d’une variable. Parfois, une simple erreur de saisie, comme l’ajout d'un zéro à la fin de la numération des globules rouges (50 000 000 au lieu de 5 000 000 d’hématies) ou le déplacement de la virgule dans le taux d’endettement d’un pays (18,16 % au lieu de 181,6 %) peuvent renvoyer une image fausse de la réalité.

La médiane est une mesure qui va d’abord trier les valeurs en deux groupes égaux et se positionner ensuite entre eux. Contrairement à la moyenne arithmétique, la médiane est une mesure observée avec un sens concret : il y a autant d’individus à droite qu’à gauche de la séparation.

$$
\text{Médiane} = 
\begin{cases} 
\text{élément au rang } \left(\frac{n+1}{2}\right) & \text{si } n \text{ est impair} \\
\frac{\text{élément au rang } \left(\frac{n}{2}\right) + \text{élément au rang } \left(\frac{n}{2} + 1\right)}{2} & \text{si } n \text{ est pair}
\end{cases}
$$

In [None]:
n = len(ages_sorted)

median = ages_sorted[n // 2] if n % 2 else (ages_sorted[n // 2 - 1] + ages_sorted[n // 2]) / 2

print(f"L’âge médian est de {median:.2f} ans.")

Et, cette fois-ci, le module `statistics` connaît une fonction `median()` pour réaliser le calcul directement

### Le mode

Le mode est simplement l’expression de la valeur la plus représentée dans une série statistique. Elle implique une opération de dédoublonnage et de comptage des occurrences de chaque valeur pour ressortir celle qui est la plus fréquente.

**Remarque :** Le mode n’est une mesure de la tendance centrale qu’en présence d’une série statistiques unimodale dont la distribution répond à une loi normale. Dès lors que l’on observe une asymétrie ou un phénomène de multimodalité, le mode n’est plus que l’indicateur de popularité d’une valeur.

Avec Python :

In [None]:
frequencies = { age: ages.count(age) for age in set(ages) }
mode = max(frequencies, key=frequencies.get)

print(f"Une majorité de personnes ont {mode:} ans.")

Là encore, le module `statistics` fournit une fonction `mode()` pour obtenir la mesure sans déployer soi-même une stratégie. Et, dans le cas de distributions multimodales, on fera plutôt appel à la fonction `multimode()`.

### Les quantiles

Les quantiles servent à séparer une série en *n* groupes égaux. La médiane est un exemple de quantile d’ordre $\frac{1}{2}$. Ceux que l’on rencontre le plus souvent sont les quartiles ($\frac{1}{4}$), les déciles ($\frac{1}{10}$) et les percentiles ($\frac{1}{100}$). En pratique, ils servent à attester qu’une certaine proportion d’individus se situe en dessous d’un certain seuil.

Une mesure intéressante est **l’intervalle interquartile** qui désigne l’intervalle entre le 1er et le 3e quartiles, tel qu’il contienne 50 % des valeurs de la série.

$$
Q_p = \left( \frac{(n+1) \cdot p}{100} \right)
$$

Avec Python :

In [None]:
q = 0.25 # quantile
n = len(ages_sorted)
position = (n - 1) * q
lower = int(position)
upper = lower + 1

if upper < n:
    alpha = ages_sorted[lower] + (position - lower) * (ages_sorted[upper] - ages_sorted[lower])
else:
    alpha = ages_sorted[lower]

print(f"{q:.2%} des personnes interrogées se situent en dessous de {int(alpha)} ans.")

Avec *Numpy*, on peut employer la méthode `.percentile()` :

In [None]:
np.percentile(a=ages, q=25)

### La proportion cumulative

À l’inverse des quantiles, il est possible de déterminer quelle proportion d’individus est sous un certain seuil. Pour cela, il convient de trier les données, de dénombrer les valeurs jusqu’au seuil et de diviser par le nombre total d’observations.

Avec Python :

In [None]:
alpha = 40
count = sum(map(lambda x: x <= alpha, ages))
p = count / len(ages)

print(f"{p:.2%} des individus interrogés ont en dessous de 40 ans.")

## Les mesures de dispersion

Les mesures de dispersion servent à déterminer à quel point les données sont étalées autour de la moyenne, ce qui permet d’évaluer leur stabilité et leur concentration. Plus la dispersion est faible, plus les données sont resserrées et proches de la moyenne.

### La variance

#### La variance empirique

Cette mesure quantifie la dispersion des valeurs d’un échantillon autour de leur moyenne. Pour la déterminer, on fait la moyenne du carré des écarts des valeurs à la moyenne, conformémement à la formule :

$$
s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

Avec Python :

In [None]:
mean = sum(ages) / len(ages)

# sum of squared errors
SE = sum(map(lambda x: (x - mean) ** 2, ages))

# mean of squared errors
var = SE / len(ages)

print(f"La variance de l’échantillon est de {var:.2f} ans².")

#### La variance non biaisée

La variance de la population est définie comme l’espérance (la moyenne) des écarts d’une variable *X* à la moyenne réelle de la population ($\mu$) :

$$
\sigma^2 = \mathbb{E}[(X - \mu)^2]
$$

Or, dans le calcul de la variance empirique, on ne connaît que la moyenne de l’échantillon ($\bar{x}$) qui sous-estime la véritable moyenne. On dit que l’estimateur est **biaisé**. Pour obtenir un estimateur non biaisé, il faut appliquer un degré de liberté de 1 :

$$
\sigma^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

### L’écart-type

La variance empirique s’exprime dans une unité qui ne fait pas beaucoup de sens (les $\text{ans}^2$ dans notre exemple). Pour remédier à cela, on donne souvent l’écart-type, qui lui s’exprime dans l’unité de la variable étudiée :

$$
s = \sqrt{\text{var}}
$$

Avec Python :

In [None]:
s = var ** .5

print(f"L’écart-type de l’échantillon est de {s:.2f} ans.")

**Remarque :** si $\text{var}$ exprime la variance empirique, alors l’écart-type sera considéré comme biaisé.

### Le coefficient de variation

Le coefficient de variation permet souvent de comparer la dispersion de plusieurs échantillons entre eux (par exemple le résultat de deux groupes à un test). Il peut notamment révéler des disparités lorsque leurs écarts-types pourraient être similaires. Il se calcule par la formule suivante :

$$
\text{CV} = \frac{\sigma}{\mu} \times 100
$$

### Approche du compromis biais-variance

Les modèles statistiques doivent trouver un équilibre entre précision et généralisation. Un modèle trop simple, ou sous-entraîné, a un **biais élevé** : il ne capture pas les tendances des données. À l’opposé, un modèle sur-entraîné disposera d’une **variance élevée** : il s’ajuste parfaitement aux données mais échoue à généraliser.

C'est ce mécanisme qui est illustré par les écarts-types empirique et théorique. Le premier, calculé à partir des données, se laisse influencer par la variance spécifique à l’échantillonage alors qu’en lui ajoutant un degré de liberté on rend mieux compte de la vraie dispersion des données en population générale.