# Statistiques

## Série statistique

En mathématiques, une série statistique est simplement une liste de valeurs d’un même ensemble, dans laquelle l’ordre des termes n’est pas significatif (par exemple, les notes de Victor : {4, 6, 18, 7, 17, 12, 12, 18}.

A priori, comme ça, on a un peu du mal à se faire une idée de ce que représente ces données. Surtout que dans certains cas, on peut avoir des centaines voir des milliers de données. On va donc voir comment faire ressortir differentes informations de ces données grace à différents outils, en premier : la moyenne, la médiane et l'étendue.

### Moyenne

#### Moyenne arithmétique

La **moyenne** exprime la grandeur que posséderait chacun si chacun possèdait la même chose sans changer la valeur globale de l'ensemble.

$Moyenne = \frac{somme \ des \ valeurs}{nombre \ de \ valeurs}$

#### Moyenne pondérée

Étant donnée une liste $(x_1, ..., x_n)$ de réels positifs (voire strictement positifs pour la moyenne harmonique), avec éventuellement une liste $(m_1, ..., m_n)$ de poids associés, positifs et non tous nuls, on définit la moyenne pondérée arithmétique comme :

$Moyenne = {\displaystyle {\frac {\sum _{i=1}^{n}{m_{i}\cdot x_{i}}}{\sum _{i=1}^{n}{m_{i}}}}}$

### Esperance

L'**espérance** sert donc à prévoir la valeur moyenne obtenue pour la variable que l'on mesure si l'expérience est renouvelée un très grand nombre de fois. Elle sert par exemple, en théorie des jeux, à prévoir la somme moyenne que chaque joueur va remporter.

$espérance = (somme \ des \ valeurs \ * probabilités \ associées \ à \ chaque \ valeur)$

Par exemple, si on lance un dé équilibré, l'espérance du résultat est :

$espérance = (1 x 1/6) + (2 x 1/6) + (3 x 1/6) + (4 x 1/6) + (5 x 1/6) + (6 x 1/6) = 3,5$

### Médiane

La médiane est la valeur milieu de l'ensemble des valeurs ordonnées.

1. Pour trouver la médiane d'un ensemble, il faut commencer par trier cet ensemble par ordre croissant.
2. Ensuite il faut calculer la longueur (len) de l'ensemble.
3. Puis il faut calculer l'index médian (qui se trouve au milieu) de cet ensemble. Par exemple si j'ai une liste qui comporte 10 éléments, l'élément médian de cette Liste sera entre 5ème et le 6ème élément. Il faudra alors faire la moyenne de ces deux éléments pour trouver la médiane.

Pour ca on fait :

$Median \ Index = \frac{len(L) + 1}{2}$

Si le résultat est un nombre décimal, il faudra prendre le floor et le ceil de ce nombre, et faire la moyenne des nombres récupérés à l'index de ces nombres. Si le résultat est un nombre entier, on peut simplement prendre ce nombre et aller chercher l'index du nombre dans la liste (Note : En Python, il faudra soustraire 1 aux nombres d'index finaux car l'index en Python commence par 0 et pas par 1).

In [6]:
L = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
median_index = (len(L) + 1) / 2
print(median_index)

5.5


### Etendue

L'etendue d'une série statistique est la différence entre la plus grande valeur et la plus petite.

$Etendue = max \ value - min \ value$

### Quartiles/Ecart interquartile (dispersion autour de la médiane)

Il s'agit de couper un ensemble en 4. Si on coupe en 2, ca revient à faire la médiane. Il faut donc recouper en 2 l'ensemble a partir de la mediane pour avoir les valeurs a 25%, 50% et 75% de la médiane finalement. On parle de 1er quartile ($Q_1$), de médiane (rarement de 2nd quartile, $Q_2$), et de troisième quartile ($Q_3$).

La spécificité entre médiane et quartile réside dans le fait qu'une médiane ne fait pas forcement partie de la série (elle peut être le résultat de la moyenne faite entre les deux valeurs les plus proches de celle-ci) alors que les quartiles font obligatoirement partie de l'ensemble.

- Le **premier quartile** est la plus petite valeur de la série telle qu'au moins 25% des autres valeurs de la série, sont inférieures ou égales à cette valeur. En d'autres termes, le premier quartile doit être au moins à 25% (c'est un ceil pas un floor en résumé, 25% arrondi au supérieur sur l'index de l'ensemble).
- Le **troisième quartile** est la plus petite valeur de la série telle qu'au moins 75% des autres valeurs de la série, sont inférieures ou égales à cette valeur (encore un ceil, 75% arrondi au supérieur sur l'index de l'ensemble).
- L'écart interquartile est égal à la différence de $Q_3-Q_1$.

### Variance (dispersion autour de la moyenne)

Pour $n_k$ étant par exemple, un coefficient ; $x_k$ étant une note ; et $\bar{x}$ étant la moyenne calculé en amont :

- $V = \frac{n_1*(x_1-\bar{x})^2 + n_2 * (x_2 - \bar{x})^2 + ... + n_k * (x_k - \bar{x})^2}{n_1+n_2+...+n_k}$

Autrement dit, étant donnée une série statistique d’une variable réelle $(x_1, x_2, ..., x_n)$, dont on a calculé la moyenne ${\displaystyle {\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}$, la variance est la moyenne des carrés des écarts à cette moyenne :

- ${\displaystyle V={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}$.

Un développement du carré mène à la reformulation suivante :

- ${\displaystyle V=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}\right)-{\overline {x}}^{2}}$,

La variance est donc la différence entre la moyenne des carrés et le carré de la moyenne.

Quand la série prend les valeurs $x_1$, $x_2$, ..., $x_n$ avec les fréquences $f_1$, $f_2$, ..., $f_n$, sa variance est :

- ${\displaystyle V=\sum _{i=1}^{n}f_{i}\left(x_{i}-{\overline {x}}\right)^{2}=\left(\sum _{i=1}^{n}f_{i}x_{i}^{2}\right)-{\overline {x}}^{2}.}$

### Ecart-type

L'écart type est la racine carrée de la variance, c'est-à-dire :

${\displaystyle \sigma ={\sqrt {V}}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}={\sqrt {{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}\right)-{\overline {x}}^{2}}}}$

Plus le résultat est élevé, plus la dispersion autour de la moyenne est importante.

#### Exemple concret

**Population de personnes de même taille**

On considère une population de 4 personnes mesurant 2 m. La moyenne des tailles est de 2 m. Chaque valeur étant égale à la moyenne, l'écart type est de 0 m.

**Population de personnes de tailles différentes**

On considère maintenant une population de 4 personnes de taille 2 m, 1,80 m, 2,20 m et 2 m. La moyenne est aussi de ${\displaystyle {\frac {2+1,8+2,2+2}{4}}=2\mathrm {m} }$. Les écarts par rapport à la moyenne sont maintenant de 0 m, 0,20 m, 0,20 m et 0 m, respectivement. Ainsi l'écart type est la moyenne quadratique de ces écarts, c'est-à-dire ${\displaystyle {\sqrt {\frac {0^{2}+0,2^{2}+0,2^{2}+0^{2}}{4}}}}$, qui vaut environ 0,14 m.

**Un autre exemple avec les notes des élèves d'une classe**

L'écart-type est une mesure utile pour évaluer la dispersion des données autour de la moyenne et donc pour déterminer si les notes des élèves sont regroupées autour d'une moyenne commune ou si elles sont plus dispersées. Si l'écart-type est élevé, cela indique que les notes des élèves sont plus dispersées et qu'il y a peut-être une grande variabilité dans les performances des élèves de la classe. Si l'écart-type est faible, cela indique que les notes des élèves sont regroupées autour d'une moyenne commune et que la plupart des élèves ont des performances similaires.



### Fréquences (%)

- $Fréquence = \frac{effectif}{effectif \ total}$

| Tailles en cm | 150 ≤ t < 160 | 160 ≤ t < 170 | 170 ≤ t < 180 | Total |
|:-------------:|:-------------:|:-------------:|:-------------:|:-----:|
| Effectifs     | 8             | 10            | 7             | 25    |
| Fréquences (%)| 32%           | 40%           | 28%           | 100%  |

Par exemple pour _150_ ≤ _t_ < _160_ en utilisant la formule de la fréquence :

- $Fréquence = \frac{8}{25} = 0,32$

Il peut être ensuite plus pratique de mettre cette fréquence (défini entre _0_ et _1_) en %age, donc en la multipliant par _100_.