# TP2 : Statististiques élémentaires, loi des grands nombres et intervalles de confiance

Dans ce second TP, on va s'intéresser plus en détail à des résultats classiques de statistiques, notamment en ce qui concerne l'approximmation de l'espérance d'une variable aléatoire.

Commençons par charger les bibliothèques standard dont nous aurons besoin.

In [None]:
%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt

## 1. Lecture graphique des quantiles sur la fonction de répartition

Reprenons ici le code du TP1 pour l'affichage de la fonction de répartition d'une loi binômiale. Un corrigé est fourni à titre indicatif mais vous pouvez également utiliser votre propre code d'affichage.

In [None]:
from math import comb
# comb(n,k) retourne le coefficient binômial « k parmi n ».

def binom(n,p,k):
    if k <= n and k >= 0 :
        return comb(n,k)*p**k*(1-p)**(n-k)
    else:
        return 0

n=30
p=.3

X = np.arange(n+1)
P = [binom(n,p,k) for k in X]

X = range(-1,n+2)
Y = [0]

# On crée les probabilités cumulées en sommant sur la distribution P déjà calculée.
for x in P:
    Y.append(Y[-1]+x)

# Permet d'afficher des formules mathématiques en légende
plt.rcParams['text.usetex'] = True
plt.rcParams['font.family'] = 'Computer Modern'
plt.rcParams['text.latex.preamble'] = r'\usepackage{dsfont}'

plt.xticks(X)
plt.grid(linestyle='dotted')

# On affiche itérativement les segments.

plt.plot((X[0],X[1]),(Y[0],Y[0]),color='r')

for i in range(1,n+2):
    plt.plot((X[i],X[i]),(Y[i-1],Y[i]),color='r',linestyle='dotted')
    plt.scatter([X[i]],[Y[i]],marker='o',color='r')
    plt.plot((X[i],X[i+1]),(Y[i],Y[i]),color='r')

plt.xlim(-1,n+1)
plt.ylim(-0.1,1.1)

plt.plot([-1,n+1],[0,0],color='c',linestyle='dotted')
plt.plot([-1,n+1],[1,1],color='c',linestyle='dotted')

plt.xlabel('$x$')
plt.ylabel('$\mathds{P}(X\leq x)$')
plt.title('Fonction de répartition de la loi de $X\sim\mathcal{B}('+str(n)+','+str(p)+')$')

# Code à compléter

plt.show()

On se propose désormais de compléter le code pour afficher les droites horizontales correspondants au premier quartile, au troisième quartile et à la médiane. Comment lit-on graphiquement ces données ?

<details>
<summary><b>Cliquer ici pour afficher la réponse.</b></summary>

Il suffit de regarder où les droites horizontales traverse la fonction de répartition. Si cette droite traverse un saut de la fonction (en pointillés rouge dans la correction indicative), on considère que l'intersection a lieu à cette position.
En revanche, si notre droite tombe pile sur une partie constante de la fonction, il n'y a pas façon uniquement déterminée de choisir le quantile, et on peut arrondir à droite, à gauche ou faire une moyenne.
On fera ici le choix de convention de l'arrondi à gauche.
</details>

In [None]:
# À vous de jouer !

## 2. Étude de la loi binômiale et diagrammes en boîte à moustache

On va premièrement utiliser le module `numpy` pour étudier quelques propriétés empirique d'un échantillon aléatoire.

**Exercice :**

1. Créer un échantillon de taille `n=10` d'une loi binomiale $\mathcal{B}(30,0.3)$ dans le bloc 1.
2. Calculer sa moyenne `m1` (avec la fonction `np.average`) et son écart-type  `s1` (avec `np.std`) dans le bloc 2.
3. Calculer la liste des quartiles `Q1` (avec la fonction `np.quantile`).
4. Répéter les questions précédentes dans le bloc 3, avec un échantillon de taille $100$ (dans des variables `m2`, `s2` et `Q2`), puis $1000$ (dans des variables `m3`, `s3` et `Q3`).
5. Comparer les résultats avec la valeur théorique attendue dans le bloc 4.

In [None]:
### BLOC 1 ###

n1 = 10

def echantillon(n):
    L=[]
    # Code à compléter
    return L

L1 = echantillon(n)

In [None]:
### BLOC 2 ###

m1 = None
s1 = None
Q1 = None

In [None]:
### BLOC 3 ###

n2 = 100
L2 = echantillon(n2)

m2 = None
s2 = None
Q2 = None

n3 = 10000
L3 = echantillon(n3)

m3 = None
s3 = None
Q3 = None

In [None]:
### BLOC 4 ###

Les diagrammes en boîte à moustaches (*box plot* en anglais) permettent, dans une certaine mesure, de représenter graphiquement les quantiles d'une distribution.
On peut afficher un boxplot via la fonction `plt.boxplot(L,labels=[mot])`, où `L` est un échantillon aléatoire, et `mot` le mot (optionnel) correspondant sur l'axe horizontal. Si on veut juxtaposer plusieurs boîtes, on remplacera `L` par une *liste* d'échantillons (donc une *liste de listes*), et on affectera une liste de mots à `label`.

**Exercice :**

1. Afficher le boxplot correspondant aux échantillons `L1`, `L2` et `L3` précédemment générés.
2. Afficher les droites horizontales correspondant aux valeurs théoriques des quantiles observées dans la première partie.

In [None]:
# À vous de jouer !

La boite centrale correspondant à un échantillon représente les quartiles empiriques, avec la médiane au milieu.
Ainsi, on constate que lorsque la taille de l'échantillon devient assez grande, ces quartiles semblent converger vers les valeurs théoriques attendues.

Le comportement des moustaches est un peu plus subtil. Par défaut, leur longueur est déterminée par la taille de la boite centrale et les aberrations qui en sortent sont représentés par des points. Cependant, si aucune valeur ne dépasse de la moustache dans une des directions, alors la moustache en question est raccourcie pour s'arrêter au minimum/maximum de l'échantillon. Une définition plus précise des boîtes des disponible dans [la documentation](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.boxplot.html).

Le point à retenir est que la *taille* de la boite et de ses moustaches n'est pas un indicateur de la qualité d'approximmation, puisqu'elle aura tendance à grandir jusqu'à seuil, alors même qu'on constate empiriquement que la qualité d'approximmation des quarties *augmente* avec la taille de l'échantillon.

## 3. La méthode de Monte-Carlo

L'idée générale de la méthode de Monte-Carlo est d'estimer numériquement l'espérance d'une variable aléatoire à partir des moyennes empiriques d'un processus aléatoire. On se propose ici d'observer une version assez naïve de la méthode, basée sur la loi forte des grands nombres.

**Théorème : Loi Forte des Grands Nombres (LFGN)**

Considérons $\left(X_i\right)_{i\in\mathbb{N}^*}$ une suite de variables aléatoires réelles iid et intégrables, c'est-à-dire $\mathbb{E}\left[\left|X_1\right|\right]<\infty$. Posons alors $\mu:=\mathbb{E}\left[X_1\right]$ leur espérance commune.
On définit les moyennes empiriques (aléatoires) comme suit:
$$
\overline{X_n}:=\frac{1}{n}\sum\limits_{i=1}^{n} X_i .
$$
On a alors la convergence presque-sûre $\overline{X_n}\overset{\mathrm{p.s.}}{\longrightarrow}\mu$.

**Exercice :**

On veut ici observer et représenter graphiquement cette convergence des moyennes empiriques pour une loi géométrique de paramètre `p=0.1`.
1. Dans le bloc 1, complétez le code pour que la fonction echantillon retourne une liste de $k$ tirages indépendants sous la loi géométrique (on pourra utiliser la bibliothèque `np.random`).
2. Dans le bloc 2, complétez le code pour que la fonction moyennes_empiriques retourne la liste `M` des moyennes empiriques associée à une liste de tirages `L`.
3. Dans le bloc 3, afficher la droite horizontale d'équation $y=\mu$ et un nuage de points (avec [`plt.scatter`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html)) aux coordonnées $\left(i,\overline{X_i}\right)_{1\leq i \leq 100}$.
4. Faites varier la valeur de `p` utilisée dans le bloc 1. Que constatez-vous ?

In [None]:
### BLOC 1 ###

p = 0.1
k = 100

def echantillon(k):
    # Code à compléter
    return L

In [None]:
### BLOC 2 ###

def moyennes_empiriques(L):
    # Code à compléter
    return M

In [None]:
### BLOC 3 ###

# À vous de jouer.

## 4. Intervalles et estimations via l'inégalité de Bienaymé-Tchebychev

### 4.1 Intervalles de Confiance

On veut dans cet exercice manipuler et afficher des intervalles de confiance.
On a déjà vu ci-avant que la moyenne empirique $\overline{X_n}$ sur une série de tirages *iid* converge
vers la moyenne attendue lorsque $n\to\infty$.
Par exemple, dans le cas de variables de Bernoulli $\mathcal{B}(p)$, on convergera vers le paramètre $p$ en question.
Cela ne nous indique en rien à quelle *vitesse* cette convergence se produit.

C'est là que les intervalles de confiance entrent en jeu.
Considérons ici l'intervalle (aléatoire) $I_n := \left[ \overline{X_n}-\frac{a}{\sqrt{n}},\overline{X_n}+\frac{a}{\sqrt{n}}\right]$.
Dans ce contexte, en remarquant que $p=\mathbb{E}\left[\overline{X_n}\right]$ par linéarité de l'espérance,
l'inégalité de Tchebychev nous donne :
$$
\mathbb{P}\left(I_n\ni p\right) = \mathbb{P}\left(\left|\overline{X_n}-\mathbb{E}\left[\overline{X_n}\right]\right|\leq \frac{a}{\sqrt{n}}\right) \geq 1- \frac{n}{a^2}\text{Var}\left(\overline{X_n}\right) = 1-\frac{\text{Var}\left(X_1\right)}{a^2}
=1-\frac{p(1-p)}{a^2}\geq 1-\frac{1}{4a^2} .
$$

On parle d'intervalle de confiance de niveau $x\%$ lorsque $\mathbb{P}\left(I_n\ni p\right)\geq \frac{x}{100}$.
Ainsi, le choix $a=1$ nous donne ici un intervalle de cofiance de niveau $75\%$ indépendamment du choix de $p$.
Le standard communément accepté en sciences expérimentales est un niveau de confiance à $95\%$:
il faudra ici choisir $a\geq \sqrt{5}\approx 2.24$ pour atteindre ce niveau de confiance.

Cette notion est utile pour de l'estimation de paramètres parmi une famille de modèles. Elle est notamment utilisée dans le cadre de sondages, où les question binaires oui/non impliquent de fait une loi de Bernoulli sur les réponses, par exemple.

**Exercice :**

1. Dans le bloc 1, compléter le code de la fonction `moyenne(n,p)` pour qu'elle retourne la moyenne empirique $\overline{X_n}$ de lois *iid* $\mathcal{B}(p)$.
2. Dans le bloc 2, fixer `p=0.5` représenter graphiquement la suite d'intervalles $\left[Y_n-\frac{\sqrt{5}}{\sqrt{n}},Y_n+\frac{\sqrt{5}}{\sqrt{n}}\right]$, où les variables $Y_n$ sont les moyennes empiriques (indépendantes !) retournées par la fonction `moyenne(n,p)`, pour $n$ allant de $1$ à $50$. On affichera également la droite horizontale d'équation $y=p$. Pour les valeurs de $n$ à considérer on pourra se restreindre aux dizaines jusqu'à $1000$.

In [None]:
### BLOC 1 ###

def moyenne(n,p):
    # Code à compléter
    return moy

In [None]:
### BLOC 2 ###

# À vous de jouer.

On constate graphiquement deux points.

D'une part, la convergence en $\frac{1}{\sqrt{n}}$ est en réalité assez lente, puiqsue pour gagner une décimale de précision il faut multiplier par $100$ la taille de l'échantillon.
Ce comportement est assez intrinsèque aux méthodes d'estimation générales, d'où la nécessité de choisir un bon compromis entre précision (grand échantillon de données) et temps de calcul/génération dudit échantillon.

D'autre part, bien qu'on génère un intervalle au niveau $95\%$, il est virtuellement *impossible* d'observer ici un tirage tel que $p\notin I_n$, et ce même sur plusieurs centaines de réalisations.
Cela vient du fait que l'inégalité de Chebychev est en fait assez large en toute généralité, et ne donne pas de bonnes estimations. En pratique, on utilise plutôt des intervalles de confiance basés sur le TCL (hors-programme, voir exercice bonus).

### 4.2 Intervalles de Fluctuation

L'idée générale des intervalles de confiance est de supposer qu'on connaît la loi de $X$ à un paramètre près, généralement déterminé par $\mathbb{E}[X]$, et d'utiliser une inégalité de concentration autour de la moyenne empirique $\overline{X_n}$ 
(et notamment l'inégalité de Chebychev) pour estimer l'espérance avec une certaine précision.

On peut, en utilisant la même inégalité, adopter un point de vue dual, conjecturer une loi pour la variable $X$, et considérer un intervalle *déterministe* $J_n = \left[p-\frac{1}{\sqrt{n}},p+\frac{1}{\sqrt{n}}\right]$ pour vérifier si l'évènement $\overline{X_n} \in J_n$ est réalisé.
Dans le cas où cet évènement n'est pas réalisé, on peut conclure avec *forte probabilité* que $X$ ne suit pas initialement la loi conjecturée, que notre modèle de départ est inadapté.

Considérons par exemple une succession de 1600 *pile ou face* indépendants mais réalisés avec la même pièce, supposée équilibrée.
Sur ces 1600 tirages, seulement 630 sont tombés du côté *face*.
Cette observation est-elle anormale ?

<details>
<summary><b>Cliquer ici pour afficher la réponse.</b></summary>

On s'attend *a priori* à ce que la pièce soit équilibrée, autrement dit à avoir $p=0.5$.
Dans ce cas, $J_{1600}=\left[\frac{19}{40},\frac{21}{40}\right]$.
On constate que $\overline{X_{1600}}\notin J_{1600}$, ce qui indique avec forte probabilité
que la pièce n'est *pas* équilibrée, que $p\neq 0.5$.
</details>



## 5. Bonus : Constatation empirique du TCL et intervalles de confiance (hors programme)

Le [Théorème Central Limite](https://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_central_limite) (TCL) est un résultat général de convergence en loi vers une [loi normale](https://fr.wikipedia.org/wiki/Loi_normale) centrée réduite $\mathcal{N}(0,1)$, 
valable pour des variables aléatoires de variance finie.
Ici, la loi normale n'est pas une variable discrète, mais réelle à densité continue.

**Théorème :**

Supposons que les variables $\left(X_n\right)$ sont *iid* d'espérance $\mu$ et de variance finie.
Posons $\sigma_n := \sqrt{\frac{1}{n} \sum_{i=1}^n \left(X_i-\overline{X_n}\right)^2}$ l'écart-type empirique.
Posons $Z_n = \sqrt{n}\times\frac{\overline{X_n}-\mu}{\sigma_n}$.
Alors on a la convergence en loi $Z_n\overset{\mathcal{L}}{\longrightarrow} Z$ avec $Z\sim \mathcal{N}(0,1)$ une gaussienne centrée réduite.

Dans ce contexte, la convergence en loi signifie que pour tous réels $a\leq b$, on a $\mathbb{P}\left(a\leq Z_n\leq b\right) \underset{n\to\infty}{\longrightarrow} \mathbb{P}\left(a\leq Z\leq b\right)$.

**Exercice :**

On se propose de visualiser cette convergence en loi sous la forme d'un histogramme. Pour ce faire, on choisit au préalable une valeur de $n$, disons $n=700$.

1. Définir une fonction `tirage(n,p)` qui retourne un tirage sous la loi $Z_n$ ci-avant, en partant de variables $X_i\sim\mathcal{B}(p)$. Pour ce faire, on pourra commencer par générer un échantillon de taille $n$, puis calculer sa moyenne empirique (avec `np.mean`) et son écart-type empirique (avec `np.std`).
2. Générer un échantillon de $k=3000$ tirages indépendants de la variable $Z_n$.
3. Représenter graphiquement la loi empirique de cet échantillon à l'aide de la fonction `plt.hist` (voir [la documentation](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html)).

In [None]:
# À vous de jouer.

**Exercice :**

On se propose désormais d'exploiter cette convergence en loi pour obtenir de meilleurs intervalles de confiance que dans la section précédente.
Tel quel, le TCL ne donne pas de vitesse de convergence pour $\mathbb{P}\left(a\leq Z_n\leq b\right) \underset{n\to\infty}{\longrightarrow} \mathbb{P}\left(a\leq Z\leq b\right)$. Cette vitesse dépend de la loi des $X_i$, et notamment de leur variance, il faut donc la prendre en compte précautioneusement dans des applications réelles.
Dans le cadre de cet exercice, on va admettre que, pour $n\geq 30$, l'approximmation est de suffisamment bonne qualité,
de sorte que $\mathbb{P}\left(\mu\in\left[\overline{X_n}-\sigma_n\frac{a}{\sqrt{n}},\overline{X_n}+\sigma_n\frac{a}{\sqrt{n}}\right] \right)\approx \mathbb{P}(|Z|\leq a)$.

On admettra alors que pour une gaussienne centrée réduite $Z$, $a=2$ suffit à garantir un niveau de confiance de $95\%$.

In [None]:
# À vous de jouer.

On peut ainsi constater, en superposant les intervalles à $95\%$ données par l'inégalité de Chebychev et l'approximation gaussienne, que les seconds sont systématiquement plus petits, et correspondent de façon bien plus proche au seuil de $95\%$ annoncé puisque on peut observer à l'œil nu de (rares) instances d'intervalles qui ne contiennent pas la valeur $p=0.5$ attendue.

$\mathcal{FIN}$