In [3]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Dans le notebook suivant, nous allons illustrer de façon empirique le [théorème central limite](https://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_central_limite). Ce théorème jour un rôle fondamental en statistique, et nous y ferons appel pour justifier la forme des termes d'erreurs lors de la régression. Il permet de contrôler le comportement d'une somme de variables aléatoires indépendantes et identiquement distribuées lorsque le nombre de tirage est suffisant.

Quelque soit la distribution initiale à partir de laquelle on échantillonne, la moyenne de l'échantillon sera distribuée suivant une loi normale, avec un écart type qui se réduit en $1/\sqrt N $.

Si on définit la variable centrée et réduite:
\begin{equation} z = \frac{x - \mu}{\sigma}\end{equation} 
Alors, pour N suffisamment grand 
$z \rightarrow N(0,1)$

Nous allons générer une liste de nombre dont nous connaissons parfaitement les propriétés telles que la moyenne ou l'écart-type. 

In [4]:
x = np.random.uniform(100,200, size=10000)
print('shape x : ', x.shape)
print('10 first elements of x : \n', x[:10])

shape x :  (10000,)
10 first elements of x : 
 [138.00224824 114.21197275 172.4440051  119.9907603  122.43151714
 152.65997791 187.13547241 105.31288124 179.98452739 180.54516189]


In [5]:
print("true mean is", x.mean())

true mean is 149.93110386589652


Si on prend 1, puis 2, puis k éléments, alors la moyenne calculée se baladera autour de 49.5, en suivant une loi normale caractérisée par l'écart-type $1/\sqrt k$ 

Nous allons échantillonner plusieurs fois une liste de taille k < 100, et allons voir comment se comportent la moyenne. Compléter la fonction ci-dessous qui prend en entrée un vecteur et qui retourne un vecteur de taille inférieure ou égale.

In [23]:
def sample_index(x, size):
    """sample random elements and return array index with length defined by size
    
        Args:
            x (numpy.array) : vector to sample from
        Returns:
            numpy.array with length defined by size
    """
    #return [int(x[np.random.randint(0,high = len(x))]) for i in range(size)]
    #return [np.random.randint(0,high = len(x)) for i in range(size)]
    return [np.random.choice(range(len(x)),replace= True)]

Nous allons prendre plusieurs échantillons de taille << 100 et calculer la moyenne.

In [24]:
for i in range(10):
    print(x[sample_index(x, 10)].mean())

119.78424440350715
149.90118383294248
101.76781396160433
141.4580531250743
121.02893906803553
187.11983855445516
135.7594639454141
133.08521713382007
178.03944202510542
192.43820478451158


Construire une liste qui sauvegarde plusieurs valeurs de la moyenne, et construire l'histogramme de ces valeurs. 

In [None]:
N_iterations = 10000
sampled = [x[sample_index(x,10)].m for i in range(10)]

In [None]:
plt.hist(sampled, bins=100)
plt.show()

Construire la variable réduire $z$

In [None]:
pass

Construire la densité gaussienne de moyenne 0 et d'écart-type 1 entre -4 et 4, la représenter graphiquement et superposer l'histogramme de $z$

In [None]:
pass