In [None]:
from random import random
import numpy as np
import seaborn as sns
import math

# Générateur pseudo-aléatoire uniforme

---



## Objectif

---

* Générer un entier $N$ aléatoire uniforme sur l'ensemble fini $\{0, \dots, n-1\}$

* Si $n$ est grand, on obtient alors un nombre "uniforme sur $[0,1]$" en divisant par $n$.

* On peut alors générer des variables aléatoires suivant des lois plus complexes (voir cours précédent).


### Hasard?

---


Parmi les 3 suites suivantes, lesquelles sont aléatoires (30 valeurs uniformes sur $\{0,1\}$ et indépendantes 2 à 2)?

```
s1 = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
s2 = 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1
s3 = 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1
```

**Mauvaises nouvelles**: 

* chaque suite peut être obtenue par un générateur aléatoire (proba $2^{-30}$ pour chacune).

* chaque suite peut également avoir été produite par un procédé non-aléatoire

**Bonnes nouvelles**:

* il est peu probable de ne pas avoir de $1$ dans la première suite si elle est générée au hasard

* il est peu probable de ne pas avoir deux $1$ consécutifs dans la troisième suite si elle est générée au hasard

**Bilan**:

* on ne peut pas affirmer qu'une suite est aléatoire ou qu'elle ne l'est pas
* on peut rejeter le fait qu'une suite est aléatoire avec une probabilité contrôlée de se tromper

### Nombre de 1 en 30 valeurs uniformes sur $\{0, 1\}$

---

Soit $N$ le nombre de 1 en générant 30 valeurs uniformes sur $\{0, 1\}$. Quelle est la loi de $N$?


* loi binomiale de paramètres $n = 30$ et $p=0.5$

$$  \forall k \in \{0, \dots, n \}, \mathbb{P}[N = k] = \binom{n}{k} p^k (1-p)^{n-k} $$

* espérance de $N$

$$ \mathbb{E}[N] = p\cdot n = 15 $$

* probabilité que $N$ s'écarte de plus de 15 de la moyenne:

$$ \mathbb{P}[|N -15 | \geq 15] = \mathbb{P}[N=0 \text{ ou } N=30] = 2^{-29} $$

On peut affirmer que la suite ne contenant que des 0 n'est pas aléatoire avec une probabilité $2^{-29}$ de se tromper.

### Nombre de paires de 1 consécutifs en 30 valeurs uniformes sur $\{0, 1\}$

---

Soit $N$ le nombre de paires de 1 consécutifs en 30 valeurs uniformes sur $\{0, 1\}$. Loi de $N$?


* binomiale de paramètres $n = 15$ et $p=\frac14$


* espérance de $N$

$$ \mathbb{E}[N] = p\cdot n = 3.75 $$

* probabilité que $N$ s'écarte de plus de 3.75 de la moyenne:

$$ \mathbb{P}[|N - 3.75 | \geq 3.75] = 1 - \mathbb{P}[N \in \{1, \dots, 7 \}] < 0.031 $$



On peut affirmer que la suite  contenant quinze fois $(0,1)$ n'est pas aléatoire avec une probabilité $0.031$ de se tromper.

### Etude de la dernière suite

---
```
s = 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1
```


* Nombre de 1 (variable $N$): 18

* probabilité que $N$ s'écarte de plus de 3 de la moyenne:

$$ \mathbb{P}[|N - 15 | \geq 3] = 1 - \mathbb{P}[N \in \{13, \dots, 17 \}] < 0.64 $$

* probabilité 0.64 de se tromper en rejetant l'hypothèse que la suite est aléatoire!


* Nombre de paires de 1 consécutifs (variable $N$): 4

* probabilité que $N$ s'écarte de plus de 0.25 de la moyenne très forte!

* ce test ne permet pas d'exclure que cette suite a été générée au hasard.


**Pour finir**: 
* d'autres tests statistiques peuvent être menés pour déceler un biais
* en augmentant la taille de l'échantillon, on augmente la possibilité de déceler un biais

## Tests statistiques

---


**Méthodologie**: étant donnée une séquence de valeurs
* on teste une hypothèse:
    * les valeurs suivent une loi donnée
    * les valeurs sont indépendantes 2 à 2
* on calcule une mesure statistique sur la séquence
* on regarde si cette mesure ne s'éloigne pas "trop" des valeurs attendues en théorie si l'hypothèse est satisfaite
* si c'est le cas, on rejette l'hypothèse avec une probabilité contrôlée de se tromper



### Exemples de mesures statistiques avec des valeurs dans $\{0,1\}$

---

* tests d'adéquation à la loi uniforme:
    * nombre de 1
    * fréquence de 00, 01, 10 et 11
        * **attention** ne pas chevaucher les couples dans la séquence de 0 et 1
    * idem à 3, 4 bits, etc.
    * longueur de la plus grande suite de 1
    * nombre d'alternances entre 0 et 1, etc.
* test d'indépendance entre les valeurs:
    * correlation entre valeurs successives

Des batteries de tests ont été développés pour évaluer la qualité des générateurs aléatoires, par exemple les tests Diehard https://en.wikipedia.org/wiki/Diehard_tests 

### Test binomial du nombre d'occurences pour une valeur particulière

---

* $X_1, \dots, X_n$ suite de VA  sur $\{0,1\}$ 

* $S_n = X_1 + \dots + X_n$ le nombre de 1 obtenus

* **Hypothèse**: $X_1, \dots, X_n$ est une suite de VA indépendantes de même loi
avec $p$ la probabilité d'obtenir la valeur $1$





Sous cette hypothèse:

* $S_n$ suit une loi binomiale de paramètres $n, p$
* valeur moyenne attendue $np$
* on peut calculer la probabilité qu'on obtienne une valeur au moins aussi extrême que celle observée ($S_n$): 
$$ \sum_{i \in I} \binom{i}{n} p^i (1-p)^{n-i}$$
où $I$ est l'ensemble des événements moins probable que la valeur de $S_n$.

### Approximation par la loi normale centrée réduite

---

Si l'hypothèse est satisfaite, alors


$$\frac{ S_n - np}{\sqrt{n\cdot p(1-p)}}  $$

tend vers une variable aléatoire $S$
où $S$ suit une loi normale centrée réduite (moyenne 0, variance 1).



**Conséquence**:

pour $n$ suffisamment grand (en pratique $np \geq 10$ et $n(1-p) \geq 10$),  alors 
$$\mathbb{P}\left[\left\lvert \frac{ S_n - np}{\sqrt{n\cdot p(1-p)}} \right\rvert \geq 1.96 \right] \approx \mathbb{P}\left[\left\lvert S\right\rvert \geq 1.96 \right] \leq 0.05  $$

Si on calcule $\frac{ S_n - np}{\sqrt{n\cdot p(1-p)}} $ et qu'on obtient une valeur supérieure à 1.96 en valeur absolue, alors on peut rejeter l'hypothèse de départ avec probabilité inférieure à $5 \%$ de se tromper.



Quelques valeurs de la fonction de répartition de la loi normale:




| $z$            | 0.00 | 0.50 | 1.00 | 1.28 | 1.64 | 1.65 | 1.96 | 2.00 | 2.33 | 2.58 | 3.00 |
|----------|------|------|------|------|------|------|------|------|------|------|------|
| $\mathbb{P}[Z \leq z]$     | 0.5000 | 0.6915 | 0.8413 | 0.8997 | 0.9495 | 0.9505 | 0.9750 | 0.9772 | 0.9901 | 0.9950 | 0.99865 |
| $\mathbb{P}[Z \geq z]$ | 0.5000 | 0.3085 | 0.1587 | 0.1003 | 0.0505 | 0.0495 | 0.0250 | 0.0228 | 0.0099 | 0.0050 | 0.00135 |

### Illustration de la convergence vers la loi normale centrée réduite

---

In [None]:
n = 1000
p = 0.5
def f(i):
    return (i-n*p)/(p*(1-p)*n)**0.5
    
data = np.random.binomial(n, p, 100000)
data = list(map(f, data))

sns.histplot(data, stat="density")

In [None]:
data = np.random.randn(100000)
sns.histplot(data, stat="density")

### Théorème central limite

---

Le résultat précédent est un cas particulier du **théorème central limite**.

**Hypothèses**:
* $X_1, X_2, \dots X_n$ variables aléatoires réelles iid
* de moyenne $\mu$ finie
* de variance $v$ finie




On note 
$$ S_n = X_1 + X_2 + \dots + X_n$$

**Rappel**:
* $\mathbb{E}[S_n] = n \cdot \mu$
* $\text{Var}[S_n] = n \cdot v$

Soit 

$$ Z_n = \frac{S_n - n \cdot \mu}{\sqrt{n \cdot v}} $$


* $\mathbb{E}[Z_n] = 0$
* $\text{Var}[Z_n] = 1$
* $Z_n$ tend vers une variable aléatoire qui suit une loi normale centrée réduite.

### Théorèmes de convergence des variables aléatoires à connaître

---

On note 
$$ S_n = X_1 + X_2 + \dots + X_n$$


**Loi des grands nombres**: avec probabilité 1

$$ \frac{S_n - n \cdot \mu}{n } \rightarrow 0$$


**Théorème central limite:**
$$ \frac{S_n - n \cdot \mu}{\sqrt{n \cdot v}} \rightarrow \mathcal{N}(0,1) $$



### Test du Chi2: test d'adéquation à une loi discrète

---

On dispose d'un échantillon de $n$ valeurs $X_1, \dots, X_n$ et on veut tester l'hypothèse

**Hypothèse:** ces valeurs suivent une loi discrète donnée.

**Méthodologie**:

* on divise l'ensemble des valeurs possibles en *K* classes
* on note $O_i$ le nombre de valeurs de notre échantillon qui sont dans la classe $i$
* on note $e_i$ le nombre de  valeurs espérées théoriquement dans la classe $i$
    * $e_i = n \cdot p_i$ où $p_i$ est la probabilité qu'une valeur tirée selon la loi  discrète soit dans la classe $i$
* on calcule
$$Z = \sum_{i=1}^{i=K}\frac{(O_i - e_i)^2}{e_i} $$
* si 
    * l'hypothèse est satisfaite, 
    * $O_i > 5$ pour toute classe $i$
alors $Z$ suit une loi du chi2 à $K-1$ degrés de liberté, et ne doit alors pas être "trop grande"
* par exemple si $K=4$ et la valeur $Z$ est supérieure à 7.81, alors on peut rejéter l'hypothèse avec probabilité inférieure à $5 \%$ de se tromper.



**Remarque**:

quand il n'y a que 2 classes, le test du chi2 est identique au test précédent (reposant sur la loi normale).

### Exemple d'application du test du chi2

---

On considère la suite suivante de taille 100
```
0101010101101110111011101110110001000100010001000110111011101110111011000100010001000100011011101110
```
on va tester l'hypothèse suivante:

**Hypothèse:** ces valeurs suivent une loi uniforme sur $\{0,1\}$

On divise notre échantillon par paquet de 2 bits, et on définit les 4 classes suivantes


$$
\begin{array}{l|l l}
\text{classe } i & O_i & e_i \\ \hline
0,0 & 10 & 12.5 \\ 
0,1 &  15 & 12.5 \\ 
1,0 &  13 & 12.5 \\
1,1 & 12 &  12.5 \\
\end{array}
$$


On calcule

$$ \chi^2 = \sum_{i=1}^{i=4}\frac{(O_i - e_i)^2}{e_i} = 1.04 $$

Comme 1.04 < 7.81, on ne rejette pas l'hypothèse.


## Génération d'une suite d'entiers uniformes indépendants

---


**Objectif**: obtenir une suite de $n$ entiers $X_1, \dots , X_n$ dans $\{0, \dots , K\}$ qui soit uniforme et les valeurs indépendantes deux à deux.



**Méthodes**:

* dispositif physique
    * lancer une pièce
    * faire tourner une roulette, etc.
* algorithme
    

**Avantages et inconvénients** de l'algorithme par rapport au dispositif physiques:

* rapidité
* reproductibilité
* pas du "vrai" hasard

**Qualité d'un générateur** de nombres pseudo aléatoire:

* plus il passe de tests statistiques meilleur il est

* compromis entre qualité et vitesse de génération, dépendant des applications (simulation vs cryptographie)

### Format général des générateurs

---

**Graine** (initialisation): donnée de $k$ nombres $x_1, x_2, \dots , x_k$ dans l'ensemble $\{0, \dots, K \}$.

**Calcul d'un terme supplémentaire**: si on déjà calculé $n$ valeurs, on obtient la suivante par

$$ x_{n+1} = f(x_n, x_{n-1} \dots x_{n-(k-1)}) $$

**Remarques**:

* il faut $k$ valeurs pour initialiser le processus

* périodicité: si on retombe sur $k$ valeurs déjà calculées, on refait le même cycle de valeurs

* la longueur du cyle dépend de $f$ et de la graine choisie

* longueur maximale du cycle?

Au final, la séquence de valeurs générées est déterministe et ultimement périodique.

### Quel générateur choisir?

---

* ce n'est pas parce que ça a l'air compliqué que c'est aléatoire

* regarder la litérature sur le sujet pour choisir un générateur adapté

    * le générateur Mersenne-Twister implémenté dans la fonction `random` de Python est ok pour la simulation https://en.wikipedia.org/wiki/Mersenne_Twister mais pas pour des applications cryptographiques
    * voir l'article en lien sur e-campus avec un tableau qui récapitule les résultats des tests sur les principaux générateurs connus
    

### Exemple de générateur idiot

---

$$x_{n+1} = \vert(\sin(\log(x_n))\vert $$

* long à calculer

* pas uniforme

In [None]:
def terme_suivant(x):
    return abs(math.sin(math.log(x)))

n = 1000
data = [0.5]
for _ in range(n):
    data.append(terme_suivant(data[-1]))
sns.histplot(data, stat="probability")

### Un générateur simple: générateur à congruence linéaire

---

**Graine**: 

$$x_0$$

**Terme suivant**:

$$x_{n+1} = a x_n + b \mod m $$


* **Paramètres** du générateur: $a$, $b$ et $m$ trois entiers

* génère des entiers dans $\{0, \dots, m-1 \}$

* **période maximale** d'une séquence: $m$

* générateurs très étudiés dans la litérature
    * bon choix des paramètres
    * bon choix de la graine
    
* par exemple, la librairie standard du C utilise les paramètres
    * $m = 2^{31}$
    * $a=1103515245$
    * $b=12345$

### Générateur à congruence linéaire: exemple

---
**Graine**: 

$$x_0 = 5$$

**Terme suivant**:

$$x_{n+1} = 5 x_n + 1 \mod 16 $$



### Générateur de Tausworthe

---

Génère une suite de bits $b_1, b_2, \dots$.

**Graine**: $b_1, b_2, \dots, b_k$ mot sur $k$ bits


**Terme suivant**: on donne $a_0, a_1, a_2, \dots, a_k$ mot sur $k+1$ bits

$$ b_n = a_0 + a_1 b_{n-1} + a_2 b_{n-2} + \dots + a_k b_{n-k} \mod 2 $$


**Exemple**:

* $k=4$

$$a_0,a_1,a_2,a_3,a_4=0,1,0,1,0$$

* graine: $1011$