# Arithmétique modulaire et test de primalité avec Python 3.x

Python, comme la plupart des langages de programmation, est livré avec un opérateur **mod** `%` pour calculer les restes. Cela simplifie l'arithmétique modulaire. Les aspects les plus intéressants - du point de vue de la programmation et de la théorie des nombres - apparaissent dans les algotiyhmes liés à l'arithmétique modulaire. Nous nous intéressons ici à l’*algorithme de Pingala*, une méthode de calcul des exposants basée sur une méthode ancienne d’énumération en poésie. Nous analysons la performance de cet algorithme en utilisant la fonction `timeit` de Python pour le chronométrage et la fonction` randint` pour la randomisation des paramètres d'entrée. Nous voyons également comment la performance dépend du nombre de bits des paramètres d'entrée. De cette manière, nous introduisons doucement certaines questions pratiques et théoriques en informatique.

Nous appliquons cet algorithme pour implémenter le test de primalité de Miller-Rabin. Ce test permet de déterminer très rapidement (de manière probabiliste) si un grand nombre (comportant des centaines ou des milliers de chiffres!) est premier. Notre implémentation est déterministe pour les nombres plus petits (moins de 64 bits).
Ce tutoriel de programmation complète les chapitres 5 et 6 de [An Illustrated Theory of Numbers](http://illustratedtheoryofnumbers.com/index.html).  

## Table des matières

- [Arithmétique modulaire](#modcalc)
- [Test de primalité de Miller-Rabin](#millerrabin)

<a id='modcalc'></a>

## Arithmétique modulaire

### L'opérateur ** mod ** `%`

Pour l'arithmétique modulaire de base, on peut utiliser "l'opérateur mod" de Python `%` pour obtenir les restes. Il existe une différence conceptuelle entre le "mod" de la programmation informatique et le "mod" des mathématiciens. En informatique, "mod" est l'opérateur qui donne le reste de la division euclidienne. Donc, pour un informaticien, "23 mod 5 = 3", car 3 est le reste après avoir divisé 23 par 5.

Les mathématiciens (à commencer par Gauss) adoptent un changement conceptuel radical. Un mathématicien écrirait $23 \equiv 3$ mod $5$, pour dire que 23 est **congruent** à $3$ modulo $5$.
Dans la déclaration "23 mod 5 = 3", $3$ est le **représentant naturel** du nombre $23$ dans "l'anneau des entiers modulo 5", noté $Z/5Z$.

In [None]:
23 % 5  # What is the remainder after dividing 23 by 5?  What is the natural representative of 23 modulo 5?

Le miracle de l'arithmétique modulaire est que le résultat final d’un calcul "mod m" n’est pas changé si l’on applique "mod m" à toutes les étapes du calcul, lorsque le calcul implique **additions, soustractions ou multiplications**.

In [None]:
((17 + 38) * (105 - 193)) % 13  # Do a bunch of stuff, then take the representative modulo 13.

In [None]:
(((17%13) + (38%13)) * ((105%13) - (193%13)) ) % 13 # Working modulo 13 along the way.

Il peut sembler fastidieux de procéder à cette "réduction mod m" à chaque étape du processus. Mais l'avantage est que vous ne devez jamais travailler avec des nombres beaucoup plus grands que le module $m$ si vous pouvez réduire modulo m à chaque étape.
Par exemple, considérons le calcul suivant.

In [None]:
3**999 # A very large integer.

In [None]:
(3**999) % 1000  # What are the last 3 digits of 3 raised to the 999 power?

Pour calculer les trois derniers chiffres de $3^{999}$, Python utilise des entiers très volumineux. Mais si nous pouvions réduire modulo $1000$ à chaque étape du calcul ? Ensuite, à mesure que Python avance son calcul, il ne sera jamais obligé de multiplier des nombres supérieurs à $1000$. Voici une implémentation en force brute.

In [None]:
P = 1  # The "running product" starts at 1.
for i in range(999):  # We repeat the following line 999 times, as i traverses the list [0,1,...,998].
    P = (P * 3)%1000  # We reduce modulo 1000 along the way!
print(P)

Dans ce calcul, Python ne travaille jamais avec des entiers longs. Les calculs avec des entiers longs prennent beaucoup de temps et sont inutiles si vous ne vous souciez que du résultat d'un calcul modulo un petit nombre $m$.

### Analyse de performance
La boucle ci-dessus fonctionne rapidement, mais elle est loin d'être optimale ; analysons les performances des deux approches précédentes en écrivant deux fonctions `powermod_1` et `powermod_2`.

In [None]:
def powermod_1(base, exponent, modulus):  # The naive approach.
    return (base**exponent) % modulus 

In [None]:
def powermod_2(base, exponent, modulus):
    P = 1 # Start the running product at 1.
    e = 0
    for i in range(exponent):
        P = (P * base) % modulus
    return P

In [None]:
%timeit powermod_1(3, 999, 1000)

In [None]:
%timeit powermod_2(3, 999, 1000)

La deuxième fonction `powermod` était probablement beaucoup plus lente, même si nous avons réduit la taille des nombres en cours de route. Mais peut-être avons-nous utilisé trop peu de paramètres d’entrée (ici `3, 999, 1000`) pour tester la deuxième fonction. Pour comparer les performances des deux fonctions, il faudrait essayer de nombreux autres inputs. Pour cela, nous utilisons les fonctionnalités timeit de Python d'une manière différente. Ci-dessus, nous avons utilisé le "magic" `%timeit` pour chronométrer une ligne de code. La commande `%timeit` est pratique mais sa flexibilité est limitée. Ici, nous utiliserons le package `timeit` (attention : il porte le même nom que sa fonction).

In [None]:
import timeit as TI

In [None]:
TI.timeit(setup = "from __main__ import powermod_1", stmt = 'powermod_1(3, 999, 1000)', number = 10000)

In [None]:
TI.timeit(setup = "from __main__ import powermod_2", stmt = 'powermod_2(3, 999, 1000)', number = 10000)

La syntaxe de la fonction `timeit` est un peu compliquée ; voir [Timeit in Python with Examples](https://www.geeksforgeeks.org/timeit-python-examples/). Le premier paramètre est une instruction Python que nous éxecuterons juste une fois, et dont la signification n'a pas d'importance pour nous, pour le moment). Le deuxième paramètre est le code que nous voulons chronométrer, `powermod_*(3, 999, 1000)`. Enfin, le troisième paramètre est le nombre de fois où la fonction timeit répétera le code.
La sortie de la fonction timeit est un float, qui représente le nombre de secondes prises pour toutes les répétitions. Vous devez donc diviser par le nombre de répétitions, ici `10000`, pour déterminer le temps moyen d'exécution.

En utilisant la fonction `timeit`, nous pouvons comparer les performances des deux fonctions `powermod` sur un grand nombre d'inputs. Nous choisissons nos inputs de manière aléatoire pour estimer la performance de nos fonctions. Pour les nombres aléatoires, Python a un package `random`.

In [None]:
from random import randint # randint chooses random integers.

In [None]:
print("My number is {}".format(randint(1, 10))) # Run this line many times over to see what happens!

La commande `randint(a, b)` produit un entier aléatoire entre `a` et `b`; attention: `b` inclus! Les lignes suivantes itèrent le `randint(1, 10)` et gardent une trace de la fréquence de chaque sortie. La distribution de fréquence résultante doit être presque plate, c’est-à-dire que chaque nombre compris entre `1` et `10` doit se produire environ `10%` du temps.

In [None]:
Freq = {1:0, 2:0, 3:0, 4:0, 5:0, 6:0, 7:0, 8:0, 9:0, 10:0}  # We like to use a dictionary here.
for t in range(10000):
    n = randint(1, 10) # Choose a random number between 1 and 10.
    Freq[n] = Freq[n] + 1

print(Freq)

Traçons les fréquences dans un histogramme.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.bar(Freq.keys(), Freq.values()) # The keys 1,...,10 are used as bins.  The values are used as bar heights.
plt.show()

En combinant les fonctions `randint` et` timeit`, nous pouvons comparer les performances de `powermod_1` et de` powermod_2` avec des inputs aléatoires.

In [None]:
time_1 = 0 # Tracking the time taken by the powermod_1 function.
time_2 = 0 # Tracking the time taken by the powermod_2 function.
for t in range(1000): # One thousand samples are taken!
    base = randint(10, 99) # A random 2-digit base.
    exponent = randint(1000, 9999) # A random 3-digit exponent.
    modulus = randint(1000, 9999) # A random 3-digit modulus.
    
    # Note in the lines below that we have to import the functions powermod_1, powermod_2 and 
    # the variables base, exponent, modulus, into the isolation chamber used by timeit.
    # We set number=10 to allow 10 trials of each function on each sample input.
    # We do a head-to-head comparison of the two functions on the same inputs!
    # Note that when the lines get too long in Python, you can press <enter>/<return> to start a new line.
    # Python will ignore the line break.  Just keep things indented for clarity.
    
    time_1 = time_1 + TI.timeit(stmt = "powermod_1(base,exponent,modulus)", 
                              setup = "from __main__ import powermod_1, base, exponent, modulus", number=10)
    time_2 = time_2 + TI.timeit(stmt = "powermod_2(base,exponent,modulus)", 
                              setup = "from __main__ import powermod_2, base, exponent, modulus", number=10)
    
print("powermod_1 took {} seconds.".format(time_1))
print("powermod_2 took {} seconds.".format(time_2)) # Which is faster?

Nous sommes maintenant certains que la fonction `powermod_1` est plus rapide (peut-être par un facteur de 5) que la fonction` powermod_2`. C'est du moins le cas pour les entrées dans la plage de 2 à 3 chiffres échantillonnée. Mais pourquoi ? Nous avons réduit la complexité du calcul en utilisant l'opération mod `%` tout au long du calcul. Voici trois explications possibles.

1. L’opération mod elle-même prend un peu de temps. Peut-être que ce temps s’est additionné à `powermod_2` ?
2. L’opération puissance `**` sur de grands entiers est déjà hautement optimisée en Python et surpasse encore notre boucle while.
3. Nous avons utilisé plus de multiplications que nécessaire.

Il s'avère que l'opérateur `%` est extrêmement rapide ... il se mesure en nanosecondes (un milliardième de seconde).

In [None]:
%timeit 1238712 % 1237

Donc, la différence de vitesse n'est pas due aux opérations mod. Mais les autres explications sont pertinentes. Les développeurs Python ont travaillé dur pour que Python soit rapide -- les opérations built-in (faisant partie du langage Python de base) telles que `**` seront presque certainement plus rapides que toutes les fonctions que vous écrivez avec une boucle en Python. Les développeurs ont des programmes écrits dans le langage de programmation **C** pour implémenter des opérations telles que `**`; leurs programmes ont été compilés en code machine ; c'est très rapide! Lorsque vous exécutez votre propre boucle, Python doit convertir le code en code machine "à la volée", ce qui est plus lent.

Néanmoins, il est inutile d’utiliser des entiers longs si vous demandez à Python de calculer `(3**999) % 1000`. La bonne nouvelle est que de tels exposants modulaires sont si souvent utilisés que les développeurs Python ont écrit une opération built-in: la fonction `pow`.

La fonction pow a deux versions. La version la plus simple `pow(b,e)` élève `b` à la puissance `e`. C'est la même chose que `b**e`. Mais il existe aussi une version modulaire! La commande `pow(b,e,m)` élève `b` à la puissance `e`, modulo `m`, réduisant efficacement modulo `m` en cours de calcul.

In [None]:
pow(3,999)  # A long number.

In [None]:
pow(3,999,1000) # The result, modulo 1000.  

In [None]:
pow(3,999) % 1000 # The old way

In [None]:
%timeit pow(3,999,1000)

In [None]:
%timeit pow(3,999) % 1000

La commande `pow(b, e, m)` devrait montrer une accélération significative par rapport à la commande `pow(b, e)`. Rappelez-vous que ns représente des nanosecondes (milliardièmes de seconde) et µs, des microsecondes (millionièmes de seconde).

L'exponentiation est très rapide, car non seulement Python réduit les nombre modulo `m`, mais il effectue aussi un nombre étonnamment réduit de multiplications. Dans notre approche en boucle, nous avons calculé $3^{999}$ en multipliant `999` fois. Mais on peut obtenir le résultat voulu avec beaucoup moins de multiplications. Les idées remontent à [Pingala](https://en.wikipedia.org/wiki/Pingala), un mathématicien indien du IIe ou IIIe siècle avant notre ère, qui développa ses idées pour mesurer la métrique en poésie(arrangements de syllabes longues et courtes dans un vers de longueur donnée).

Vous pouvez vous demander pourquoi il est nécessaire d'apprendre l'algorithme, si Python va déjà aussi vite. D'abord, c'est intéressant sur le plan algorithmique, et peut être utile dans d'autres contextes, comme les puissances de matrices. Mais aussi, nous devrons comprendre l'algorithme plus en détail pour implémenter le test de Miller-Rabin que nous allons voir bientôt : c'est un moyen de tester rapidement si de très grands nombres sont premiers.

#### Exercices

1. Adaptez la fonction `solve_LDE` du Notebook 2 pour écrire une fonction `modular_inverse(a, m)` qui calcule l'inverse multiplicatif de `a` modulo `m` (si `a` est inversible modulo `m`, c'est-à-dire s'ils sont premiers entr'eux).

2. Utilisez les fonctions `timeit` et `randint` pour déterminer comment la vitesse de la fonction `pow(a, e, m)` dépend du nombre de chiffres des nombres `a`, `e` et `m` (fixer deux variables, et faire varier la troisième).

<a id='millerrabin'></a>

## Le test de primalité de Miller-Rabin

### Le petit théorème de Fermat et la propriété ROO des nombres premiers.

Le petit théorème de Fermat dit que si $p$ est un nombre premier et que $GCD(a, p) = 1$, alors $$a^{p-1} \equiv 1 \text{ mod } p.$$
Sous les hypothèses ci-dessus, si nous demandons à Python de calculer `(a**(p-1))%p`, ou mieux, `pow(a, p-1, p)`, le résultat doit être égal à $1$. Nous utiliserons et affinerons cette idée pour concevoir un test de primalité puissant et pratique. Commençons par quelques vérifications du petit théorème de Fermat.

In [None]:
pow(3, 36, 37)  # a = 3, p = 37, p-1 = 36

In [None]:
pow(17, 100, 101) # 101 is prime.

In [None]:
pow(303, 100, 101)  # Why won't we get 1?

In [None]:
pow(5, 90, 91) # What's the answer?

In [None]:
pow(7, 12318, 12319) # What's the answer?

Nous pouvons apprendre quelque chose des deux exemples précédents. À savoir, $91$ et $12319$ ne sont **pas** des nombres premiers. Nous disons que $7$ **témoigne** de la non-primalité de $12319$. De plus, nous avons appris ce fait sans trouver réellement un facteur de $12319$. En effet, les facteurs de $12319$ sont $97$ et $127$, qui n’ont aucun lien avec le "témoin" $7$.

De cette façon, le petit théorème de Fermat peut être utilisé comme moyen de découvrir que des nombres ne sont pas premiers. Mais attention ! si $p$ n’est pas premier, alors quelles sont les chances que $a^{p-1} \equiv 1$ mod $p$ par hasard ?

In [None]:
pow(3, 90, 91)

Parfois, des coïncidences se produisent. Nous dirons que $3$ est un **mauvais témoin** pour $91$, puisque $91$ n’est pas premier, mais 3$ ^{90} \equiv 1$ mod $91$. Mais nous pourrions essayer plusieurs bases (témoins). Nous pouvons nous attendre à ce que quelqu'une base témoigne de la non-primalité.
En effet, pour les non-premiers comme $91$, il y a beaucoup de bons témoins (ceux qui détectent la non-primalité).

### Exercice
1. Calculer la proportion de bons et de mauvais témoins pour $n = 91$.

Pour certains nombres - les [nombres de Carmichael](https://en.wikipedia.org/wiki/Carmichael_number) - il y a plus de mauvais témoins que de bons témoins. 

#### Exercice

Considérons le nombre de Carmichael $p = 561$.

1. Calculer ses facteurs premiers.

2. Calculer la proportion de bons et de mauvais témoins de $p$.

3. Est-ce que tous les entiers $a$ premiers avec $p$ sont des mauvais témoins ?

4. Refaire l'exercice avec $p = 91$, puis $p = 41041$

Pour les nombres de Carmichael, il est tout aussi difficile de trouver un bon témoin que de trouver un facteur premier. Bien que les nombres de Carmichael soient rares, ils démontrent que le petit théorème de Fermat n’est pas très bon pour être certain de la primalité. Effectivement, le petit théorème de Fermat peut souvent être utilisé pour prouver rapidement qu'un nombre **n'est pas premier** ... mais il n'est pas très bon si nous voulons être sûr qu'un nombre **est premier**.

#### Exercice

1. Cacluler les 12 premiers nombres de Carmichael.

The Miller-Rabin primality test will refine the Fermat's Little Theorem test, by cleverly taking advantage of another property of prime numbers.  We call this the ROO (Roots Of One) property:  if $p$ is a prime number, and $x^2 \equiv 1$ mod $p$, then $x \equiv 1$ or $x \equiv -1$ mod $p$.

Le test de primalité de Miller-Rabin est une amélioration du test utilisant le petit théorème de Fermat. On va exploiter une autre propriété de nombres premiers. Nous appelons cela la propriété ROO (Roots Of One): si $p$ est un nombre premier et que $x^2 = 1$ mod $p$, alors $ x = 1 $ ou $ x = -1 $ mod $p$.

In [None]:
for x in range(41):  
    if x*x % 41 == 1:
        print("{} squared is congruent to 1, mod 41.".format(x))  # What numbers do you think will be printed?

Notez que nous utilisons des "représentants naturels" lorsque nous faisons de l'arithmétique modulaire en Python. Ainsi, les seuls nombres dont le carré est 1 mod 41 sont 1 et 40. (Notez que 40 est le représentant naturel de -1, mod 41).
Si nous considérons les "racines carrées de 1" avec un module composite, nous en obtenons davantage (tant que le module a au moins deux facteurs premiers impairs).

In [None]:
for x in range(91):
    if x*x % 91 == 1:
        print("{} squared is congruent to 1, mod 91.".format(x))  # What numbers do you think will be printed?

Nous avons vu deux propriétés des nombres premiers, et donc deux indicateurs possibles qu'un nombre n'est pas premier.
1. Si $p$ est un nombre qui viole le petit théorème de Fermat, alors $p$ n'est pas premier.
2. Si $p$ est un nombre qui viole la propriété ROO, alors $p$ n'est pas un nombre premier.
Le test Miller Rabin combinera ces indicateurs. Mais nous devons d’abord introduire un ancien algorithme d’exponentiation.

### Algorithme d'exponentiation de Pingala

Si nous souhaitons calculer $ 5^{90} $ mod $ 91 $, sans utiliser la commande `pow` de Python, nous n'avons pas à effectuer 90 multiplications. A la place, nous pouvons utiliser **l'algorithme de Pingala**. Sur cet exemple, on élève à la puissance $45$, puis on fait un carré ; pour la puissance $45$, on élève à la puissance $24$, puis on fait un carré, que l'on multiplie par la base $5$ ; et on on continue récursivement jusqu'à ce que l'exposant soit réduit à zéro.

#### Exercice

1. Détailler le calcul de $ 5^{90} $ mod $91$ sur papier. On présentera les calculs dans un tabeau. Compter le nombre de multiplications et de carrés et comparer à $90$.

2. Implémenter une fonction `powmod_Pingala(base , exponent, modulus)` qui calcule $a^e$ mod $m$, avec $a, e, m$ étant des entiers, $e \ge 0$, $m \ge 2$.

In [None]:
def powmod_Pingala(a, e, m):
    """
    calcule a^e mod m
    """
    # code de la fonction powmod_Pingala ici
    return

In [None]:
powmod_Pingala(5, 90, 91)

Let's compare the performance of our new modular exponentiation algorithm.

In [None]:
%timeit powmod_Pingala(3, 999, 1000)  # Pingala's algorithm, modding along the way.

In [None]:
%timeit powermod_1(3, 999, 1000)  # Raise to the power, then mod, using Python built-in exponents.

In [None]:
%timeit powermod_2(3, 999, 1000)  #  Multiply 999 times, modding along the way.

In [None]:
%timeit pow(3, 999, 1000)  #  Use the Python built-in modular exponent.

La commande d’exponentiation modulaire buit-in de Python `pow(b, e, m)` est probablement la plus rapide. Mais notre implémentation de l'algorithme de Pingala n'est pas mauvaise - elle bat probablement la simple commande `(b**e) % m` de la fonction` powermod_1`, et elle est certainement plus rapide que notre boucle naïve dans `powermod_2`.

On peut quantifier l'efficacité de ces algorithmes en analysant comment le **temps** dépend de la **taille** des paramètres d'entrée. Pour simplifier, maintenons la base et le module constants et considérons comment le temps varie en fonction de la taille de l'exposant.
En fonction de l'exposant $e$, notre algorithme `powmod_Pingala` nécessitait un certain nombre de multiplications, limité par deux fois le nombre de bits de $e$. Le nombre de bits de $e$ est approximativement $\log_2(e)$. La taille des nombres multipliés est limitée par la taille du module (constant). De cette manière, le temps pris par l’algorithme `powmod_Pingala` devrait être $O(\log (e))$, ce qui signifie une constante multipliée par le logarithme de l’exposant.
Cela contraste avec l'algorithme lent `powermod_2`, qui effectue $e$ multiplications et a donc un temps d'exécution $O(e)$.

### The Miller-Rabin test

L'algorithme de Pingala est efficace pour calculer les exposants, en arithmétique modulaire. De cette manière, nous pouvons rechercher les violations du petit théorème de Fermat comme auparavant, afin de trouver des témoins de la non-primalité. Mais si nous examinons de plus près l'algorithme, nous pouvons aussi, parfois, trouver des violations de la propriété ROO des nombres premiers. Cela renforce le test de primalité.
Pour voir cela, nous créons une version "verbeuse" de l'algorithme de Pingala pour l'exponentiation modulaire.

In [None]:
def powmod_verbose(a, e, m):
    if e == 0:
        return 1
    if e == 1:
        return a % m
    if e > 1:
        q = e //2
        r = e % 2
        x = powmod_verbose(a, q, m)
        x2 = x*x % m
        print("{} squared modulo {}, gives {}".format(x, m, x2))
        return x2 * a**r % m

In [None]:
powmod_verbose(2, 560, 561)  # 561 is a Carmichael number.

La fonction a affiché chaque étape de l'algorithme de Pingala. Le résultat final est que $2^{560} = 1$ mod $561$. Donc, $2$ est un mauvais témoin. $561$ n'est pas premier mais il ne viole pas le petit théorème de Fermat lorsque $2$ est la base.

Mais dans les prints ci-dessus, on voit une violation de la propriété ROO. L'avant-dernière ligne indique que $67^2 = 1$ modulo $561$. Si $561$ était premier, seulement $1$ et $560$ seraient des racines carrées de $1$. Cette avant-dernière ligne indique donc que $561$ n'est pas premier (encore une fois, sans trouver de facteur!).
Ceci sous-tend le test Miller-Rabin. Nous effectuons l'algorithme d'exponentiation de Pingala pour calculer $b^{p-1}$ modulo $p$ et si nous constatons une violation de ROO en cours de route, alors $p$ n'est pas premier. Si d'autre part, à la fin, le calcul ne donne pas $1$, nous avons trouvé une violation du petit théorème de Fermat (FLT) et $p$ n'est pas premier.

#### Exercice

1. Implémenter le test de Miller-Rabin sur un nombre $p$, en utilisant une base donnée.

In [None]:
def Miller_Rabin(p, base):
    '''
    Tests whether p is prime, using the given base.
    The result False implies that p is definitely not prime.
    The result True implies that p **might** be prime.
    It is not a perfect test!
    '''
    # code de la fonction Miller_Rabin ici
    return

In [None]:
 Miller_Rabin(101, 6)

How good is the Miller-Rabin test?  Will this modest improvement (looking for ROO violations) improve the reliability of witnesses?  Let's see how many witnesses observe the nonprimality of 41041.

Quelle est la qualité du test Miller-Rabin? Cette amélioration modeste (recherche de violations des RO0) augmentera-t-il la fiabilité des témoins?

Voyons combien de témoins ont détecté la nonprimalité de $41041$.

In [None]:
for witness in range(2, 20):
    MR = Miller_Rabin(41041, witness) # 
    if MR: 
        print("{} is a bad witness.".format(witness))
    else:
        print("{} detects that 41041 is not prime.".format(witness))

En fait, on peut prouver qu'au moins les trois quarts des témoins détecteront la non-primalité de n'importe quel entier non-premier. Ainsi, si vous continuez à tester des témoins au hasard, vos chances de détecter une non-primalité augmentent de façon exponentielle! En fait, le témoin 2 est suffisant pour vérifier si un nombre est premier ou non jusqu'à $2047$. En d'autres termes, si $p < 2047$, alors $p$ est premier si et seulement si `Miller_Rabin (p, 2)` est `True`. Il suffit d’utiliser les témoins $2$ et $3$ pour vérifier la primalité d’un nombre jusqu’à un million ($1373653$, pour être précis, selon [Wikipedia](https://en.wikipedia.org/wiki/Miller%E2%80%93Rabin_primality_test). .)

La stratégie générale derrière le test Miller-Rabin consiste alors à n’utiliser que quelques témoins pour des nombres premiers potentiels assez petits (par exemple, jusqu’à $2^{64}$). Pour des nombres plus grands, essayez $x$ bases aléatoires (par exemple $x = 20$ ou $x = 50$). Si le nombre testé **est** composite, alors la probabilité que tous les témoins aient déclaré `True` sera inférieure à $1/4^x$. Avec $50$ témoins aléatoires, la probabilité qu’un nombre composé soit, à tort, déclaré premier par le test sera inférieure à $10^{-30}$.

Nous implémentons le test de Miller-Rabin pour la primalité dans la fonction `is_prime` ci-dessous.

In [None]:
def is_prime(p, witnesses=50):  # witnesses is a parameter with a default value.
    '''
    Tests whether a positive integer p is prime.
    For p < 2^64, the test is deterministic, using known good witnesses.
    Good witnesses come from a table at Wikipedia's article on the Miller-Rabin test,
    based on research by Pomerance, Selfridge and Wagstaff, Jaeschke, Jiang and Deng.
    For larger p, a number (by default, 50) of witnesses are chosen at random.
    '''
    if (p%2 == 0): # Might as well take care of even numbers at the outset!
        if p == 2:
            return True
        else:
            return False 
    
    if p > 2**64:  # We use the probabilistic test for large p.
        trial = 0
        while trial < witnesses:
            trial = trial + 1
            witness = randint(2,p-2) # A good range for possible witnesses
            if Miller_Rabin(p,witness) == False:
                return False
        return True
    
    else:  # We use a determinisic test for p <= 2**64.
        verdict = Miller_Rabin(p,2)
        if p < 2047:
            return verdict # The witness 2 suffices.
        verdict = verdict and Miller_Rabin(p,3)
        if p < 1373653:
            return verdict # The witnesses 2 and 3 suffice.
        verdict = verdict and Miller_Rabin(p,5)
        if p < 25326001:
            return verdict # The witnesses 2,3,5 suffice.
        verdict = verdict and Miller_Rabin(p,7)
        if p < 3215031751:
            return verdict # The witnesses 2,3,5,7 suffice.
        verdict = verdict and Miller_Rabin(p,11)
        if p < 2152302898747:
            return verdict # The witnesses 2,3,5,7,11 suffice.
        verdict = verdict and Miller_Rabin(p,13)
        if p < 3474749660383:
            return verdict # The witnesses 2,3,5,7,11,13 suffice.
        verdict = verdict and Miller_Rabin(p,17)
        if p < 341550071728321:
            return verdict # The witnesses 2,3,5,7,11,17 suffice.
        verdict = verdict and Miller_Rabin(p,19) and Miller_Rabin(p,23)
        if p < 3825123056546413051:
            return verdict # The witnesses 2,3,5,7,11,17,19,23 suffice.
        verdict = verdict and Miller_Rabin(p,29) and Miller_Rabin(p,31) and Miller_Rabin(p,37)
        return verdict # The witnesses 2,3,5,7,11,17,19,23,29,31,37 suffice for testing up to 2^64. 
    

In [None]:
is_prime(1000000000000066600000000000001)  # This is Belphegor's prime.

À quelle vitesse marche notre nouvelle fonction `is_prime` ? Essayons.

In [None]:
%timeit is_prime(234987928347928347928347928734987398792837491)

In [None]:
%timeit is_prime(1000000000000066600000000000001)

Les résultats seront probablement de l'ordre de la milliseconde, voire du dixième de la milliseconde pour les non-premiers! C'est beaucoup plus rapide que de rechercher des facteurs, pour des nombres de cette taille. De cette façon, nous pouvons tester la primalité de nombres comportant des centaines de chiffres!

Pour une application, trouvons des nombres premiers de Mersenne. Rappelons qu'un nombre premier de Mersenne est un nombre premier de la forme $2^p - 1$. Notez que lorsque 2$2^p - 1$ est premier, il faut que $p$ soit lui aussi un nombre premier. Nous allons rapidement trouver les nombres premiers Mersenne avec $p$ jusqu’à $1000$.

In [None]:
for p in range(1, 1000):
    if is_prime(p):  # We only need to check these p.
        M = 2**p - 1 # A candidate for a Mersenne prime.
        if is_prime(M):
            print("2^{} - 1 = {} is a Mersenne prime.".format(p, M))

### Exercices

1. Si $2^p - 1$ est un nombre premier de Mersenne, Euclide a montré qu'alors $(2^p - 1)\cdot 2^{p-1} $ est un nombre parfait. Trouvez tous les nombres (pairs) parfaits jusqu'à  $2^{1000}$. (Remarque: personne n'a jamais trouvé un nombre parfait impair. Tous les nombres pairs parfaits proviennent des nombres premiers de Mersenne selon la recette d'Euclide.)

2. La suite de Fermat est la suite des nombres $3, 5, 257, 65537$, etc., de la forme $2^{2 n} + 1$ pour $ n \geq 0 $. Testez la primalité de ces nombres pour $n$ jusqu'à $10$.

3. Pourquoi la fonction `is_prime` (utilisant Miller-Rabin) fonctionne-t-elle plus rapidement sur les non-premiers que sur les premiers ?

4. Comparez les performances de la nouvelle fonction `is_prime` à la "division par les facteurs" (recherche de facteurs allant jusqu'à la racine carrée du numéro de test). Qu'est-ce qui est plus rapide pour les petits nombres (1 chiffre, 2 chiffres, 3 chiffres, etc.) ?