# Part 3:  Listes  en Python 3.x ; crible d'Eratosthène

Python fournit un puissant ensemble d'outils pour créer et manipuler des listes de données. Dans cette partie, nous étudions de façon approfondie le type `list` de Python. Nous utilisons des listes Python pour implémenter et optimiser le Crible d'Eratosthene, qui produit une liste de tous les nombres premiers jusqu'à un grand nombre (10 millions, par exemple) en un clin d'oeil. En cours de route, nous introduisons des techniques Python pour les fonctions mathématiques et l'analyse des données. Cette leçon de programmation est destinée à compléter le Chapitre 2 d'[une théorie illustrée des nombres](http://bookstore.ams.org/mbk-105).

## Table des matières

- [Test de primalité](#primetest)
- [Manipulation de liste](#lists)
- [Le crible](#sieve)
- [Analyse de données](#analysis)

<a id='primetest'></a>

## Test de primalité

Avant de plonger dans les listes, nous rappelons le test de primalité **en force brute** que nous avons créé dans la dernière leçon. Pour tester si un nombre `n` est premier, nous pouvons simplement chercher tous ses facteurs. Cela donne le test de primalité suivant.

In [None]:
def is_prime(n):
    '''
    Checks whether the argument n is a prime number.
    Uses a brute force search for factors between 1 and n.
    '''
    for j in range(2, n):  # the range of numbers 2,3,...,n-1.
        if n%j == 0:  # is n divisible by j?
            print("{} is a factor of {}.".format(j,n))
            return False
    return True

In [None]:
is_prime(100001)

In [None]:
is_prime(101)

Si $n$ est un nombre premier, la fonction `is_prime(n)` parcourt tous les nombres entre $2$ et $n-1$. Mais c'est inutile ! En effet, si $n$ n'est pas premier, il aura un facteur entre $2$ et la racine carrée de $n$. Cela est dû au fait que les facteurs vont en paires: si $ab = n$, alors l'un des facteurs, $a$ ou $b$, doit être inférieur ou égal à la racine carrée de $n$. Il suffit donc de rechercher les facteurs allant jusqu'à (et incluant) la racine carrée de $n$.

Nous n'avons pas encore travaillé avec des racines carrées en Python. Mais Python est livré avec un [package mathématique standard](https://docs.python.org/2/library/math.html) qui fournit la fonction racine carrée, des fonctions trigonométriques, les logarithmes, etc. Cliquez sur le lien précédent pour la documentation. Ce package ne se charge pas automatiquement lorsque vous démarrez Python, vous devez donc le charger avec un petit code Python.

In [None]:
from math import sqrt

Cette commande **import ** la fonction racine carrée (`sqrt`) du **package** appelé `math`. Maintenant, vous pouvez utiliser les racines carrées.

In [None]:
sqrt(1000)

Il existe différentes manières d'importer des fonctions à partir de packages. La syntaxe ci-dessus est un bon point de départ, mais des problèmes peuvent parfois survenir si différents packages ont des fonctions portant le même nom.
Voici quelques méthodes pour importer la fonction `sqrt`.

`from math import sqrt` : après cette commande, `sqrt` fera référence à la fonction du paquet `math` (remplaçant toute définition précédente).

`import math` : après cette commande, toutes les fonctions du paquet` math` seront importées. Mais pour appeler `sqrt`, vous devez taper une commande comme `math.sqrt(1000)`. Ceci est pratique s'il existe des conflits potentiels avec d'autres packages.

`from math import *` : après cette commande, toutes les fonctions du paquet `math` seront importées. Pour les appeler, vous pouvez y accéder directement avec une commande comme `sqrt(1000)`. Cela peut facilement causer des conflits avec d'autres packages, car les packages peuvent contenir des centaines de fonctions !

`import math as m` : Certaines personnes aiment les abréviations. Cela importe toutes les fonctions du paquet `math`. Pour en appeler un, vous tapez une commande comme `m.sqrt(1000)`.

In [None]:
import math

In [None]:
math.sqrt(1000)

In [None]:
factorial(10)  # This will cause an error!

In [None]:
math.factorial(10)  # This is ok, since the math package comes with a function called factorial.

Maintenant, améliorons notre fonction `is_prime(n)` en recherchant des facteurs uniquement jusqu'à la racine carrée du nombre `n`. Nous considérons deux options.

In [None]:
def is_prime_slow(n):
    '''
    Checks whether the argument n is a prime number.
    Uses a brute force search for factors between 1 and n.
    '''
    j = 2
    while j <= sqrt(n):  # j will proceed through the list of numbers 2,3,... up to sqrt(n).
        if n%j == 0:  # is n divisible by j?
            print("{} is a factor of {}.".format(j,n))
            return False
        j = j + 1  # There's a Python abbreviation for this:  j += 1.
    return True

In [None]:
def is_prime_fast(n):
    '''
    Checks whether the argument n is a prime number.
    Uses a brute force search for factors between 1 and n.
    '''
    j = 2
    root_n = sqrt(n)
    while j <= root_n:  # j will proceed through the list of numbers 2,3,... up to sqrt(n).
        if n%j == 0:  # is n divisible by j?
            print("{} is a factor of {}.".format(j,n))
            return False
        j = j + 1  # There's a Python abbreviation for this:  j += 1.
    return True

In [None]:
is_prime_fast(1000003)

In [None]:
is_prime_slow(1000003)

J'ai choisi des noms de fonctions "fast" et "slow". Mais qu'est-ce qui les rend plus rapide ou plus lente ? Sont-ils plus rapides que l'original ? Et comment pouvons-nous l'affirmer ?

Python est livré avec un grand ensemble d'outils pour ces questions. Les plus simples (pour l'utilisateur) sont les utilitaires de temps. En plaçant l'instruction **magic** `%timeit` devant une commande, Python fait quelque chose comme ceci:

1. Python crée un petit conteneur sur votre ordinateur dédié aux calculs, afin d’éviter si possible les interférences avec d’autres programmes en cours d’exécution.
2. Python exécute la commande de nombreuses fois.
3. Python calcule la durée moyenne des exécutions.

Essayez-le ci-dessous, pour comparer la vitesse des fonctions `is_prime` (l'originale) avec les nouvelles versions `is_prime_fast` et `is_prime_slow`. Notez que les commandes `% timeit` peuvent prendre un peu de temps.

In [None]:
%timeit is_prime_fast(1000003)

In [None]:
%timeit is_prime_slow(1000003)

In [None]:
%timeit is_prime(1000003)

Le temps est mesuré en secondes, en millisecondes (1 ms = 1/1000 seconde), en microsecondes (1 µs = 1/1 000 000 de seconde) et en nanosecondes (1 ns = 1/1 000 000 000 de seconde). Donc, il peut sembler d'abord que `is_prime` est le plus rapide, ou à peu près de la même vitesse. Mais vérifiez les unités ! Les deux autres approches sont environ mille fois plus rapides!
A quel point étaient-ils plus rapides sur votre ordinateur ?

In [None]:
is_prime_fast(1000000000000037)  # Don't try this with `is_prime` unless you want to wait for a very, very long time!
# le nombre est 10**15 + 37, risque de plantage si vous allez au-delà

En effet, la fonction `is_prime_fast(n)` passera par une boucle de longueur à-peu-près `sqrt(n)` lorsque n est premier. Mais `is_prime(n)` passera par une boucle de longueur à-peu-près `n`. Comme `sqrt(n)` est très inférieur à `n`, lorsque n est grand, la fonction `is_prime_fast(n)` est beaucoup plus rapide.

Entre `is_prime_fast` et `is_prime_slow`, la différence est que la version rapide précalcule la racine carrée `sqrt(n)` avant de passer par la boucle, où la version lente répète le `sqrt(n)` à chaque répétition de la boucle. En effet, l’écriture `while j <= sqrt(n):` suggère que Python pourrait exécuter `sqrt(n)` à chaque vérification. Cela pourrait conduire Python à calculer la même racine carrée un million de fois ... inutilement!

Un principe de base de la programmation est d'**éviter la répétition**. Si vous avez de l'espace mémoire, calculez une fois et enregistrez le résultat. Il sera probablement plus rapide d'extraire le résultat de la mémoire à chaque passage de boucle que de le calculer à chaque fois.

Python a tendance à être assez intelligent, cependant. Il est possible que Python prédéfinisse `sqrt(n)` même dans la boucle lente, simplement parce qu'il est assez intelligent pour comprendre à l'avance que la même chose est calculée à plusieurs reprises. Cela dépend de votre version de Python et se déroule en coulisse.

In [None]:
is_prime_fast(10**14 + 37) # This might get a bit of delay.

Maintenant, nous avons une fonction `is_prime_fast(n)` qui est rapide pour les nombres `n` dans les trillions! Vous commencerez probablement à atteindre un temps de calcul perceptible aux environs $n = 10^{15}$, et les temps de calculs deviendent intolérables si vous ajoutez trop de chiffres.
Dans une prochaine leçon, nous verrons un test de primalité différent qui sera essentiellement instantané, même pour des nombres aussi grands que $10^{1000}$.

### Exercices

1. Pour vérifier si un nombre `n` est premier, vous pouvez d'abord vérifier si` n` est pair, puis vérifier si `n` a des facteurs impairs. Changez la fonction `is_prime_fast` en implémentant cette amélioration. Quelle vitesse gagne-t'on ?

2. Utilisez l’outil `%timeit` pour étudier la vitesse de `is_prime_fast` pour différentes tailles de `n`. En utilisant 10-20 points de données, créez un graphique montrant le temps pris par la fonction` is_prime_fast` en fonction de `n`.

3. Ecrivez une fonction `is_square (n)` pour tester si un entier donné `n` est un carré parfait (comme 0, 1, 4, 9, 16, etc.). Décrivez les différentes approches que vous essayez et dire laquelle est la plus rapide.

<a id='lists'></a>

## Manipulations sur les listes

Nous avons déjà (brièvement) rencontré le type `list` dans Python. Rappelez-vous que la commande `range` produit un range qui peut être utilisé pour produire une liste. Par exemple, `list (range (10))` produit la liste `[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]`. Vous pouvez également créer votre propre liste en écrivant ses termes, par ex. `L = [4, 7, 10]`.

Ici, nous travaillons avec des listes et une approche très pythonique pour la manipulation des listes. Avec de la pratique, cela peut être un outil puissant pour écrire des algorithmes rapides, exploitant la capacité câblée de votre ordinateur pour décaler et découper de gros morceaux de données.
Notre application sera d'implémenter le crible d'Eratosthène, produisant une longue liste de nombres premiers (sans utiliser aucun test `is_prime` en cours de route).

Nous commençons par créer deux listes.

In [None]:
L = [0, 'one', 2, 'three', 4, 'five', 6, 'seven', 8, 'nine', 10]

### Entrées d'une liste et indices

Notez que les entrées d'une liste peuvent être de tout type. La liste ci-dessus `L` contient des entrées entières et des entrées string. Les listes sont **indexées** en Python, en commençant à zéro. On peut accéder à la n-ième entrée d'une liste avec une commande comme `L[n]`.

In [None]:
L[3]

In [None]:
print(L[3])  # Note that Python has slightly different approaches to the print-function, and the output above.

In [None]:
print(L[4])  # We will use the print function, because it makes our printing intentions clear.

In [None]:
print(L[0])

L'emplacement d'une entrée est appelé son **indice**. Donc à l'indice 3, la liste `L` stocke l'entrée` trois`. Notez que la même entrée peut se produire à de nombreux endroits dans une liste. Par exemple. `[7, 7, 7]` est une liste contenant 7 au zéro, un et deuxième indices.

In [None]:
print(L[-1])
print(L[-2])

La dernière partie du code montre une astuce Python. L'indice `-1` dans une liste fait référence à la dernière entrée. L'indice `-2` fait référence à l'avant-dernière entrée, et ainsi de suite. Cela donne un moyen pratique d'accéder aux deux extrémités de la liste, même si vous ne savez pas la taille de la liste.

Bien sûr, on peut demander à Python la taille d'une liste.

In [None]:
len(L)

You can also use Python to find the sum of a list of numbers.

On peut également demander à Python de trouver la somme d'une liste de nombres.

In [None]:
sum([1, 2, 3, 4, 5])

In [None]:
sum(range(100))  # Be careful.  This is the sum of which numbers?  
# The sum function can take lists or ranges.

Le **découpage** (slicing) des listes nous permet de créer de nouvelles listes - ou ranges - à partir d'anciennes listes - ou ranges -, en coupant l'une ou l'autre extrémité, ou même en découpant des entrées à intervalles fixes. La syntaxe la plus simple se présente sous la forme `L[a:b]` où `a` dénote l’indice de départ et `b` l’indice final. Il est préférable d'essayer quelques exemples pour avoir une idée.

Découper une liste avec une commande comme `L[a:b]` ne modifie pas la liste d'origine `L`. Elle extrait simplement certains termes de la liste et affiche ces termes. Bientôt, nous verrons comment changer la liste `L` en utilisant une affectation de liste.

In [None]:
L[0:5]

In [None]:
L[5:11]  # Notice that L[0:5] and L[5:11] together recover the whole list.

In [None]:
L[3:7]

Ne pas oublier la convention Python - étrange pour les débutants - de commencer au premier nombre et de terminer juste avant le dernier indice. Comparer à `range(3, 7)`, par exemple.

#### Quelques abbréviations :

La commande `L[:5]` signifie "toute la liste à partir du début jusqu'à l'indice `5`. De même, la commande `L[5:]` signifie "toute la liste à partir de l'indice `5` jusqu'à la fin.

In [None]:
L[:5]

In [None]:
L[5:]

Tout comme la commande `range`, le découpage de liste peut prendre un troisième argument facultatif : la taille du pas.

In [None]:
L[2:10]

In [None]:
L[2:10:3]

On peut combiner la présence d'un pas avec les abbréviations dont on vient de parler.

In [None]:
L  # Just a reminder.  We haven't modified the original list!

In [None]:
L[:9:3]  # Start at zero, go up to (but not including) 9, by steps of 3.

In [None]:
L[2: :3] # Start at two, go up through the end of the list, by steps of 3.

In [None]:
L[::3]  # Start at zero, go up through the end of the list, by steps of 3.

### Modification des tranches de liste

Nous pouvons non seulement extraire et étudier des termes ou des tranches (slices) de liste, mais nous pouvons également les modifier par affectation. Le cas le plus simple est de changer un seul terme d'une liste.

In [None]:
print(L) # Start with the list L.

In [None]:
L[9] = 'oeuf'

In [None]:
print(L)  # What do you think L is now?

In [None]:
print(L[2::3]) # What do you think this will do?

Nous pouvons modifier une tranche entière d'une liste avec une seule affectation.
Modifions les deux premiers termes de `L` avec une seule commande.

In [None]:
L[:2] = ['gâteau', 'lait']  # What was L[:2] before?

In [None]:
print(L) # Oh... what have we done!

In [None]:
L[0]

In [None]:
L[1]

In [None]:
L[2]

Nous pouvons modifier une tranche d'une liste avec une seule affectation, même si cette tranche ne consiste pas en termes consécutifs (utilisation d'un pas). Essayez de prédire ce que feront les commandes suivantes.

In [None]:
print(L)  # Let's see what the list looks like before.

In [None]:
L[::2] = ['A','B','C','D','E','F']  # What was L[::2] before this assignment? 

In [None]:
print(L)  # What do you predict?

### Exercises

1. Créez la liste `L = [1, 2, 3, ..., 100]` (tous les nombres de 1 à 100). Qu'est-ce-que `L[50]` ?

2. Prenez la même liste `L` et extrayez la tranche `[5, 10, 15, ..., 95]`.

3. Remplacez tous les nombres pairs par des zéros dans la liste `L` .

4. Que fait la commande `L[-1::-1]` sur une liste ?

5. En fait, les chaînes de caratères sont aussi des listes. Essayez de définir `L = 'Hello'` et y appliquer la commande précédente.

<a id='sieve'></a>

## Crible d'Eratosthène

Le **Crible d'Eratosthène** (ci-dessous appelé "le Crible", "sieve" en anglais) est un moyen très rapide de produire de longues listes de nombres premiers, sans faire de vérification répétée de primalité. Il est décrit plus en détail au Chapitre 2 de [An Illustrated Theory of Numbers](http://bookstore.ams.org/mbk-105). L'idée de base est de commencer avec tous les entiers naturels, et de filtrer successivement, ou [**sieve**](https://en.wikipedia.org/wiki/Sieve), les multiples de 2, puis les multiples. de 3, puis les multiples de 5, etc., jusqu'à ce qu'il ne reste plus que les nombres premiers. En utilisant le découpage de liste, nous pouvons effectuer ce processus de tamisage efficacement. Et avec quelques astuces que nous montrerons, nous pourrons effectuer le crible très efficacement.

### Version simple

La première approche que nous introduisons est un peu naïve, mais constitue un bon point de départ.
Nous commencerons par une liste de nombres allant jusqu’à 100 et éliminerons les multiples appropriés de 2, 3, 5, 7.

In [None]:
primes = list(range(100)) # Let's start with the numbers 0...99.

Maintenant, pour "filtrer", c'est-à-dire pour dire qu'un nombre n'est pas premier, changeons simplement le nombre à la valeur `None`.  

In [None]:
primes[0] = None # Zero is not prime.
primes[1] = None # One is not prime.
print(primes) # What have we done?

Maintenant, filtrons les multiples de 2, à partir de 4. Voici les nombres premiers de la tranche `primes[4::2]`

In [None]:
primes[4::2] = [None] * len(primes[4::2])  # The right side is a list of Nones, of the necessary length.
print(primes) # What have we done?

Maintenant, nous filtrons les multiples de 3, à partir de 9.

In [None]:
primes[9::3] = [None] * len(primes[9::3])  # The right side is a list of Nones, of the necessary length.
print(primes) # What have we done?

Ensuite les multiples de 5, à partir de 25 (le premier multiple de 5 supérieur à 5 qui reste !)

In [None]:
primes[25::5] = [None] * len(primes[25::5])  # The right side is a list of Nones, of the necessary length.
print(primes) # What have we done?

Ensuite, les multiples de 7, à partir de 49 (le premier multiple de 7 supérieur à 7 qui reste !)

In [None]:
primes[49::7] = [None] * len(primes[49::7])  # The right side is a list of Nones, of the necessary length.
print(primes) # What have we done?

Que reste-t'il ?  Un grand nombre de `None` et les nombres premiers jusqu’à 100. Nous avons réussi à éliminer tous les entiers non-premiers de la liste, en utilisant seulement quatre étapes de tamisage (et en réglant manuellement 0 et 1 sur `None`).

Mais il y a encore beaucoup d'améliorations à faire !

1. Le format du résultat final n'est pas très beau.
2. Nous avons dû tamiser chaque étape manuellement. Il serait préférable d'avoir une fonction `prime_list(n)` qui produirait une liste de nombres premiers jusqu'à `n` sans trop d'intervention de notre part.
3. L'utilisation de la mémoire est importante, si nous devons stocker tous les nombres jusqu'à un grand `n` au début.

Nous résolvons ces problèmes de la manière suivante.

1. Nous utiliserons une liste de booléens plutôt qu'une liste de nombres. La liste finale aura une valeur `True` aux indices premiers et une valeur `False` aux indices composites (non-premiers). Ceci réduit l'utilisation de la mémoire et augmente la vitesse.
2. Une fonction (expliquée prochainement) fera la liste de nombres premiers désirés après tout le reste.
3. Nous effectuerons les étapes de tamisage de manière algorithmique plutôt que de faire chaque étape manuellement.

Voici une implémentation assez efficace du Crible en Python.

In [None]:
def isprime_list(n):
    ''' 
    Return a list of length n+1
    with Trues at prime indices and Falses at composite indices.
    '''
    flags = [True] * (n+1)  # A list [True, True, True,...] to start.
    flags[0] = False  # Zero is not prime.  So its flag is set to False.
    flags[1] = False  # One is not prime.  So its flag is set to False.
    p = 2  # The first prime is 2.  And we start sieving by multiples of 2.
    
    while p <= sqrt(n):  # We only need to sieve by p is p <= sqrt(n).
        if flags[p]:  # We sieve the multiples of p if flags[p]=True.
            flags[p*p::p] = [False] * len(flags[p*p::p]) # Sieves out multiples of p, starting at p*p.
        p = p + 1 # Try the next value of p.
        
    return flags

In [None]:
print(isprime_list(100))

Si vous regardez attentivement la liste des booléens, vous remarquerez une valeur `True` au 2ème index, au 3ème indice, au 5ème indice, au 7ème indice, etc. Les indices où les valeurs sont` True` sont précisément les indices **premiers**. Puisque les booléens prennent la plus petite quantité de mémoire de tous les types de données (un **bit** de mémoire par booléen), votre ordinateur peut exécuter la fonction `isprime_list(n)` même lorsque `n` est très grand.

Pour être plus précis, il y a 8 bits dans un **octet**. Il y a 1024 octets (environ 1000) dans un kilo-octet. Il y a 1024 kilo-octets dans un mégaoctet. Il y a 1024 mégaoctets dans un gigaoctet. Par conséquent, un gigaoctet de mémoire suffit pour stocker environ 8 milliards de bits. C'est assez pour stocker le résultat de `isprime_list(n)` quand `n` vaut environ 8 milliards. Pas mal! Et votre ordinateur a probablement 4 ou 8 ou 12 ou 16 gigaoctets de mémoire à utiliser.

Pour transformer la liste des booléens en une liste de nombres premiers, nous créons une fonction appelée `where`. Cette fonction utilise une autre technique Python appelée **compréhension de liste** (list comprehension). Nous discutons de cette technique plus loin dans cette leçon, utilisez simplement la fonction `where` comme outil pour le moment, ou lisez sur [la compréhension de la liste](https://docs.python.org/2/tutorial/datastructures.html#list -comprehensions) si vous êtes curieux.

In [None]:
def where(L):
    '''
    Take a list of booleans as input and
    outputs the list of indices where True occurs.
    '''
    return [n for n in range(len(L)) if L[n]]
    

Combined with the `isprime_list` function, we can produce long lists of primes.

In [None]:
print(where(isprime_list(100)))

Allons un peu plus loin. Combien de nombres premiers y a-t-il entre 1 et 1 million? Nous pouvons le voir en trois étapes:

1.     Créez la liste `isprime_list`.
2.     Utilisez la fonction `where` pour obtenir la liste des nombres premiers.
3.     Trouvez la longueur de la liste des nombres premiers.

Mais il est préférable de le faire en deux étapes.

1.     Créez la liste `isprime_list`.
2.     Sommer la liste! (Notez que `True` vaut 1 et `False` 0 pour les besoins de la sommation!)

In [None]:
sum(isprime_list(1000000))  # The number of primes up to a million!

In [None]:
%timeit isprime_list(10**6)  # 1000 ms = 1 second.

In [None]:
%timeit sum(isprime_list(10**6))

Ce n'est pas trop mal! Il faut une fraction de seconde pour identifier les nombres premiers jusqu’à un million et une fraction de seconde pour les compter! Mais nous pouvons faire un peu mieux.

La première amélioration consiste à retenir les nombres pairs au début. Si nous comptons bien, la séquence `4, 6, 8, ..., n` (se terminant par `n-1` si n est impair) a un nombre de termes égal à la partie entière de `(n-2) / 2`. Ainsi, la ligne `flags[4::2] = [False] * ((n-2)//2)` mettra `False` aux indices `4, 6, 8, 10,...`. De là, nous peut commencer à tamiser par des nombres premiers impairs commençant à `3`.

L'amélioration suivante est que, puisque nous avons déjà éliminé tous les nombres pairs (sauf `2`), nous n’avons pas plus à tamiser par les multiples de `2`. Donc, en tamisant par multiples de `3`, nous n'avons pas à tamiser `9, 12, 15, 18, 21, etc.`, mais simplement tamiser `9, 15, 21, etc.`.
Lorsque p est un nombre premier impair, cela peut être réalisé avec le code `flags[p*p::2*p] = [False] * len(flags[p*p::2*p])`.

In [None]:
def isprime_list(n):
    ''' 
    Return a list of length n+1
    with Trues at prime indices and Falses at composite indices.
    '''
    flags = [True] * (n+1)  # A list [True, True, True,...] to start.
    flags[0] = False  # Zero is not prime.  So its flag is set to False.
    flags[1] = False  # One is not prime.  So its flag is set to False.
    flags[4::2] = [False] * ((n-2)//2)
    p = 3
    while p <= sqrt(n):  # We only need to sieve by p is p <= sqrt(n).
        if flags[p]:  # We sieve the multiples of p if flags[p]=True.
            flags[p*p::2*p] = [False] * len(flags[p*p::2*p]) # Sieves out multiples of p, starting at p*p.
        p = p + 2 # Try the next value of p.  Note that we can proceed only through odd p!
        
    return flags

In [None]:
%timeit sum(isprime_list(10**6))  # How much did this speed it up?

Une autre amélioration modeste est la suivante. Dans le code ci-dessus, le programme *compte* les termes dans des suites comme 9, 15, 21, 27,..., afin de leur attribuer `False`. Ceci est accompli avec la commande de longueur 
`len(flags[p*p::2*p])`. Mais ce calcul de longueur est un peu trop couteux. Un peu de travail algébrique montre que la longueur est donnée formellement en termes de `p` et de` n` par la formule:

$$len = \lfloor \frac{n - p^2 - 1}{2p} \rfloor + 1$$

Ici, $\lfloor x \rfloor$ indique la partie entière de `x`, c’est-à-dire l’arrondi à l'entier inférieur. Le fait de mettre ceci dans le code donne les résultats suivants.

In [None]:
def isprime_list(n):
    ''' 
    Return a list of length n+1
    with Trues at prime indices and Falses at composite indices.
    '''
    flags = [True] * (n+1)  # A list [True, True, True,...] to start.
    flags[0] = False  # Zero is not prime.  So its flag is set to False.
    flags[1] = False  # One is not prime.  So its flag is set to False.
    flags[4::2] = [False] * ((n-2)//2)
    p = 3
    while p <= sqrt(n):  # We only need to sieve by p is p <= sqrt(n).
        if flags[p]:  # We sieve the multiples of p if flags[p]=True.
            flags[p*p::2*p] = [False] * ((n - p*p - 1)//(2*p) + 1 ) # Sieves out multiples of p, starting at p*p.
        p = p + 2 # Try the next value of p.
        
    return flags

In [None]:
%timeit sum(isprime_list(10**6))  # How much did this speed it up?

Cela devrait être assez rapide (moins de un dixième de seconde) ! Pour déterminer les nombres premiers jusqu'à un million, et sur un ordinateur récent, il devrait être inférieur à 50 ms. Nous nous sommes rapprochés des algorithmes les plus rapides que vous pouvez trouver dans Python, sans utiliser de packages externes (comme SAGE ou Sympy).
Voir la [discussion sur StackOverflow](https://stackoverflow.com/questions/2068372/fastest-way-to-list-all-primes-below-n), qui a influencé le code de cette leçon.

### Exercices
1. Montrer que la longueur de `range(p*p, n, 2*p)` est égale à $\lfloor \frac{n - p^2 - 1}{2p} \rfloor + 1$.

2. Un nombre naturel $n$ est appelé squarefree s'il n'est divisible par aucun carré, sauf $1$. Écrivez une fonction `squarefree_list(n)` qui produit une liste de booléens: `True` si l'indice est squarefree et `False` sinon. Par exemple, si vous exécutez `squarefree_list(12)`, le résultat devrait être `[False, True, True, True, False, True, True, True, False, False, True, True, False]`. Notez que les entrées `False` sont situées aux indices 0, 4, 8, 9, 12. Ces entiers ont des diviseurs carrés parfaits en plus de 1.

3. Votre ADN contient environ 3 milliards de paires de bases. Chaque "paire de base" peut être considérée comme une lettre, A, T, G ou C. Combien de bits seraient nécessaires pour stocker une seule paire de bases? Combien de mégaoctets ou de gigaoctets sont nécessaires pour stocker votre ADN ? Combien d'ADN de personnes pourrait tenir sur une clé USB ?

<a id='analysis'></a>

## Analyse de données

Maintenant que nous pouvons produire une liste de nombres premiers rapidement, nous pouvons faire une analyse des données : un travail expérimental pour rechercher des tendances ou des motifs dans la suite des nombres premiers. Depuis Euclide (environ 300 avant notre ère), nous savons qu'il existe une infinité de nombres premiers. Mais comment sont-ils distribués ? Quelle proportion de nombres sont premiers et comment cette proportion change-t-elle sur différents intervalles ? En tant que questions théoriques, elles appartiennent au domaine de la théorie analytique des nombres. Mais il est difficile de savoir quoi prouver sans faire un peu d’expérimentation.
Et donc, du moins depuis que Gauss (lire l'[article de Tschinkel sur les tables de Gauss)](http://www.ams.org/journals/bull/2006-43-01/S0273-0979-05-01096-7/S0273-0979-05-01096-7.pdf) a commencé à examiner ses vastes tables de nombres premiers, les mathématiciens ont effectué des recherches expérimentales approfondies sur les nombres entiers.

### Analyse d'une liste de nombres premiers

Commençons par créer notre ensemble de données: les nombres premiers jusqu'à 1 million.

In [None]:
primes = where(isprime_list(1000000))

In [None]:
len(primes) # Our population size.  A statistician might call it N.

In [None]:
primes[-1]  # The last prime in our list, just before one million.

In [None]:
type(primes) # What type is this data?

In [None]:
print(primes[:100]) # The first hundred prime numbers.

Pour effectuer une analyse sérieuse, nous utiliserons la méthode de **compréhension de liste** pour placer notre population dans des "bacs" pour l'analyse statistique. Notre premier type de compréhension de liste a la forme `[x for x in LIST if CONDITION]`. Cela produit la liste de tous les éléments de LIST satisfaisant CONDITION. C'est similaire au découpage de liste, sauf que nous extrayons des termes de la liste selon qu'une condition est vraie ou fausse.

Par exemple, divisons les nombres premiers (impairs) en deux classes. Les nombres premiers rouges seront ceux de la forme 4n + 1. Les nombres premiers bleus seront ceux de la forme 4n + 3. En d'autres termes, un premier `p` est rouge si` p%4 == 1` et bleu si `p%4 == 3`. Et le nombre premier `2` n'est ni rouge ni bleu.

In [None]:
redprimes = [p for p in primes if p%4 == 1] # Note the [x for x in LIST if CONDITION] syntax.
blueprimes = [p for p in primes if p%4 == 3]

print('Red primes:',redprimes[:20]) # The first 20 red primes.
print('Blue primes:',blueprimes[:20]) # The first 20 blue primes.

In [None]:
print("There are {} red primes and {} blue primes, up to 1 million.".format(len(redprimes), len(blueprimes)))

C'est assez proche ! Il semble que les nombres premiers soient à peu près également répartis entre les rouges et les bleus. Leur reste après la division par 4 ont à peu près la même chance d'être `1` que `3`. En fait, il est prouvé que *asymptotiquement* le rapport entre les nombres de rouges et de bleus est proche de $1$. Cependant, Chebyshev a remarqué un léger biais persistant vers les nombres premiers bleus.

Certaines des conjectures les plus profondes en mathématiques concernent la fonction de comptage des nombres premiers $\pi(x)$ [prime counting function](https://en.wikipedia.org/wiki/Prime-counting_function).  Ici $\pi(x)$ désigne the **nombre de nombres premiers** between $1$ and $x$ (inclus). Donc $\pi(2) = 1$ et $\pi(3) = 2$ et $\pi(4) = 2$ et $\pi(5) = 3$. On peut calculer facilement une valeur de $\pi(x)$ en utilisant une compréhension de liste.

In [None]:
def primes_upto(x):
    return len([p for p in primes if p <= x]) # List comprehension recovers the primes up to x.

In [None]:
primes_upto(1000)  # There are 168 primes between 1 and 1000.

Maintenant, nous représentons graphiquement la fonction de comptage des premiers. Pour ce faire, nous utilisons une compréhension de liste et la bibliothèque de visualisation appelée `matplotlib`. Pour représenter graphiquement une fonction, l'idée de base est de créer une liste de valeurs x, une liste de valeurs y correspondantes (les listes doivent donc avoir la même longueur!), puis nous passons les deux listes à matplotlib pour faire un graphique.
Nous commençons par charger les paquets nécessaires.

In [None]:
import matplotlib  #  A powerful graphics package.
import numpy  #  A math package
import matplotlib.pyplot as plt  # A plotting subpackage in matplotlib.

Représentons maintenant la fonction $y = x^2$ sur le domaine $-2 \leq x \leq 2$  pour essayer. Dans un premier temps, nous utilisons la fonction `linspace` de numpy pour créer une subdivision régulière de 11 valeurs comprises entre -2 et 2.

In [None]:
x_values = numpy.linspace(-2,2,11)  # The argument 11 is the *number* of terms, not the step size!
print(x_values)
type(x_values)

Vous remarquerez peut-être que le format est légèrement différent d'une liste. En effet, si vous cochez `type(x_values)`, ce n’est pas une liste mais quelque chose d’autre appelé numpy array. Numpy est un package qui excelle avec les calculs sur de grands tableaux de données. En surface, ce n'est pas si différent d'une liste. La commande `numpy.linspace` est un moyen pratique de produire une liste de nombres régulièrement espacés.

La grande différence est que les opérations sur les tableaux numpy sont interprétées différemment des opérations sur les listes Python ordinaires. Essayez les deux commandes psuivantes.

In [None]:
[1,2,3] + [1,2,3]

In [None]:
x_values + x_values

In [None]:
y_values = x_values * x_values  # How is multiplication interpreted on numpy arrays?
print(y_values)

Nous utilisons maintenant `matplotlib` pour créer un graphique simple.

In [None]:
%matplotlib inline
plt.plot(x_values, y_values)
plt.title('The graph of $y = x^2$')  # The dollar signs surround the formula, in LaTeX format.
plt.ylabel('y')
plt.xlabel('x')
plt.grid(True)
plt.show()


Analysons un peu le code. Voir le [tutoriel officiel pyplot](https://matplotlib.org/users/pyplot_tutorial.html) pour plus de détails.

```python
%matplotlib inline
plt.plot(x_values, y_values)
plt.title('The graph of $y = x^2$')  # The dollar signs surround the formula, in LaTeX format.
plt.ylabel('y')
plt.xlabel('x')
plt.grid(True)
plt.show()
```

La première ligne contient le **magic** `%matplotlib inline`. Nous avons déjà vu le magic `%timeit`. Les [mots magiques](http://ipython.readthedocs.io/en/stable/interactive/magics.html) peuvent appeler un autre programme à l'aide. Donc, ici, `%matplotlib inline` appelle matplotlib pour obtenir de l'aide et place la figure résultante dans le notebook.

La ligne suivante `plt.plot(x_values, y_values)` crée un objet `plot object` basé sur les données `x_values, y_values`. C'est un objet abstrait, en coulisses, dans un format que matplotlib comprend. Les lignes suivantes définissent le titre du plot, les labels de l'axe et activent une grille (ajout de traits verticaux et horizontaux sur le plot). La dernière ligne `plt.show`crée une image dans le notebook. Il existe une grande variété de graphiques que matplotlib peut produire ; voir la [galerie](https://matplotlib.org/gallery.html) pour plus d'informations. Les autres packages graphiques incluent [bokeh](http://bokeh.pydata.org/en/latest/) et [seaborn](http://seaborn.pydata.org/), qui étendent matplotlib.

### Analyse de la fonction de comptage des nombres premiers $\pi(x)$

Maintenant, pour analyser la fonction de comptage des nombres premiers, nous allons la représenter graphiquement. Pour créer un graphique, nous aurons d'abord besoin d'une liste de nombreuses valeurs de $x$ et de nombreuses valeurs de $\pi(x)$. Nous faisons cela avec deux commandes. La première peut prendre une minute de calcul.

In [None]:
x_values = numpy.linspace(0,1000000,1001) # The numpy array [0,1000,2000,3000,...,1000000]
pix_values = numpy.array([primes_upto(x) for x in x_values])  # [FUNCTION(x) for x in LIST] syntax

Nous avons créé un tableau de valeurs $x$ comme précédemment. Mais la création d'un tableau de valeurs $y$ (appelée ici `pix_values` pour $\pi(x)$) semble probablement étrange. Nous avons fait deux nouvelles choses!

1. Nous avons utilisé une compréhension de liste `[primes_upto(x) for x in x_values]` pour créer une liste de valeurs y.
2. Nous avons utilisé la syntaxe `numpy.array(LIST)` pour convertir une liste Python en un array numpy.

Tout d'abord, nous expliquons la compréhension de la liste. Au lieu de tirer les valeurs d'une liste selon une condition, avec `[x for x in LIST if CONDITION]`, nous avons créé une nouvelle liste basée sur l'exécution d'une fonction de chaque élément d'une liste. La syntaxe utilisée ci-dessus est `[FUNCTION(x) for x in LIST]`. Ces deux méthodes de compréhension de liste peuvent être combinées, en fait. La syntaxe la plus générale pour la compréhension de liste est la suivante: `[FUNCTION(x) for x in LIST if CONDITION]`.

Deuxièmement, une compréhension de liste peut être effectuée sur un tableau numpy, mais le résultat est une liste Python simple. Il vaudra mieux avoir un tableau numpy pour ce qui suit, donc nous utilisons la fonction `numpy.array()` pour convertir la liste en un tableau numpy.

In [None]:
type(numpy.array([1, 2, 3]))  # For example.

Nous avons maintenant deux tableaux numpy: le tableau des valeurs x et le tableau des valeurs y.
Nous pouvons faire un tracé avec matplotlib.

In [None]:
len(x_values) == len(pix_values)  # These better be the same, or else matplotlib will be unhappy.

In [None]:
%matplotlib inline
plt.plot(x_values, pix_values)
plt.title('The prime counting function')
plt.ylabel('$\pi(x)$')
plt.xlabel('x')
plt.grid(True)
plt.show()

Dans ce range, la fonction de comptage des nombres premiers peut sembler presque linéaire. Mais si vous regardez de près, il y a une légère incurvation vers le bas. Ceci est plus prononcé dans les ranges plus petites. Par exemple, regardons les 10 premières valeurs x et y uniquement.

In [None]:
%matplotlib inline
plt.plot(x_values[:10], pix_values[:10])  # Look closer to 0.
plt.title('The prime counting function')
plt.ylabel('$\pi(x)$')
plt.xlabel('x')
plt.grid(True)
plt.show()

Ça semble toujours presque linéaire, mais il y a une incurvation visible vers le bas ici. Comment pouvons-nous voir ce virage plus clairement? Si le graphe était linéaire, son équation aurait la forme $\pi(x) = mx $ pour une pente fixe $m$ (puisque le graphe passe par l'origine). Par conséquent, la quantité $\pi(x)/x$ serait *constante* si le graphique était linéaire. Donc, si nous représentons $\pi(x)/x$ sur l'axe des y et $x$ sur l'axe des x et que le résultat est non constant, alors la fonction $\pi(x)$ est non linéaire.

In [None]:
m_values = pix_values[1:] / x_values[1:]  # We start at 1, to avoid a division by zero error.

In [None]:
%matplotlib inline
plt.plot(x_values[1:], m_values)
plt.title('The ratio $\pi(x) / x$ as $x$ varies.')
plt.xlabel('x')
plt.ylabel('$\pi(x) / x$')
plt.grid(True)
plt.show()

Ce n'est pas constant ! La décroissance de $\pi(x)/x$ n'est pas très différente de $1/\log(x)$, en fait. Pour voir cela, superposons les graphiques. Nous utilisons la fonction `numpy.log`, qui calcule le logarithme naturel de son entrée (et autorise un numpy array en argument).

In [None]:
%matplotlib inline
plt.plot(x_values[1:], m_values, label='$\pi(x)/x$')  # The same as the plot above.
plt.plot(x_values[1:], 1 / numpy.log(x_values[1:]), label='$1 / \log(x)$')  # Overlay the graph of 1 / log(x)
plt.title('The ratio of $\pi(x) / x$ as $x$ varies.')
plt.xlabel('x')
plt.ylabel('$\pi(x) / x$')
plt.grid(True)
plt.legend()  # Turn on the legend.
plt.show()

La forme de la décroissance de $\pi(x) / x$ est très proche de $1 / \log(x)$, mais il semble y avoir un décalage. En fait, il y en a, et il est assez proche de $1 / \log(x)^2$. Et c'est proche, mais encore une fois, il y a un autre petit décalage, cette fois-ci proportionnel à $2 / \log(x)^3 $, etc. Cela continue indéfiniment, si l'on veut approcher  $\pi(x) / x$ par une "expansion asymptotique".

La proximité de $\pi(x) / x$ avec $1 / \log(x)$ est exprimée dans le **théorème des nombres premiers** :
$$\lim_{x \rightarrow \infty} \frac{\pi(x)}{x / \log(x)} = 1$$

In [None]:
%matplotlib inline
plt.plot(x_values[1:], m_values * numpy.log(x_values[1:])  )  # Should get closer to 1.
plt.title('The ratio $\pi(x) / (x / \log(x))$ approaches 1... slowly')
plt.xlabel('x')
plt.ylabel('$\pi(x) / (x / \log(x)) $')
plt.ylim(0.8,1.2)
plt.grid(True)
plt.show()

En comparant le graphique au résultat théorique, nous trouvons que le rapport $\pi(x) / (x / \log(x))$ approche $1$ (le résultat théorique) mais très lentement (voir le graphique ci-dessus!).

Un résultat beaucoup plus fort relie $\pi(x) $ au "logarithmique intégral" $li(x)$. L'[hypothèse de Riemann](http://www.claymath.org/millennium-problems/riemann-hypothesis) est équivalente à l'affirmation
$$\left\vert \pi(x) - li(x) \right\vert = O(\sqrt{x} \log(x))$$
En d'autres termes, l'erreur si on approche $\pi(x)$ par $li(x)$ est limitée par une constante que multiplie $\sqrt{x} \log(x)$. La fonction *logarithme intégral* ne fait pas partie de Python ou de numpy, mais elle est dans le package mpmath. Si ce paquet est installé, vous pouvez essayer ce qui suit.

Si le package mpmath n'est pas disponible, vous pouvez implémenter vous-même en Python la fonction `li` en utilisant une des séries 
$$\operatorname{li}(e^u) = \hbox{Ei}(u) = 
\gamma + \ln |u| + \sum_{n=1}^\infty {u^{n}\over n \cdot n!} 
\quad \text{ for } u \ne 0 \; 
$$
$$
\operatorname{li}(x) =
 \gamma
 + \ln \ln x
 + \sqrt{x} \sum_{n=1}^\infty
                \frac{ (-1)^{n-1} (\ln x)^n}  {n! \, 2^{n-1}}
                \sum_{k=0}^{\lfloor (n-1)/2 \rfloor} \frac{1}{2k+1} .
$$
décrites dans [Logarithmic integral function](https://en.wikipedia.org/wiki/Logarithmic_integral_function);

et où $\gamma = 0.57721 56649 01532 \cdots$ est la constante d'Euler–Mascheroni.

In [None]:
from mpmath import li

In [None]:
x = 10**6
print(primes_upto(x))  # Number of primes up to x = 1 million.
print(x/numpy.log(x)) # Prime Number Theorem approximation of pi(x)
print(li(x))  # Logarithmic integral approximation of pi(x).

L'approximation par `li(x)` est bien meilleure !

### Ecarts entre nombres premiers consécutifs

En dernière analyse, nous considérons les **prime gaps** c'est-à-dire les écarts entre nombres premiers consécutifs. Comme tous les nombres premiers, sauf 2, sont impairs, tous les prime gaps sont pairs, sauf entre 2 et 3. Il existe de nombreux problèmes non résolus concernant ce sujet; le plus célèbre concerne les [nombres premiers jumeaux](https://fr.wikipedia.org/wiki/Nombres_premiers_jumeaux#Conjecture_des_nombres_premiers_jumeaux) ; on conjecture qu'il en existerait une infinité (comme  3,5 ; 11,13 ; 41,43 ; etc.). 
Voici, calculé à partir du numpy array `primes`, un numpy array contenant les primes gaps.

In [None]:
len(primes) # The number of primes up to 1 million.

In [None]:
primes_allbutlast = primes[:-1]  # This excludes the last prime in the list.
primes_allbutfirst = primes[1:]  # This excludes the first (i.e., with index 0) prime in the list.

In [None]:
primegaps = numpy.array(primes_allbutfirst) - numpy.array(primes_allbutlast) # Numpy is fast!

In [None]:
print(primegaps[:100])  # The first hundred prime gaps!

### Exercice 

Essayez de comprendre le code ci-dessus

In [None]:
print(len(primes))
print(len(primegaps))  # This should be one less than the number of primes.

Comme dernier exemple de visualisation de données, nous utilisons matplotlib pour produire un histogramme des primes gaps.

In [None]:
max(primegaps)  # The largest prime gap that appears!

In [None]:
%matplotlib inline
plt.figure(figsize = (12, 5))  #  Makes the resulting figure 12in by 5in.
plt.hist(primegaps, bins = range(1, 115)) #  Makes a histogram with one bin for each possible gap from 1 to 114.
plt.ylabel('Frequency')
plt.xlabel('Gap size')
plt.grid(True)
plt.title('The frequency of prime gaps, for primes up to 1 million')
plt.show()

Observez que les écarts de 2 (nombres premiers jumeaux) sont assez fréquents ; il y en a un peu plus de 8 000 ; et à peu près le même nombre pour les écarts de  4 ! Mais les écarts de 6 sont les plus fréquents dans la population et il existe des pics intéressants à 6, 12, 18, 24, 30.
Que remarquez-vous d'autre ?

### Exercises

1. Créez les fonctions `redprimes_upto(x)` et `blueprimes_upto(x)` qui comptent le nombre de nombres premiers rouges/bleus jusqu’à un nombre donné `x`. Rappelons que nous avons défini les nombres premiers rouges/bleus comme étant ceux de la forme $4n + 1$ ou $4n + 3$, respectivement. Représentez graphiquement la proportion relative des nombres premiers rouges/bleus, pour $x$ variant de 1 à 1 million. Les proportions sont-elles 50%/50% ou 70%/30%, et comment ces proportions changent-elles ? Note: si vous voulez en savoir plus, il y a une discussion de ce sujet dans mon livre [An Illustrated Theory of Numbers](http://bookstore.ams.org/mbk-105).

2. Y a-t-il un biais dans les derniers chiffres des nombres premiers ? En d'autres termes un dernier chiffre apparait-il plus souvent qu'un autre ?

3. Renseignez vous à propos de la [Conspiration des nombres premiers](https://www.quantamagazine.org/mathematicians-discover-prime-conspiracy-20160313), récemment découverte par Lemke Oliver et Soundararajan. Pouvez-vous détecter un complot dans notre ensemble de nombres premiers ?