## 1.1 --- Un exemple : le paradoxe des anniversaires

### Groupe 4 --- la table de hachage

Dans le programme du groupe 2, `s` est un tableau définit par `s=[]`. Le tableau `s` est petit mais la recherche `if x in s:` n'est pas immédiate. Dans le pire des cas, il faut parcourir tout le tableau pour être certain que `x` n'y est pas.

Au contraire, dans le programme du groupe 3, `s = [False] * 366`. Le tableau `s` prend beaucoup de place en mémoire mais la recherche `if s[x]:` est immédiate.

Le programme 4 ci-dessous te propose une solution qui prend le meilleur des deux tentatives précédents :

- peu de place en mémoire (groupe 2)
- quasi immédiateté de la recherche (groupe 3).


In [32]:
# Programme 4

def contient_doublon(t):
    """le tableau t contient-il un doublon ?"""
    s = [[] for _ in range(23)]
    for x in t:
        if x in s[x % 23]:
            return True
        s[x % 23].append(x)
    return False

On prend un tableau `s` de 23 cases car on sait qu'il n'y aura 23 dates à y enregistrer. L'occupation en mémoire est donc faible.

Ensuite, on attribut à chacune des 365 dates possibles une case *fixe et bien définie*. Par exemple, la date 42 sera toujours rangée dans `s[19]`.

Comment sait-on que la date `42` est enregistrée dans l'emplacement `19` de `s` ? Pour obtenir ce rang (`19`) associé à la date `42`, on utilise l'opération **modulo 23** (notée `% 23`) qui renvoie le *reste de la division euclidienne par 23*. Cette opération renvoie un nombre compris entre 0..22. Ce qui est parfait car le tableau `s` contient 23 emplacements. Le calcul du rang `42 % 23` donne pour résultat `19` et est immédiat.

Mais il est **possible** que plusieurs dates soient dans la même case. Par exemple les dates 65 ou 88 se rangeront aussi dans `s[19]`.  

C'est pourquoi chaque case de `s` ne contient pas une date, mais un tableau de date que nous appellerons **paquet**. C'est donc pourquoi `s = [[] for _ in range(23)]`.

Pour rendre la recherche *quasi* immédiate, il faut que chaque paquet soit quasiment vide. Puisque le tirage des 23 dates est aléatoire, il faudrait beaucoup beaucoup de malchance pour qu'un grand nombre d'entre elles se trouvent dans le même paquet.

Par exemple, imaginons que la date tirée soit 42. On sait *immédiatement* qu'il faut chercher dans le paquet `s[19]`. Maintenant si ce paquet contient beaucoup de dates (pas de chance !) la recherche prend du temps. Sinon, le paquet est quasiment vide et la recherche est *quasi immédiate* ! 

On peut donc conclure que, *en moyenne*, la recherche `x in s[x % 23]` est *quasi immédiate*.