# ITC2 - MP/PSI
---

# TP2 : Tables de hachage
 
Il s'agit dans ce TP de constater expérimentalement l'efficacité des
tables de hachage pour stocker des ensembles (d'entiers pour
simplifier).

# Gestion des collisions par chaînage

Nous nous intéressons à la gestion des collisions par chaînage et nous
voulons déterminer expérimentalement la bonne taille de table de
hachage en fonction du nombre de données à stocker.

## Exercice 1 : Des fonctions de hachage

Comme on va tester nos constructions avec plusieurs fonctions de hachage, commençons par implémenter de telles fonctions qui toutes prendrons en argument l'élément à hacher et le nombre d'alvéoles de la table de hachage.

1. Écrire une fonction `hachage1` qui renvoie l'élément modulo le nombre d'alvéoles de la table de hachage.

In [None]:
assert(hachage1(4323, 34) == 5)

2. Écrire une fonction `hachage2 qui multiplie l'élément par 49999 (nombre premier d'après https://www.nombres-premiers.fr/liste.html) et renvoie le résultat modulo le nombre d'alvéoles de la table de hachage.

In [None]:
assert(hachage2(4323, 34) == 27)

3. Écrire une fonction `hachage3` qui renvoie $$\lfloor h\times (\underbrace{\pi n \mod 1}_{\text{partie fractionnaire}})\rfloor\:,$$où $h$ est le nombre d'alvéoles de la table de hachage et $n$ le nombre à hacher. Rappel : $\pi$ est disponible dans le module `math` sous le nom `pi`.

In [None]:
assert(hachage3(4323, 34) == 3)

## Exercice 2 : Créer une table de hachage vide

Écrire une fonction `nouvelle_table_hachage` qui prend en argument un entier et crée une table de hachage ayant ce nombre d'alvéole et dont chaque alvéole contient une liste vide.

In [None]:
H = nouvelle_table_hachage(128)
assert(len(H)==128 and len(H[17])==0 and id(H[0])!=id(H[1]))

## Interlude : Une fonction comme paramètre d'une autre fonction

En python, on peut donner une fonction comme paramètre à une autre fonction.

Exemple :

In [None]:
import math

def affichage(f, x):
    print('La valeur de la fonction en la variable est :')
    print(f(x))
    
affichage(math.cos, 0)

## Exercice 3 : Ajouter un élément

Écrire une fonction `ajout` qui prend en argument une table de hachage, un entier à ajouter dans la table et une fonction supposée être une fonction de hachage (sans rien vérifier dessus) et ajoute l'entier dans la table de hachage, en utilisant une gestion des collisions par chaînage. N'oubliez pas qu'un entier ne peut pas apparaître deux fois dans la table puisqu'il s'agit ici d'encoder un ensemble.

In [None]:
H = nouvelle_table_hachage(128)
ajout(H, 145, hachage1)
ajout(H, 145, hachage1)
ajout(H, 17, hachage1)
assert(len(H[0]) == 0 and len(H[17]) == 2 and H[17][0] == 145)

In [None]:
H = nouvelle_table_hachage(128)
ajout(H, 145, hachage2)
ajout(H, 145, hachage2)
ajout(H, 17, hachage2)
assert(len(H[0]) == 0 and len(H[63]) == 2 and H[63][0] == 145)

In [None]:
H = nouvelle_table_hachage(128)
ajout(H, 145, hachage3)
ajout(H, 145, hachage3)
ajout(H, 32, hachage3)
assert(len(H[0]) == 0 and len(H[67]) == 2 and H[67][0] == 145)

## Exercice 4 : Statistiques de répartition

On a dit que le temps d'accès à un élément dans une table de hachage dont les collisions sont gérées par chaînage dépend essentiellement de la longueur de ces chaînes : si toutes les chaînes ont la même longueur, on est sur un temps correspondant à un temps moyen, s'il y a beaucoup de disparités, alors il peut arriver que le temps d'accès soit très grand.

On va donc ici faire des statistiques sur les longueurs de ces chaînes.

1. Écrire une fonction `remplir` qui prend en argument un entier représentant un nombre d'alvéoles, une fonction de hachage et un entier `n` représentant le nombre d'éléments à ajouter et :
    * crée une nouvelle table de hachage de la bonne taille
    * ajoute les entiers 0 à `n`-1
    * renvoie la table de hachage

2. Écrire une fonction `occupation` qui prend en argument une table de hachage avec gestion des collisions par chaînage et affiche la longueur des chaînes par case de la table de hachage. On pourra utiliser la fonction `bar` du module `matplotlib.pyplot` qui prend en argument un tableau d'abscisses et un tableau d'ordonnées.

En faisant des affichages, déduire laquelle des fonctions de hachage n'est pas très bonne si les données sont uniformes et le nombre d'alvéoles 128.

In [None]:
occupation(remplir(128, hachage1, 10000))

In [None]:
occupation(remplir(128, hachage2, 10000))

In [None]:
occupation(remplir(128, hachage3, 10000))

In [None]:
occupation(remplir(200, hachage3, 10000))

## Exercice 5 : Ranger des chaînes de caractères

On s'intéresse maintenant à des tables de hachage permettant de stocker des chaînes de caractères. Le langage python fournit une fonction `hash` qui à tout argument associe un entier.

1. Écrire une fonction `hachage4` qui prend en argument l'élément à hacher et le nombre d'alvéoles de la table de hachage et renvoie un numéro d'alvéole grâce à la fonction `hash` et au modulo.

Voici une fonction permettant d'obtenir un "mot" au hasard en spécifiant son nombre de lettres:

In [None]:
import string
import random

def mot_aleatoire(lg):
    """fournit une chaîne de caractères aléatoire de longueur lg"""
    return ''.join(random.choice(string.ascii_lowercase) for i in range(lg))

2. Écrire une fonction `remplir_mots` qui prend en argument un entier représentant un nombre d'alvéoles, une fonction de hachage et un entier `n` représentant le nombre d'éléments à ajouter et :
    * crée une nouvelle table de hachage de la bonne taille
    * ajoute `n` mots au hasard de longueur 20
    * renvoie la table de hachage

In [None]:
occupation(remplir_mots(128, hachage4, 10000))

## Exercice 6 : Gestion des collisions par sondage

Recommencer tout avec une gestion par sondage. Paramétrer avec une fonction donnant la séquence de sondage pour pouvoir en tester plusieurs.