# Répartition, table de hashage

Il est facile de répartir des élèves en quatre groupe après les avoir triés par ordre croissant, les élèves dont les noms de famille commencent par *A* dans le premier groupe et ainsi de suite... Cette répartition peut poser un problème éthique parfois. 
On souhaite écrire une fonction de répartition qui affecte les étudiants dans un groupe parmi quatre :

* Cette fonction prend comme entrée le nom et le prénom.
* Le résultat ne dépend pas des autres noms présents dans la classe.
* Les groupes sont à peu près de taille identique.

In [1]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

## Q1 - première lettre

Ecrire une fonction qui retourne la distribution la première lettre de chaque personnage. Est-ce une distribution uniforme ?

In [2]:
personnages = """
Jean Valjean
Cosette
Fantine
Marius Pontmercy
Gavroche Thénardier
Antagonistes
Javert
Monsieur Thénardier
Madame Thénardier
Babet
Claquesous
Montparnasse
Gueulemer
Brujon
Bamatabois
Madame Victurnien
Les Amis de l'ABC
Enjolras
Combeferre
Courfeyrac
Jean Prouvaire
Feuilly
Bahorel
Lesgle
Joly
Grantaire
Marius Pontmercy
Personnages secondaires
Amies de Fantine
Favourite
Dahlia
Zéphine
Amis de Félix Tholomyès
Listolier
Fameuil
Blachevelle
Autres
Fauchelevent
Mr Mabeuf
Azelma Thénardier
Toussaint
Luc-Esprit Gillenormand
Georges Pontmercy
Évêque Myriel
Baptistine Myriel
Mme Magloire
Petit-Gervais
"""

## Q2 - somme

On écrit une fonction qui fait la somme des lettres (avec la fonction [ord](https://docs.python.org/3/library/functions.html?highlight=ord#ord) par exemple). On calcule ensuite la distribution du résultat modulo 26. Est-ce uniforme ?

## Q3 - pseudo générateur

On s'inspire d'un [générateur congruentiel linéaire](https://fr.wikipedia.org/wiki/G%C3%A9n%C3%A9rateur_congruentiel_lin%C3%A9aire).

$X_{n+1} = (22695477 X_n + 1) \mod 2^{32}$ qu'on transforme en $X_{n+1} = (22695477 (X_n + c_n) + 1) \mod 2^{32}$ où $c_n$ est la n-énième lettre du nom du personnage.

On prendra comme résultat le dernier nombre de la série $X_n >> 16$, le tout module 26. On calcule de nouveau la distribution.

## Q4 - hash

On utilise un algorithme hashage implémenté par la librairie [hashlib](https://docs.python.org/3/library/hashlib.html). On transforme chaque nom des personnages et on calcule la distribution de la première lettre du *hash* obtenu.

## Q5 - light hash

On s'inspire de la page [What hash algorithm does Python's dictionary mapping use?](https://stackoverflow.com/questions/8997894/what-hash-algorithm-does-pythons-dictionary-mapping-use).

```python
def hash(string):
    x = string[0] << 7
    for chr in string[1:]:
        x = ((1000003 * x) ^ chr) & (1<<32)
    return x
```

De nouveau calculer la distribution du hash obtenu.

## Q6 - répartition

Imagine une façon de répartir des élèves en 4 groupes.

## Q7 - dictionnaire

Les dictionnaires en python s'appuient sur une table de hashage et non sur un arbre de recherche dichotomique (voir aussi son code : [taille de hash](https://github.com/python/cpython/blob/main/Objects/dictobject.c#L38)). Quelle expérience pourrait-on mener pour s'assurer ? Le module [timeit](https://docs.python.org/3/library/timeit.html) pourrait vous mettre sur la voie.