# Tirage aléatoire pondéré

**Objectifs :** Étant donnée une suite d'objets `population`, et une suite de poids correspondante `poids`, tirer au sort un élément de `population` avec une probabilité proportionnelle à son poids par rapport aux autres éléments.

⚠️⚠️⚠️ Dans ce cahier, on supposera dans un premier temps qu'on dispose uniquement de la fonction `random.randrange`.

Pour tester les résultats obtenus, on pourra faire des expériences répétées, et tracer des histogrammes avec `matplotlib`.

In [None]:
from random import randrange
import matplotlib.pyplot as plt

## Échauffement : tirage uniforme

Écrivons une fonction qui tire un élément **uniformément** au hasard dans la collection `population`, en utilisant uniquement `randrange`.

In [None]:
def choix_uniforme(population):
    ...  # compléter

In [None]:
choix_uniforme(['a', 'b', 'c'])  # pas de poids : une simple liste suffit

On compte le nombre d'occurrence de chaque résultat sur un grand nombre d'appels, pour vérifier que les résultats obtenus semblent uniformes :

In [None]:
def compte_resultats(population, fonction_de_tirage, n=12000):
    """
    Effectue `n` appels à `fonction_de_tirage` sur la collection 
    `population`, compte le nombre d'occurrences de chaque résultat
    (supposé hachable) et trace un diagramme.
    """
    resultats = {}
    for _ in range(n):
        choix = fonction_de_tirage(population)
        resultats[choix] = ...  # compléter
    plt.bar(resultats.keys(), resultats.values(), tick_label=resultats.keys())

In [None]:

compte_resultats(['a', 'b', 'c'], choix_uniforme)

## Premier essai de tirage pondéré : dupliquer les éléments de la collection

Puisqu'on sait tirer uniformément dans une collection, on peut "tricher" en dupliquant chaque élément autant de fois que l'indique son poids, et tirer uniformément dans cette collection.

In [None]:
def choix_pondere_naif(population):  # ici population est supposé être un dictionnaire
    ...  # à compléter

In [None]:
choix_pondere_naif({'a': 1, 'b': 3, 'c': 2})

In [None]:
compte_resultats({'a': 1, 'b': 3, 'c': 2}, choix_pondere_naif)

## Deuxième essai : avec calcul des poids cumulés

**Idée :** on calcule la somme des poids $S$, et on partitionne l'intervale des entiers de 0 à $S-1$ en `len(populations)` intervalles successifs correspondant à chacun des éléments de `population`. Ensuite, on fait un tirage uniforme d'un entier entre $0$ et $S-1$, et on associe l'entier tiré à l'intervalle correspondant.

**Tâches :**
- choisir un type de données approprié pour représenter ces intervalles ;
- compléter la fonction `poids_cumules` calculant ces intervalles pour un dictionnaire `population` donné, et en renvoyant sa représentation (ainsi que la valeur de $S$).

In [None]:
def poids_cumules(population):
    ...

In [None]:
poids_cumules({'a': 1, 'b': 3, 'c': 2})

Étant donnés un entier `n` et l'objet `cumuls` calculé précédemment, on veut maintenant pouvoir déterminer à quel intervalle de `cumuls` appartient `n`. Par exemple, si $(c_i)_{0 \leq i \leq k}$ représente la suite des cumuls, on cherche le plus grand indice $i$ tel que $c_i \leq$ `n` (ou de manière équivalente, le plus petit indice $i$ tel que `n` $< c_i$). C'est cet indice qui nous indiquera à quel intervalle appartient l'entier `n`  (et donc à quel élément de la population d'origine il correspond).

In [None]:
def trouve_intervalle(cumuls, n):  # cumuls est supposé du type choisi précédemment
    ...
    return ...  # type de retour à déterminer (indice, élément de la population...)

In [None]:
trouve_intervalle({'a': 1, 'b': 3, 'c': 2}, 6)

**Pour aller plus loin :**
- pour optimiser cette fonction, puisque la structure `cumuls` est (si vous l'avez bien choisie) triée par poids cumulés croissants, on peut utiliser un algorithme de *dichotomie* plutôt qu'une recherche exhaustive (Cf. programme de NSI terminale / AP2).
- pour le projet, une fois les poids calculés sur le corpus, il serait préférable de stocker directement les cumuls plutôt que les poids individuels pour éviter d'avoir à le faire à chaque tirage.

On peut maintenant rassembler tous ces éléments pour obtenir un tirage pondéré un peu plus sobre.

In [None]:
def choix_pondere(population):
    ...

In [None]:
compte_resultats({'a': 1, 'b': 3, 'c': 2}, choix_pondere)

## Et dans la bibliothèque standard ?

In [None]:
population = ['a', 'b', 'c']
poids = [1, 3, 2]

Tirage uniforme :

In [None]:
from random import choice
choice(population)

Calcul des poids cumulés (facultatif) :

In [None]:
from itertools import accumulate
list(accumulate(poids))

Tirage pondéré :

In [None]:
from random import choices
choices(population, poids)

*Variante :*

In [None]:
cumuls = list(accumulate(poids))
choices(population, cum_weights=cumuls)  # plus rapide en principe

Vérification juste pour voir :

In [None]:
def choix_pondere_natif(population):
    elems = list(population.keys())    # urgh...
    poids = list(population.values())  # urgh...
    return choices(elems, poids)[0]

compte_resultats({'a': 1, 'b': 3, 'c': 2}, choix_pondere_natif)

## Un petit test

In [None]:
%timeit choix_pondere_naif(dict(['a', 'b', 'c'], [32200, 77800, 21200]))
%timeit choix_pondere(dict(['a', 'b', 'c'], [32200, 77800, 21200]))
%timeit choix_pondere_natif(dict(['a', 'b', 'c'], [32200, 77800, 21200]))