<a href="https://colab.research.google.com/github/thfruchart/tnsi-2020/blob/master/Chap02/Ensemble.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Liste ou dictionnaire ?


Dans le problème des anniversaire, le meilleur algorithme consiste à chercher les doublons en parcourant une fois le tableau, et en "cochant" les valeurs déjà rencontrées dans une **structure adaptée**.

* soit une liste : 
  * mais cela suppose de connaître d'avance les valeurs extrêmes qui peuvent être contenues dans le tableau
  * une telle liste occupe en mémoire plus de place que ce qui est souvent utile. 

* soit un dictionnaire :
  * on peut stocker les valeurs du tableau au fur et à mesure, sans définir dès le départ la dimension de stockage.
  * on pourrait chercher les doublons dans un tableau contenant des données de type `str` aussi bien que `int`.
  * mais... seules les clés du dictionnaire sont vraiment utiles. Les valeurs stockées importent peu => on doit pouvoir encore économiser de la place avec une structure plus "légère".

  Une telle structure correspond à ce qu'on appelle habituellement : **ensemble**. 
  
La détection de doublon pourrait s'écrire : 




In [None]:
def detecte_doublon_ensemble(t):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    s = cree_ensemble() #ensemble vide
    # parcours du tableau 
    for v in t: 
        if appartient(v, s) : 
            return True
        else :
            ajoute(v, s)
    return False

L'objectif de ce cours va être de créer cette structure "ensemble" uniquement à partir du type `list` de python.

Cela permettra d'avoir une idée de la manière dont les dictionnaires sont implémentés. 

## Avec un tableau de booléens

In [1]:
# première solution : tableau de booléens
def cree_ensemble():
    ''' crée un ensemble vide, pouvant contenir des entiers entre 0 et 366
    implémenté sous la forme d'un tableau de booléens'''
    return [False for i in range(367)]

def appartient(v,s):
    ''' teste si une valeur v (de 0 à 366) appartient à l'ensemble s'''
    return s[v]

def ajoute(v,s):
    ''' ajoute la valeur v (de0 à 366) à l'ensemble s'''
    s[v]=True


def detecte_doublon_ensemble(t):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    s = cree_ensemble() #ensemble vide
    # parcours du tableau 
    for v in t: 
        if appartient(v, s) : 
            return True
        else :
            ajoute(v, s)
    return False


In [2]:
detecte_doublon_ensemble([0,1,2,3,4,5,1,0])

True

In [3]:
detecte_doublon_ensemble([0,1,2,3,4,5,6])

False

## avec un dictionnaire

In [4]:
# deuxième solution : dictionnaire
def cree_ensemble():
    ''' crée un ensemble vide, pouvant contenir des entiers ou des textes
    implémenté sous la forme d'un dictionnaire de booléens'''
    return {}

def appartient(v,s):
    ''' teste si une valeur v appartient à l'ensemble s'''
    return v in s

def ajoute(v,s):
    ''' ajoute la valeur v à l'ensemble s'''
    s[v]=True


def detecte_doublon_ensemble(t):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    s = cree_ensemble() #ensemble vide
    # parcours du tableau 
    for v in t: 
        if appartient(v, s) : 
            return True
        else :
            ajoute(v, s)
    return False


assert detecte_doublon_ensemble([0,1,2,3,4,5,1,0])==True
assert detecte_doublon_ensemble([0,1,2,3,4,5,6]) == False

# Nouvelle structure d'ensemble : liste de listes

Chaque élément doit être stocké dans une liste, **de manière à pouvoir être trouvé très rapidement si on le cherche dans la liste**.
* on pourrait envisager une liste triée, mais
  * la recherche dans une liste triée s'effectue en O(log(n)) et non pas en temps constant
  * pour insérer un nouvel élément, il y aurait un coût important
    * pour trouver la place où l'insérer dans l'ensemble
    * pour "décaler" les autres élements de l'ensemble


* on va voir qu'une **liste de listes** est pertinente, si elle est bien construite.

In [5]:
# troisième solution : liste de listes
def cree_ensemble():
    ''' crée un ensemble vide, pouvant contenir des entiers 
    implémenté sous la forme d'une liste de listes'''
    return [ [] for i in range(23) ]

def appartient(v,s):
    ''' teste si une valeur v appartient à l'ensemble s'''
    indice = v%23
    return v in s[indice]

def ajoute(v,s):
    ''' ajoute la valeur v à l'ensemble s'''
    indice = v%23
    if not appartient(v,s):
        s[indice].append(v)


def detecte_doublon_ensemble(t):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    s = cree_ensemble() #ensemble vide
    # parcours du tableau 
    for v in t: 
        if appartient(v, s) : 
            return True
        else :
            ajoute(v, s)
    return False


assert detecte_doublon_ensemble([0,1,2,3,4,5,1,0])==True
assert detecte_doublon_ensemble([0,1,2,3,4,5,6]) == False

In [None]:
s = cree_ensemble()
ajoute(23,s)
ajoute(365,s)
ajoute(230,s)
print(s)

In [None]:
ajoute(60,s)
ajoute(80,s)
ajoute(89,s)
print(s)

In [None]:
appartient(50,s)

In [None]:
ajoute(24,s)
print(s)

1. Choix du nombre total de listes : ici on a une liste de 23 listes. En effet, on s'attend à ce qu'un doublon soit probable si le nombre d'éléments dépasse 23. Si on utilise une liste de 23 listes pour tester des doublons, chacune de ces 23 listes ne devrait contenir qu'un petit nombre d'éléments.

2. Chaque élément `v` est stocké dans l'une des 23 listes, selon la valeur de `v%23` : cela permet de 
  - choisir dans quelle liste stocker un élément avec la fonction `ajoute`
  - chercher si cet élément est présent dans **une seule des 23 listes** avec la fonction `appartient`. Comme chacune de ces listes ne contient que peu d'éléments, cette recherche s'effectue pratiquement en temps constant

3. Au niveau de l'occupation en mémoire, l'ensemble vide occupe certes un peu d'espace, mais beaucoup moins qu'avec une liste de 366 booléens ! Pour les ensembles non vices, la place occupée en mémoire augmente avec le nombre d'éléments. 

#Conclusion

Il existe plusieurs manières de stocker l'information liée à la notion d'ensemble. Nous en avons détaillé trois :
1. Tableau de booléens
2. Dictionnaire
3. Listes de listes

On dit que ces trois types de données **implémentent** la structure "ensemble". 
Cette structure peut être caractérisée par son **interface**, c'est à dire ici, les spécifications de trois fonctions qui permettent
* créer un ensemble vide
* ajouter un élément à un ensemble
* tester l'appartenance d'un élément à un ensemble. 

