# Les ensembles

Les sets sont très proches des dictionnaires, comme les dictionnaires, ils permettent de faire des tests d'appartenance, d'accéder, modifier, effacer des éléments indépendamment du nombre d'éléments.

Les sets sont également des objets mutables mais à la différence des dictionnaires, les sets ne stockent qu'une clé, il n'y a pas de valeur correspondante.

Alors on peut se demander à quoi ça sert d'avoir une sorte de sous-dictionnaire qui ne stocke que des clés et pas de valeurs. En fait, la raison, c'est que le set est optimisé et a été créé pour des opérations spécifiques.

- Une première opération dans laquelle le set est très utilisé, c'est par exemple pour garder uniquement les éléments uniques d'une séquence ; si on calcule le set des éléments d'une séquence, on ne va avoir que les éléments uniques.
- Une deuxième opération pour laquelle le set est également très utilisé, c'est pour faire des tests d'appartenance sur les éléments d'une séquence.

Les sets comme les dictionnaires sont des objets mutables, on peut donc les modifier en place.

## Création

Je vais créer un set avec la fonction built-in set.

In [None]:
s = set()
type(s)

J'obtiens un objet de type set qui est vide. Il n'est pas possible de créer un set avec uniquement une accolade vide, cela créé un dictionnaire.

Ensuite, je peux créer un objet avec la notation accolades :

In [None]:
s = {1, 2, 3, 'a', True}
s

Je peux stocker n'importe quel objet hashable dans un set.
Je vous rappelle qu'en Python tous les immuables sont hashables et que les mutables ne sont pas hashables.

Donc je peux stocker des entiers, des chaînes de caractères et des tuples d'entiers ou de chaînes de caractères.

Quelle est la différence ici entre les accolades qui représentent un set et les accolades qui représentent un dictionnaire ? Dans un set simplement, je n'ai pas la notation ":" qui sépare la clé et la valeur.

Ensuite, je peux créer un set à partir d'une séquence :

In [None]:
a = [1, 2, 4, 1, 18, 30, 4, 1]
b = set(a)
b

Ici je pars d'une liste existante pour créer mon set. Comme il n'est pas possible d'avoir deux fois la même clé dans un set, je ne conserve que des éléments uniques.

### Un élément dans un ensemble doit être globalement immuable

On a vu précédemment que les clés dans un dictionnaire doivent être globalement immuables. Pour exactement les mêmes raisons, les éléments d'un ensemble doivent aussi être globalement immuables :

```python
# on ne peut pas insérer un tuple qui contient une liste
>>> ensemble = {(1, 2, [3, 4])}
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'list'
```

Le type `set` étant lui-même mutable, on ne peut pas créer un ensemble d'ensembles :

```python
>>> ensemble = {{1, 2}}
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'set'
```

Et c'est une des raisons d'être du type `frozenset`.

## Méthodes et fonction de base

### Longueur d'un set

In [None]:
len(b)

### Appartenance

In [None]:
print(18 in b)
print('b' in b)

### Ajout d'éléments

In [None]:
b.add('alice')
b

Il est également possible d'ajouter une séquence avec la méthode `update` :

In [None]:
b.update([1, 2, 3, 4, 5, 'coucou',(1, 2, 3)])
b

### Suppression d'éléments

Avec la méthode `discard`

In [None]:
# enlever un element avec discard
b.discard((1, 2, 3))
b

Cette méthode ne renvoie pas d'erreur si l'élément n'existe pas :

In [None]:
b.discard('foo')
b

Avec la méthode `remove` :

In [None]:
# enlever un élément avec remove
b.remove('alice')
b

Attention cette méthode lève un exception si l'élément n'existe pas.

```python
>>> b.remove('fred')
---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
Cell In[23], line 2
      1 # enlever un élément avec remove
----> 2 b.remove('fred')
      3 b

KeyError: 'fred'
```

### Nettoyage

In [None]:
# pour nettoyer
b.clear()
b

Évidemment, lorsque je fais un update je ne rajoute que les éléments qui ne sont pas déjà dans mon ensemble s. 

### Opérations ensemblistes

Soit les deux ensembles suivants :

In [1]:
s1 = {1, 2, 3}
s2 = {3, 4, 5}

#### Différence (s1 - s2)

In [3]:
print(s1)
print(s2)
print(s1-s2)
print(s1.difference(s2))
print(s1)

{1, 2, 3}
{3, 4, 5}
{1, 2}
{1, 2}
{1, 2, 3}


C'est-à-dire les éléments qui ne sont que dans s1.

##### Différence symétrique

On rappelle que $A \Delta B = (A - B) \cup (B - A)$

In [None]:
s1 ^ s2

#### Union (s1 | s2)

In [None]:
print(s1)
print(s2)
print(s1 | s2)
print(s1.union(s2))

C'est à dire les éléments de s1 et de s2. Sans doublon bien évidemment.

#### Intersection (s1 & s2)

In [None]:
print(s1)
print(s2)
print(s1 & s2)
print(s1.intersection(s2))

C'est à dire uniquement les éléments commun qux deux sets.

#### Efficacité des sets

Regardons maintenant l'efficacité du test d'appartenance. Vous pouvez peut-être vous poser une question, lorsque je fais un test d'appartenance, est-ce que c'est rentable de convertir ma séquence en set ou est-ce qu'il vaut mieux que je fasse directement le test d'appartenance sur une séquence ?

Lorsque vous faites un test d'appartenance sur une séquence, vous devez parcourir tous les éléments de la séquence jusqu'à trouver l'élément que vous cherchez. Si l'élément n'est pas présent, vous devez parcourir tous les éléments de la séquence.

Parcourir tous les éléments d'une séquence ça correspond à regarder une case mémoire dans votre ordinateur et faire une comparaison entre l'objet stocké dans cette case mémoire et l'objet que vous voulez comparer.

Faire un test d'appartenance sur un set, c'est très différent ; comme on l'a vu, un set, c'est une table de hash ; ça veut donc dire que faire un test d'appartenance, c'est faire un calcul d'une fonction de hash sur l'objet que vous voulez chercher.

Cette fonction de hash va vous donner une case et ensuite vous allez comparer si cet objet est le bon.

La question qu'on peut se poser c'est combien de temps prend le calcul de cette fonction de hash sur votre objet.

En fait, c'est de l'ordre de grandeur de l'accès à un élément dans une séquence.

Ça veut dire qu'en fait, dès que vous avez à faire un test d'appartenance, convertissez toujours votre séquence en set, ce sera dans la quasi-intégralité des cas une opération rentable.

En fait, convertir une séquence en set, ça va prendre le temps de calculer la fonction de hash sur chaque élément. C'est à dire, le temps qu'il vous faudrait pour parcourir une seule fois cette séquence si vous faisiez un test sur un objet qui n'appartient pas à la séquence. Donc on voit qu'en fait, quasiment tout le temps, c'est beaucoup plus rentable de convertir votre séquence en set.

### Comparaisons

Ici encore on se donne deux ensembles :

In [4]:
superset = {0, 1, 2, 3}
superset2 = {0, 1, 2, 3}
print('superset', superset)
subset =  {4, 3}
print('subset', subset)

superset {0, 1, 2, 3}
subset {3, 4}


##### Égalité

In [5]:
print(superset == subset)
print(superset == superset2)

False
True


##### Inclusion

In [6]:
subset <= superset

False

In [7]:
subset < superset

False

In [8]:
superset < superset2

False

##### Ensembles disjoints

In [9]:
heteroclite.isdisjoint(A3)

NameError: name 'heteroclite' is not defined