<img src="Images/Logo.png" alt="Logo NSI" style="float:right">

<h1 style="text-align:center">Chapitre 18 : Ensembles, $n$-uplets et dictionnaires</h1>

La structure de données des tableaux est très utilisées en informatique. Dans certains cas, nous ne souhaitons pas de doublons dans nos tableaux. La détection de doublons est une opération coûteuse.  
Python, comme de nombreux langages de programmation, propose une structure de données adaptée à ce genre de situation : les [**ensembles**](https://docs.python.org/fr/3/tutorial/datastructures.html?highlight=dictionnaires#sets).

## Les ensembles en Python
On construit un ensemble en écrivant ses éléments entre accolades, en les séparant par des virgules.

In [None]:
ens = {2, 3, 5, 7}

L'ordre des éléments n'importe pas. On aurait pu écrire :

In [None]:
ens = {5, 2, 7, 3}

Comme pour un tableau, la taille d'un ensemble (c'est-à-dire son nombre d'éléments) est obtenue avec la fonction prédéfinie `len`

In [None]:
len(ens)

On peut tester si un élément appartient à un ensemble avec la construction `in`, dont le résultat est un booléen.

In [None]:
4 in ens

In [None]:
5 in ens

Comme pour un tableau, le contenu d'un ensemble peut être modifié.

In [None]:
ens.add(42)
print(ens)
ens.remove(5)
print(ens)

En particulier, plutôt que de construire un ensemble en donnant tous ses éléments dès le départ, on peut partir d'un ensemble vide et lui ajouter des éléments.  
On construit un ensemble vide avec `set()`.

In [None]:
ens = set()
ens.add(5)
ens.add(2)
ens.add(3)
ens.add(7)
ens.add(2)
print(ens)

Avec Python Tutor :
<div style="text-align: center">
<a href="http://pythontutor.com/visualize.html#code=ens%20%3D%20set%28%29%0Aens.add%285%29%0Aens.add%282%29%0Aens.add%283%29%0Aens.add%287%29%0Aens.add%282%29&cumulative=false&curInstr=6&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">
   <img border="0" alt="Etat" src="Images/Etat-15.png" > 
</a>
</div>

Il est également possible de construire un ensemble à partir d'un tableau.

In [None]:
tab = [3, 1, 2, 4, 5, 2, 3]
ens = set(tab)
print(ens)

Ou encore en utilisant une construction par compréhension.

In [None]:
ens = {x * x for x in range(10)}
print(ens)

Enfin, il est possible de construire des ensembles à l'aide d'opérations d'union, d'intersection ou encore de différence, qui sont des opérations ensemblistes.

In [None]:
ens1 = {1, 3, 9}
ens2 = {1, 2, 4, 8}

In [None]:
ens1 | ens2  # union

In [None]:
ens1 & ens2  # intersection

In [None]:
ens1 - ens2  # différence

In [None]:
ens1 ^ ens2  # ou exclusif

Ces quatre opérations renvoient de nouveaux ensembles, sans modifier leurs arguments (contrairement aux méthodes `add` ou `remove`).

On peut parcourir tous les éléments d'un ensemble avec une boucle `for`.

In [None]:
for elt in ens:
    print(elt)

L'ordre de parcours des éléments n'est pas spécifié.

#### Erreur
Contrairement à un tableau, les éléments d'un ensemble ne sont pas ordonnés.  
En particulier, chercher à accéder au $i$-ème élément d'un ensemble provoque une erreur.
L'exécution de l'instruction suivante :
```python
>>> ens[2]
```
provoque une erreur :
```python
TypeError: 'set' object is not subscriptable
```

#### Exemple
Recherche d'un doublon dans un tableau `tab`.

In [None]:
def doublon(tab: list) -> bool:
    """Renvoie un booléen précisant si le tableau t contient un doublon"""
    ens = set()
    for elt in tab:
        if elt in ens:
            return True
        ens.add(elt)
    return False

## Les $n$-uplets
Un [**$n$-uplet**](https://docs.python.org/fr/3/tutorial/datastructures.html?highlight=dictionnaires#tuples-and-sequences) est un ensemble de valeurs écrites entres parenthèses et séparées par des virgules.  

In [None]:
x = ("Leonard", 15, 4, 1452)

Avec Python Tutor :
<div style="text-align: center">
<a href="http://pythontutor.com/visualize.html#code=x%20%3D%20%28%22Leonard%22,%2015,%204,%201452%29&cumulative=false&curInstr=1&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">
   <img border="0" alt="Etat" src="Images/Etat-16.png" > 
</a>
</div>

Comme pour un tableau, on peut obtenir la taille d'un $n$-uplet avec `len` et la $i$-ème composante avec `x[i]`.

In [None]:
len(x)

In [None]:
x[3]

Les composantes sont numérotées à partir de 0, comme pour les tableaux.  
A la différence des tableaux, les $n$-uplets ne peuvent pas être modifiés.  
L'exécution de l'instruction suivante :
```python
>>> x[1] = 16
```
provoque une erreur :
```python
TypeError: 'tuple' object does not support item assignment
```

On peut construire un $n$-uplet de taille 0 avec la notation `()`.  
On peut également construire un $n$-uplet de taille 1, avec la notation `(42,)`. Attention à la virgule qui permet de faire la différence avec une expression entre parenthèses.

On peut utiliser les $n$-uplets pour représenter des élèves dans un tableau où chaque élève est un quadruplet.

In [None]:
eleves = [("Brian", 1, 1, 1942),
         ("Grace", 9, 12, 1906),
         ("Linus", 28, 12, 1969)]

Avec Python Tutor :
<div style="text-align: center">
<a href="http://pythontutor.com/visualize.html#code=eleves%20%3D%20%5B%28%22Brian%22,%201,%201,%201942%29,%0A%20%20%20%20%20%20%20%20%20%28%22Grace%22,%209,%2012,%201906%29,%0A%20%20%20%20%20%20%20%20%20%28%22Linus%22,%2028,%2012,%201969%29%5D&cumulative=false&curInstr=3&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">
   <img border="0" alt="Etat" src="Images/Etat-17.png" > 
</a>
</div>

On peut maintenant parcourir ce tableau, le trier, etc ...  
Si `e` désigne un élément de ce tableau, on peut récupérer le nom avec `e[0]`, le jour de naissance avec `e[1]`, ...  
Une autre solution consiste à récupérer les composants dans autant de variables avec la construction d'affectations simultanée de Python.

In [None]:
e = eleves[1]
n, j, m, a = e
print(n)

Avec Python Tutor :
<div style="text-align: center">
<a href="http://pythontutor.com/visualize.html#code=eleves%20%3D%20%5B%28%22Brian%22,%201,%201,%201942%29,%0A%20%20%20%20%20%20%20%20%20%28%22Grace%22,%209,%2012,%201906%29,%0A%20%20%20%20%20%20%20%20%20%28%22Linus%22,%2028,%2012,%201969%29%5D%0A%20%20%20%20%20%20%20%20%20%0Ae%20%3D%20eleves%5B1%5D%0An,%20j,%20m,%20a%20%3D%20e%0Aprint%28n%29&cumulative=false&curInstr=6&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">
   <img border="0" alt="Etat" src="Images/Etat-18.png" > 
</a>
</div>

Dans ce cas, la variable `n` reçoit la valeur de la première composante `e[0]`, la variable `j` reçoit la valeur de la première composante `e[1]`, ...

#### Erreurs
On obtient une erreur si le nombre de variables indiquées pour décomposer un $n$-uplets n'est pas le bon.  
L'exécution de l'instruction suivante :
```python
>>> x, y = (1, 2, 3)
```
provoque une erreur :
```python
ValueError: too many values to unpack (expected 2)
```
L'exécution de l'instruction suivante :
```python
>>> x, y, z, t = (1, 2, 3)
```
provoque une erreur :
```python
ValueError: not enough values to unpack (expected 4, got 3)
```

### Les $n$-uplets nommés
La représentation d'une entité par un $n$-uplet ne permet pas toujours de savoir à quoi correspondent les valeurs des différentes composantes.  
Python nous appartent une solution avec la notion de **$n$-uplet nommé**, où chaque composante se voit donner un nom sous la forme d'une chaîne de caractères.  
Un $n$-uplet nommé s'écrit entre accolades et chaque composante est une paire d'un nom et d'une valeur, séparé par `:`.

In [None]:
x = {"nom" : "Léonard", "jour" : 15, "mois" : 4, "année" : 1452}

Avec Python Tutor :
<div style="text-align: center">
<a href="http://pythontutor.com/visualize.html#code=x%20%3D%20%7B%22nom%22%20%3A%20%22L%C3%A9onard%22,%20%22jour%22%20%3A%2015,%20%22mois%22%20%3A%204,%20%22ann%C3%A9e%22%20%3A%201452%7D&cumulative=false&curInstr=1&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">
   <img border="0" alt="Etat" src="Images/Etat-19.png" > 
</a>
</div>

Comme pour un $n$-uplet, on obtient le nombre de composantes avec `len`.

In [None]:
len(x)

En revanche, il n'y a pas d'accès à la $i$-ème composante avec un indice.
L'exécution de l'instruction suivante :
```python
>>> x[0]
```
provoque une erreur :
```python
KeyError: 0
```

Pour accéder à une composante, on utilise toujours les crochets, mais avec le nom de la composante

In [None]:
x["nom"]

In [None]:
x["mois"]

Cette structure est extrêmement intéressante car elle rend les composantes plus explicites.

## Les dictionnaires
Les $n$-uplets nommés sont, en réalité, un usage particulier d'une construction plus générale offerte par Python : les [**dictionnaires**](https://docs.python.org/fr/3/tutorial/datastructures.html?highlight=dictionnaires#dictionaries).  

Un dictionnaire est une structure qui associe des **valeurs** à des **clés**.  
On parle aussi de **tableau associatif**, mais contrairement à un tableau, les clés d'un dictionnaire ne sont pas limitées à un ensemble d'entiers.

Un dictionnaire `d` peut être construit explicitement mais également à partir du dictionnaire vide, noté `{}`, en y ajoutant des entrées avec des affectations de la forme `d[clé] = valeur`

In [None]:
d = {}
d["Homer"] = "Le mari de Marge"
d["Marge"] = "La femme d'Homer"
d["Lisa"] = "La fille de Marge et Homer"
len(d)

Avec Python Tutor :
<div style="text-align: center">
<a href="http://pythontutor.com/visualize.html#code=d%20%3D%20%7B%7D%0Ad%5B%22Homer%22%5D%20%3D%20%22Le%20mari%20de%20Marge%22%0Ad%5B%22Marge%22%5D%20%3D%20%22La%20femme%20d'Homer%22%0Ad%5B%22Lisa%22%5D%20%3D%20%22La%20fille%20de%20Marge%20et%20Homer%22&cumulative=false&curInstr=4&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">
   <img border="0" alt="Etat" src="Images/Etat-20.png" > 
</a>
</div>

L'ordre d'insertion n'est pas important.  
En particulier, le dictionnaire est affiché en présentant les clés dans un ordre arbitraire, qui n'est ni l'ordre d'insertion, ni l'ordre alphabétique.

In [None]:
d

On accède à la valeur associée à une clé avec la construction `d[clé]` et on peut tester si le dictionnaire possède une entrée pour une certaine clé avec la construction `clé in d`.

In [None]:
d["Lisa"]

In [None]:
"Lisa" in d

In [None]:
"Bart" in d

On ne peut pas obtenir la valeur associée à une clé qui n'est pas dans le dictionnaire.  
L'exécution de l'instruction suivante :
```python
>>> d["Bart"]
```
provoque une erreur :
```python
KeyError: 'Bart'
```

Comme pour un tableau, le contenu d'un dictionnaire peut être modifié, à postériori, en remplaçant la valeur associée à une certaine clé par une autre valeur, toujours avec la syntaxe d'affectation.

In [None]:
d["Lisa"] = "Modèle de La Joconde"
len(d)

In [None]:
d["Lisa"]

On peut également supprimer une entrée du dictionnaire avec l'instruction `del`.

In [None]:
del d["Lisa"]

In [None]:
"Lisa" in d

In [None]:
len(d)

### Parcours d'un dictionnaire
On peut parcourir toutes les clés d'un dictionnaire avec la boucle `for`.  

L'ordre de parcours est arbitraire.  

In [None]:
for x in d:
    print("La clé", x, "est associée à la valeur", d[x])

### [Vue de dictionnaire](https://docs.python.org/fr/3/glossary.html#term-dictionary-view)
On peut obtenir un tableau contenant toutes les clés de `d` avec la construction `list(d.keys())` ou encore `list(d)`.

In [None]:
d = {'a' : 1, 'b' : 2, 'c' : 1}
list(d.keys())

On peut également obtenir un tableau contenant toutes les valeurs associées à des clés dans `d` avec la construction `list(d.values())` ou encore `list(d)`.

In [None]:
list(d.values())

Enfin, on peut obtenir un tableau contenant toutes les entrées du dictionnaire `d` sous la forme de paires `(clé, valeur)` avec `list(d.items())`.

In [None]:
list(d.items())

On peut également construire un dictionnaire par [compréhension](https://docs.python.org/fr/3/glossary.html#term-dictionary-comprehension).

In [None]:
{x * x : x for x in range(10)}

### Exemple : les mots les plus fréquents dans un texte
On s'interesse ici aux nombres d'occurences des mots dans le texte du [*Tour du monde en quatre vingt jours*](http://www.gutenberg.org/ebooks/800) de Jules Vernes.

Calcul des nombres d'occurrences

In [None]:
def occurrences(tab: list)-> dict:
    """Renvoie un dictionnaire donnant pour chaque valeur apparaisant dans le tableau t
    le nombre de fois qu'elle apparaît dans t"""
    d = {}
    for valeur in tab:
        if valeur in d:
            d[valeur] += 1
        else:
            d[valeur] = 1
    return d

In [None]:
occurrences([1, 3, 2, 1, 4, 1, 2, 1])

On commence par construire un tableau contenant tous les mots du [texte](Donnees/ltdme80j-p.txt).  
Pour cela, on ouvre un fichier contenant le texte, on récupère le contenu dans un [objet fichier](https://docs.python.org/fr/3/glossary.html#term-file-object).  
Ensuite, on lit le contenu sous la forme d'une unique chaîne de caractères avec `read()`, puis on la transforme en un tableau de mots avec [`split()`](https://docs.python.org/fr/3/library/stdtypes.html#str.split), avant de fermer le fichier.

In [None]:
with open("Donnees/ltdme80j-p.txt") as fichier:   # on utilise le texte sans ponctuation
    texte = fichier.read().split()

In [None]:
texte[2]

In [None]:
d = occurrences(texte)
d["Le"]

#### [Gestionnaire de contexte](https://docs.python.org/fr/3/glossary.html#term-context-manager)
Lorsque nous manipulons un fichier, il est très important de bien le fermer après usage.

Ainsi, il est dorénavant recommandé d'utiliser l'instruction [`with`](https://docs.python.org/fr/3/reference/compound_stmts.html#with) lors d'interactions avec des fichiers. Ceci afin d'éviter d'*oublier* de fermer le fichier après son utilisation.

Par exemple, pour récupérer le contenu du fichier, nous devons procéder de la manière suivante :

In [None]:
with open("Donnees/ltdme80j-p.txt") as fichier:
    texte = fichier.read().split()
texte[3]

Plutôt que :

In [None]:
fichier = open("Donnees/ltdme80j-p.txt") # on utilise le texte sans ponctuation
texte = fichier.read().split()
fichier.close()

### Table de hachage
Les ensembles et les dictionnaires de Python sont réalisés par des [**tables de hachage**](https://interstices.info/le-hachage/).  
Il s'agit d'une structure de données qui utilise en interne une [fonction](https://docs.python.org/fr/3/library/functions.html#hash), arbitraire, envoyant les éléments d'un ensemble ou les clés d'un dictionnaire vers des entiers.

In [None]:
hash("Homer")

On peut alors se ramener à un tableau dans lequel on stocke à l'indice $i$ tous les éléments pour lesquels la fonction de hachage donne la valeur $i$ [modulo](https://jdolivet.github.io/NSI-Cours/Premi%C3%A8re/Sites/tables-hachage/index.html) la taille du tableau.

In [None]:
d = [""] * 3
valeur_de_hachage = hash("Homer")
position = valeur_de_hachage % 3
d[position] = "Le mari de Marge"
print(d)

Lorsque le tableau commence à être bien rempli, on l'agrandit.  
Tout cela est transparent pour l'utilisateur.  

Il s'agit d'une structure de données extrêmement [efficace](https://wiki.python.org/moin/TimeComplexity#dict).   
En pratique, on peut considérer qu'ajouter ou chercher dans un ensemble ou un dictionnaire est instantané, quel que soit le nombre  d'éléments.

## Exercices

### Exercice 1
Ecrire un programme pour vérifier expérimentalement le [paradoxe des anniversaires](https://www.dcode.fr/probabilites-anniversaire). 

L'idée est de répéter un grand nombre de fois, par exmple mille, un tirage aléatoire de 23 dates d'anniversaire (c'est-à-dire d'entiers compris entre 1 et 365) et de compter le nombre de ces tirages pour lesquels on a obtenu une coïncidence.  

On doit observer au final que ce nombre est de l'ordre de 500.

### Exercice 2
Etant donné un tableau `eleves` de $n$-uplets nommés contenant, au moins, une composante `"mois"`, écrire un programme qui remplit un tableau donnant, pour chaque mois, le nombre d'élèves nés ce mois-ci.

### Exercice 3
Ecrire une fonction `plus_frequent(d, k)` qui renvoie le mot de `k` lettres qui est associé dans le dictionnaire `d` à la plus grande valeur.  
En cas d'égalité, on choisira arbitrairement.  
S'il y a aucun mot de `k` lettres dans `d`, on renverra la chaîne vide.

### Exercice 4
En utilisant la fonction `occurrences` écrire une fonction `compare_tableaux(t, u)` qui détermine si deux tableaux contiennent les mêmes éléments, avec pour chacun le même nombre d'occurrences.

### Exercice 5
Vérifier que la fonction `occurrences` fonctionne également sur une chaîne de caractères.  
Que renvoie `occurrences("tagada")`.

### Exercice 6
On peut voir un clavier comme un tableau à deux dimensions dans lequel chaque case contient un caractère.  
Ainsi, la partie principale d'un clavier AZERTY peut être vue comme le tableau suivant.
```python
[['a', 'z', 'e', 'r', 't', 'y', 'u', 'i', 'o', 'p'],
 ['q', 's', 'd', 'f', 'g', 'h', 'j', 'k', 'l', 'm'],
 ['<', 'w', 'c', 'v', 'b', 'n', ',', ';', ':', '!']]
```
Notre objectif est d'écrire une fonction `distance_touches` calculant la distance entre les touches de deux caractères sur un clavier.
1. Ecrire une fonction `inverse_clavier` prenant en paramètre un tableau à deux dimensions représentant une disposition de clavier et renvoyant un dictionnaire dont les clés sont les caractères et les valeurs les coordonnées de la touche correspondante.
2. En déduire une fonction `distance_touches` prenant en paramètres deux caractères et calculant la distance entre les touches correspondantes. On prendra comme unité de distance le côté d'une touche.

## Sources :
* Balabonski Thibaut, et al. 2019. *Spécialité Numérique et sciences informatiques : 30 leçons avec exercices corrigés - Première - Nouveaux programmes*. Paris. Ellipse
* Document accompagnement Eduscol : [p-uplets nommés et dictionnaires](https://cache.media.eduscol.education.fr/file/NSI/77/6/RA_Lycee_G_NSI_repd_dicos_1170776.pdf)
* Document accompagnement Eduscol : [Types construits en Python](https://cache.media.eduscol.education.fr/file/NSI/77/7/RA_Lycee_G_NSI_repd_types_construits_1170777.pdf)
* [Projet Gutenberg](http://www.gutenberg.org/about/)
* Cours Lumni : [Les dictionnaires en Python](https://www.lumni.fr/video/les-dictionnaires)
* [Complexité temporelle des structures de Python](https://wiki.python.org/moin/TimeComplexity)