# Dictionnaires, Tuples, et Sets

Jusqu’à maintenant nous avons vu et manipulé le type d’objet séquentiel le plus classique : **les listes**. 
On se rappelle qu’elles sont modifiables, ordonnées et itérables. 

Dans ce chapitre nous allons voir trois nouveaux types d’objet séquentiel avec des propriétés différentes : **les dictionnaires**, **les tuples** et **les sets**.

**Remarque:**
Les objets séquentiels peuvent être aussi appelés parfois **containers**.


# Dictionnaires

### Définition

Les **dictionnaires** se révèlent très pratiques lorsque vous devez manipuler des structures complexes à décrire et que les listes présentent leurs limites. 

Les dictionnaires sont des collections non ordonnées d’objets, c’est-à-dire qu’il n’y a pas de notion d’ordre (i.e. pas d’indice). 

On accède aux **valeurs** d’un dictionnaire par des **clés**. Ceci semble un peu confus ? Regardez l’exemple suivant :

In [1]:
ani1 = {}
ani1["nom"] = "girafe" 
ani1 ["taille"] = 5.0
ani1 ["poids"] = 1100
ani1

{'nom': 'girafe', 'taille': 5.0, 'poids': 1100}

En premier, on définit un dictionnaire vide avec les accolades { } (tout comme on peut le faire pour les listes avec [ ]). 

Ensuite, on remplit le dictionnaire avec différentes clés ("nom", "taille", "poids") auxquelles on affecte des valeurs ("girafe", 5.0, 1100). 

Vous pouvez mettre autant de clés que vous voulez dans un dictionnaire (tout comme vous pouvez ajouter autant d’éléments que vous voulez dans une liste).

**Remarque:**
Un dictionnaire est affiché sans ordre particulier.


On peut aussi initialiser toutes les clés et les valeurs d’un dictionnaire en une seule opération :

In [2]:
ani2 = {"nom": "singe", "poids": 70, "taille": 1.75}

Mais rien ne nous empêche d’ajouter une clé et une valeur supplémentaire :

In [3]:
ani2["age"] = 15

Pour récupérer la valeur associée à une clé donnée, il suffit d’utiliser la syntaxe suivante **dictionnaire["cle"]**. Par exemple :

In [4]:
ani1 ["taille"]

5.0

**Remarque:**
* Toutes les clés de dictionnaire utilisées jusqu’à présent étaient des chaînes de caractères.
* Rien n’empêche d’utiliser d’autres types d’objets comme des entiers (voire même des tuples, cf. rubrique suivante), cela peut parfois s’avérer très utile.

Néanmoins, nous vous conseillons, autant que possible, d’utiliser systématiquement des chaînes de caractères pour vos clés de dictionnaire.

Après ce premier tour d’horizon, on voit tout de suite l’avantage des dictionnaires:

* Pouvoir retrouver des éléments par des noms (clés) plutôt que par des indices. 
    * Les humains retiennent mieux les noms que les chiffres. 
* Ainsi, l’usage des dictionnaires rend en général le code plus lisible. 

**Par exemple**, si nous souhaitions stocker les coordonnées (x, y, z) d’un point dans l’espace : 

* coors = [0, 1, 2] pour laversion liste, 
* coors = {"x": 0, "y": 1, "z": 2} pour la version dictionnaire.

Un lecteur comprendra tout de suite que coors["z"] contient la coordonnée z, ce sera moins intuitif avec coors[2].
    

### Itération sur les clés pour obtenir les valeurs

* Il est possible d’obtenir toutes les valeurs d’un dictionnaire à partir de ses clés :

In [5]:
ani2 = {'nom': 'singe', 'poids': 70, 'taille': 1.75}
for key in ani2:
 print(key, ani2[key])

nom singe
poids 70
taille 1.75


### Méthodes .keys(), .values() et .items()

* Les méthodes .keys() et .values() renvoient les clés et les valeurs d’un dictionnaire :

In [6]:
ani2.keys()

dict_keys(['nom', 'poids', 'taille'])

In [7]:
ani2.values()

dict_values(['singe', 70, 1.75])

* Les mentions dict_keys et dict_values indiquent que nous avons à faire à des objets un peu particuliers. 
* Ils ne sont pas indexables (on ne peut pas retrouver un élément par indice, ** par exemple ** dico.keys()[0] renverra une erreur). 

Si besoin, nous pouvons les transformer en liste avec la fonction list() :

In [8]:
list(ani2.values())

['singe', 70, 1.75]

* Toutefois, ce sont des objets « itérables », donc utilisables dans une boucle.

Enfin, il existe la méthode .items() qui renvoie un nouvel objet dict_items :


In [9]:
dico = {0: "t", 1: "o", 2: "t", 3: "o"}
dico.items()

dict_items([(0, 't'), (1, 'o'), (2, 't'), (3, 'o')])

* Celui-ci n’est pas indexable (on ne peut pas retrouver un élément par un indice) mais il est itérable :

In [10]:
dico.items()[2]

TypeError: 'dict_items' object is not subscriptable

In [11]:
for key, value in dico.items(): print(key, value)

0 t
1 o
2 t
3 o


On itère à la fois sur key et sur val. On verra plus bas que cela peut-être utile pour construire des dictionnaires de compréhension.

### Existence d’une clé

* Pour vérifier si une clé existe dans un dictionnaire, on peut utiliser le test d’appartenance avec l’instruction in qui renvoie un booléen :

In [12]:
ani2 = {'nom': 'singe', 'poids': 70, 'taille': 1.75}
if "poids" in ani2:
    print("La clé 'poids' existe pour ani2")
if "age" in ani2:
    print("La clé 'age' existe pour ani2")

La clé 'poids' existe pour ani2


* Dans le second test, le message n’est pas affiché car la clé age n’est pas présente dans le dictionnaire ani2.

### Méthode .get()

* La méthode .get() extrait la valeur associée à une clé mais ne renvoie pas d’erreur si la clé n’existe pas :


In [13]:
ani2 = {'nom': 'singe', 'poids': 70, 'taille': 1.75}
ani2.get("nom")
ani2["nom"]



'singe'

In [14]:
ani2.get("age")

In [15]:
ani2["age"]

KeyError: 'age'

* Ici la valeur associée à la clé nom est singe mais la clé age n’existe pas. 
* On peut également indiquer à .get() une valeur par défaut si la clé n’existe pas :

In [16]:
ani2.get("age", 42)

42

### Tri par clés


* On peut utiliser la fonction sorted() vue précédemment avec les listes pour trier un dictionnaire par ses clés :


In [17]:
ani2 = {'nom': 'singe', 'taille': 1.75, 'poids': 70}
sorted(ani2)

['nom', 'poids', 'taille']

Les clés sont triées ici par ordre alphabétique.

### Tri par valeurs

* Pour trier un dictionnaire par ses valeurs, il faut utiliser la fonction sorted avec l’argument key/value :

In [18]:
dico = {"a": 15, "b": 5, "c":20}
sorted(dico, key=dico.get)

['b', 'a', 'c']

* L’argument key=dico.get indique explicitement qu’il faut réaliser le tri par les valeurs du dictionnaire. 
* On retrouve la méthode .get() vue plus haut, mais sans les parenthèses (key=dico.get mais pas key=dico.get()).

**Attention**, ce sont les clés du dictionnaires qui sont renvoyées, pas les valeurs. Ces clés sont cependant renvoyées dans un ordre qui permet d’obtenir les clés triées par ordre croissant. 

Ecrire un programme qui permet d'afficher les clés et les valeurs d'un dictionnaire trié. 

In [19]:
dico = {"a": 15, "b": 5, "c":20}
for key in sorted(dico, key=dico.get):
    print(key, dico[key])

b 5
a 15
c 20


Enfin, l’argument reverse=True fonctionne également :

In [20]:
dico = {"a": 15, "b": 5, "c":20}
sorted(dico, key=dico.get, reverse=True)

['c', 'a', 'b']

#### Remarque: 

* Lorsqu’on trie un dictionnaire par ses valeurs, il faut être sûr que cela soit possible. 
Ce n’est, par exemple, pas le cas pour le dictionnaire ani2 car les valeurs sont des valeurs numériques et une chaîne de caractères :

In [21]:
ani2 = {'nom': 'singe', 'poids': 70, 'taille': 1.75}
sorted(ani2, key=ani2.get)

TypeError: '<' not supported between instances of 'int' and 'str'

* On obtient ici une erreur car Python ne sait pas comparer une chaîne de caractères (singe) avec des valeurs numériques (70 et 1.75).

### Clé associée au minimum ou au maximum des valeurs

* Les fonctions min() et max(), que vous avez déjà manipulées dans les chapitres précédents, acceptent également l’argument key=
* On peut ainsi obtenir la clé associée au minimum ou au maximum des valeurs d’un dictionnaire :

In [22]:
dico = {"a": 15, "b": 5, "c":20}
max(dico , key=dico.get)

'c'

In [23]:
min(dico , key=dico.get)

'b'

### Liste de dictionnaires

* En créant une liste de dictionnaires qui possèdent les mêmes clés, on obtient une structure qui ressemble à une base de données :

In [24]:
animaux = [ani1 , ani2]
animaux

[{'nom': 'girafe', 'taille': 5.0, 'poids': 1100},
 {'nom': 'singe', 'poids': 70, 'taille': 1.75}]

In [25]:
for ani in animaux:
    print(ani["nom"])

girafe
singe


#### Remarque: 

* Vous constatez ainsi que les dictionnaires permettent de gérer des structures complexes de manière plus explicite que les listes

### Fonction dict()

* La fonction dict() va convertir l’argument qui lui est passé en dictionnaire. 
* Il s’agit donc d’une fonction de casting comme int(), str(), etc. 
* Toutefois, l’argument qui lui est passé doit avoir une forme particulière : 
    * un objet séquentiel contenant d’autres objets séquentiels de 2 éléments. 
    *Par exemple*, une liste de listes de 2 éléments :

In [26]:
liste_animaux = [["girafe", 2], ["singe", 3]]
dict(liste_animaux)

{'girafe': 2, 'singe': 3}

* Si un des sous-éléments a plus de 2 éléments (ou moins), Python renvoie une erreur :


In [27]:
dict([("girafe", 2), ("singe", 3, 4)])

ValueError: dictionary update sequence element #1 has length 3; 2 is required

# Tuples

### Définition

Les **tuples** (« **n-uplets**» en français) correspondent aux listes à la différence qu’ils sont non modifiables. 

On a vu dans que les listes pouvaient être modifiées par références, notamment lors de la copie de listes.

Les tuples s’affranchissent de ce problème puisqu’ils sont non modifiables. Pratiquement, ils utilisent les parenthèses au lieu des crochets :

In [28]:
x=(1,2,3)
x

(1, 2, 3)

In [29]:
x[2]

3

In [30]:
x[0:2]

(1, 2)

In [31]:
x[2] = 15

TypeError: 'tuple' object does not support item assignment

* L’affectation et l’indiçage fonctionnent comme avec les listes. 
* Mais si on essaie de modifier un des éléments du tuple, Python renvoie un message d’erreur. 

Si vous voulez ajouter un élément (ou le modifier), vous devez créer un autre tuple :

In [32]:
x=(1,2,3)
x+(2,)

(1, 2, 3, 2)

In [33]:
x

(1, 2, 3)

In [34]:
y = x+(2,)

In [35]:
y

(1, 2, 3, 2)

#### Remarque: 

* Pour utiliser un tuple d’un seul élément, vous devez utiliser une syntaxe avec une virgule (element,), ceci pour éviter une ambiguïté avec une simple expression.
* Autre particularité des tuples, il est possible d’en créer de nouveaux sans les parenthèses, dès lors que ceci ne pose pas d’ambiguïté avec une autre expression :

In [36]:
x=(1,2,3)
x

(1, 2, 3)

In [37]:
x=1,2,3
x

(1, 2, 3)

**Conseil**: Toutefois, nous vous conseillons d’utiliser systématiquement les parenthèses afin d’éviter les confusions.

Enfin, on peut utiliser la fonction tuple (sequence) qui fonctionne exactement comme la fonction list(), c’est-à-dire qu’elle prend en argument un objet séquentiel et renvoie le tuple correspondant (opération de casting) :

In [38]:
tuple ([1 ,2 ,3])

(1, 2, 3)

In [39]:
tuple("ATGCCGCGAT")

('A', 'T', 'G', 'C', 'C', 'G', 'C', 'G', 'A', 'T')

#### Remarque
* Les listes, les dictionnaires et les tuples sont des objets qui peuvent contenir des collections d’autres objets. 
* On peut donc construire des listes qui contiennent des dictionnaires, des tuples ou d’autres listes, mais aussi des dictionnaires contenant des tuples, des listes, etc.

### Itérations sur plusieurs valeurs à la fois

**Rappel:** la fonction **enumerate()** permet d’itérer en même temps sur les indices et les éléments d’une liste :

In [40]:
for i, elt in enumerate([75, -75, 0]): 
    print(i, elt)

0 75
1 -75
2 0


In [41]:
for obj in enumerate([75, -75, 0]):
    print(obj, type(obj))

(0, 75) <class 'tuple'>
(1, -75) <class 'tuple'>
(2, 0) <class 'tuple'>


**Que constatez vous?**
* La fonction enumerate() itère sur une série de tuples. Pouvoir séparer i et elt dans la boucle est possible du fait que Python autorise l’affectation multiple du style i, elt = 0, 75

La méthode .dict_items() (déjà vue) permettait d’itérer sur des couples clé / valeur d’un dictionnaire :

In [42]:
dico = {"pinson": 2, "merle": 3}
for key, val in dico.items():
    print(key, val)

pinson 2
merle 3


In [43]:
for obj in dico.items():
    print(obj, type(obj))

('pinson', 2) <class 'tuple'>
('merle', 3) <class 'tuple'>


**Que constatez vous?**

* La méthode .dict_items() itère comme enumerate() sur une série de tuples.

Sur la même base, on peut finalement itérer sur 3 valeurs en même temps à partir d’une liste de tuples de 3 éléments :


In [44]:
liste = [(i, i+1, i+2) for i in range(5, 8)]
liste

[(5, 6, 7), (6, 7, 8), (7, 8, 9)]

**Que constatez vous?**
* On pourrait concevoir la même chose sur 4 éléments, ou finalement autant que l’on veut. 
* La seule restriction est d’avoir une correspondance systématique entre le nombre de variables d’itération (par exemple 3 ci-dessus avec x, y, z) et la longueur de chaque sous-tuple de la liste sur laquelle on itère (chaque sous-tuple a 3 éléments ci-dessus).


### Affectation multiple et le nom de variable_

L’affectation multiple est un mécanisme très puissant et important en Python. 
**Pour rappel**, il permet d’effectuer sur une même ligne plusieurs affectations en même temps, *par exemple : x, y, z = 1, 2, 3.*

On voit que cette syntaxe correspond à un tuple de chaque côté de l’opérateur =. Notez qu’il serait possible de le faire également avec les listes : [x, y, z] = [1, 2, 3]. 
Toutefois, cette syntaxe est alourdie par la présence des crochets. On préfèrera donc la première syntaxe avec les tuples sans parenthèse.

**Remarque:** 
Nous avons appelé l’opération x, y, z = 1, 2, 3 affectation multiple pour signifier que l’on affectait des valeurs à plusieurs variables en même temps. 

Toutefois, vous pourrez rencontrer aussi l’expression tuple unpacking que l’on pourrait traduire par «désempaquetage de tuple».
Cela signifie que l’on décompose le tuple initial 1, 2, 3 en 3 variables différentes (comme si on vidait son sac à dos, d’où le terme désempaquetage !).

Nous avions croisé l’importance de l’affectation multiple lorsqu’une fonction renvoyait plusieurs valeurs:

In [45]:
def fct():
    return 3, 14

x, y = fct()
print(x, y)

3 14


La syntaxe x, y = fct() permet de récupérer les 2 valeurs renvoyées par la fonction et de les affecter à la volée dans 2 variables différentes. 
Cela évite l’opération laborieuse de récupérer d’abord le tuple, puis de créer les variables en utilisant l’indiçage :

In [46]:
resultat = fct()
resultat

(3, 14)

In [47]:
x = resultat [0]
y = resultat [1]
print(x, y)

3 14


**Conseil:** 

* Lorsqu’une fonction renvoie plusieurs valeurs sous forme de tuple, ce sera bien sûr la forme x, y = fct () qui sera privilégiée.

Quand une fonction renvoie plusieurs valeurs mais que l’on ne souhaite pas les utiliser toutes dans la suite du code, on peut utiliser le nom de variable _ (underscore) pour indiquer que certaines valeurs ne nous intéressent pas :

In [48]:
def fct ():
    return 1, 2, 3, 4
x,_,y,_= fct ()

In [49]:
x

1

In [50]:
y

3

Cela envoie le message à celui qui lit le code « je me fiche des valeurs récupérées dans ces variables _ ». 

Notez que l’on peut utiliser une ou plusieurs variables underscores(s). Dans l’exemple ci-dessus, la 2ème et la 4ème variable renvoyées par la fonction seront ignorées dans la suite du code. Cela a le mérite d’éviter la création de variables dont on ne se sert pas.

**Remarque:**

* La variable _ a une autre signication spéciale dans l’interpréteur interactif, elle prend automatiquement la dernière valeur affichée.
* Le underscore est couramment utilisé dans les noms de variable pour séparer les mots et être explicite, par exemple seq_ADN ou liste_listes_residus. 
* Il faut éviter d’utiliser les underscores en début et/ou en fin de nom de variable (e.g. _var, var_, __var, __var__).

# Sets

### Définition

* Les containers de type set représentent un autre type d’objet séquentiel qui peut se révéler très pratique. 
* Ils ont la particularité d’être non modifiables, non ordonnés et de ne contenir qu’une seule copie maximum de chaque élément. 

Pour créer un nouveau set on peut utiliser les accolades :

In [51]:
s={1,2,3,3}
s

{1, 2, 3}

In [52]:
type(s)

set

**Que Constatez vous?**
* La répétition du 3 dans la définition du set en ligne 1 donne au final un seul 3 car chaque élément ne peut être présent qu’une seule fois. 

**A quoi différencie-t-on un set d’un dictionnaire alors que les deux utilisent des accolades ?**
* Le set sera défini seulement par des valeurs {val1, val2, ...} alors que le dictionnaire aura toujours des couples clé/valeur {clé1: val1, clé2: val2, ...}.

En général, on utilisera la fonction interne à Python set() pour générer un nouveau set.

Celle-ci prend en argument n’importe quel objet itérable et le convertit en set (opération de casting) :

In [53]:
set([1, 2, 4, 1])

{1, 2, 4}

In [54]:
set((2, 2, 2, 1))

{1, 2}

In [55]:
set(range(5))

{0, 1, 2, 3, 4}

In [56]:
set({"clé1": 1, "clé2": 2})

{'clé1', 'clé2'}

In [57]:
set(["ti", "to", "to"])

{'ti', 'to'}

In [58]:
set("Maître corbeau sur un arbre perché")

{' ',
 'M',
 'a',
 'b',
 'c',
 'e',
 'h',
 'n',
 'o',
 'p',
 'r',
 's',
 't',
 'u',
 'é',
 'î'}

**Remarque:** 
* Les sets ne sont pas ordonnés, il est donc impossible de récupérer un élément par sa position. 
* Il est également impossible de modifier un de ses éléments. Par contre, les sets sont itérables


In [59]:
s = set([1, 2, 4, 1])

In [60]:
s[1]

TypeError: 'set' object is not subscriptable

In [61]:
for elt in s:
    print(elt)

1
2
4


Les containers de type set sont très utiles pour rechercher les éléments uniques d’une suite d’éléments. Cela revient à éliminer tous les doublons. Par exemple :

In [62]:
import random as rd
l = [rd.randint(0, 9) for i in range(10)]

In [63]:
l

[9, 4, 4, 3, 0, 4, 1, 2, 9, 7]

In [64]:
set(l)

{0, 1, 2, 3, 4, 7, 9}

On peut bien sûr transformer dans l’autre sens un set en liste. Cela permet par exemple d’éliminer les doublons de la liste initiale tout en récupérant une liste à la fin :

In [65]:
list(set([7, 9, 6, 6, 7, 3, 8, 5, 6, 7]))

[3, 5, 6, 7, 8, 9]

On peut faire des choses très puissantes. Par exemple, un compteur de lettres en combinaison avec une liste de compréhension, le tout en une ligne !

In [66]:
seq = "atctcgatcgatcgcgctagctagctcgccatacgtacgactacgt"

In [67]:
set(seq)

{'a', 'c', 'g', 't'}

In [68]:
[(base, seq.count(base)) for base in set(seq)]

[('t', 11), ('c', 15), ('a', 10), ('g', 10)]

Les sets permettent aussi l’évaluation d’union ou d’intersection mathématiques en conjonction avec les opérateurs respectivement | et & :

In [69]:
l=[3,3,5,1,3,4,1,1,4,4]

In [70]:
l2=[3,0,5,3,3,1,1,1,2,2]

In [71]:
set(l) & set(l2)

{1, 3, 5}

In [72]:
set(l) | set(l2)

{0, 1, 2, 3, 4, 5}

# Dictionnaires et sets de compréhension

Comme pour les listes de compréhension, Il est également possible de générer des dictionnaires de compréhension :

In [73]:
dico = {"a": 10, "g": 10, "t": 11, "c": 15}

In [74]:
dico.items()

dict_items([('a', 10), ('g', 10), ('t', 11), ('c', 15)])

In [75]:
{key:val*2 for key, val in dico.items()}

{'a': 20, 'g': 20, 't': 22, 'c': 30}

In [76]:
{key:val for key, val in enumerate("toto")}

{0: 't', 1: 'o', 2: 't', 3: 'o'}

In [77]:
seq = "atctcgatcgatcgcgctagctagctcgccatacgtacgactacgt"

In [78]:
{base:seq.count(base) for base in set(seq)}

{'t': 11, 'c': 15, 'a': 10, 'g': 10}

De manière générale, tout objet sur lequel on peut faire une double itération du type for var1, var2 in obj est utilisable pour créer un dictionnaire de compréhension.

Il est également possible de générer des sets de compréhension sur le même modèle que les listes de compréhension :

In [79]:
{i for i in range(10)}

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

In [80]:
{i**2 for i in range(10)}

{0, 1, 4, 9, 16, 25, 36, 49, 64, 81}

# Module collections

### Définition

Le module collections contient d’autres types de containers qui peuvent se révéler utiles: 
* les dictionnaires ordonnés qui se comportent comme les dictionnaires classiques mais qui sont ordonnés ;
* les defautdicts permettant de générer des valeurs par défaut quand on demande une clé qui n’existe pas (cela évite que Python génère une erreur) ;
* les compteurs ;
* les named tuples ; 

L’objet collection.Counter() est particulièrement intéressant et facile à utiliser. Il crée des compteurs à partir d’objets itérables, par exemple :


In [81]:
import collections
compo_seq = collections.Counter("aatctccgatcgatcgatcgatgatc")
compo_seq

Counter({'a': 7, 't': 7, 'c': 7, 'g': 5})

In [82]:
type(compo_seq)

collections.Counter

In [83]:
compo_seq["a"]

7

In [84]:
compo_seq["n"]

0

On voit que Python a automatiquement compté chaque atgc de la chaîne de caractères passée en argument ! Cela crée un objet de type Counter qui se comporte ensuite comme un dictionnaire, à une exception près : si on appelle une clé qui n’existe pas dans l’itérable initiale (comme le n ci-dessus) cela renvoie 0.