# Structures de données

## p-uplets, p-uplets nommés
Les p-uplets sont simplement des éléments d'un produit cartésien d'ensemble. On est particulièrement habitué aux couples ou aux triplets de coordonnées $(x,y)$ ou $(x,y,z)$ d'un point du plan ou de l'espace, mais on peut bien entendu opérer des produits cartésiens de n'importe quel type d'ensembles.

En Python, on peut facilement définir des p-uplets, les types des différents éléments qui le composent peuvent être distincts. Voici quelques exemples.

In [1]:
pointA = (12, 33)  # un coupe d'entiers
triplet = ("bonjour", False, 334)  # un triplet composite

In [2]:
pointA

(12, 33)

In [3]:
triplet[2]

334

En Python, les p-uplets __ne sont pas mutables__. La preuve :

In [4]:
triplet[2] = 888

TypeError: 'tuple' object does not support item assignment

Un exemple typique d'utilisation des p-uplets est dans la valeur retournée par une fonction.
Par exemple, voici comment récupérer moyenne et écart-type d'une série statistique.

In [13]:
def caractStat(serie):
    n = len(serie)
    s, s2 = 0, 0  # s est la somme, s2 la somme des carrés
    for x in serie:
        s = s + x
        s2 = s2 + x * x
    return s / n, s2 / n - (s * s) / (n * n)

In [14]:
(moyenne,ecarttype) = caractStat([3,2,11,2,44,5])

Les p-uplets nommés sont des p-uplets aux éléments desquels on accède via un descripteur, et non pas seulement par leur indice.

__Ce type n'existe pas nativement en Python__, on pourrait utiliser le module `collection.namedtuple`, mais ce n'est pas ce que recommande le programme, qui invite à utiliser les dictionnaires, ce que nous examinons ci-dessous.

En revanche, le programme introduit la notion de p-uplet nommé car elle est fort utile pour la description du traitement des données en tables.

Il faut distinguer les concepts au programme et les notations, les objets et les types du langage Python.

_L'enseignement de NSI __n'est pas un enseignement d'un langage__, en l'occurrence Python. Python est simplement le langage support de l'enseignement._

## Les dictionnaires
Un dictionnaire (on dit aussi tableau associatif) est une structure de données qui permet d'associer un ensemble de clés $C$ à un ensemble de valeurs $V$. Autrement dit, pour le mathématicien, c'est une application de $C$ dans $V$.

Les opérations autorisées sur un dictionnaire sont essentiellement : la recherche d'une valeur connaissant la clé, la modification d'une valeur correspondant à une clé donnée.

En pratique on considère plutôt des fonctions de $C$ dans $V$, c'est-à-dire qu'on accepte qu'il n'y ait pas de valeur associée à telle ou telle clé. Cela revient à autoriser des opérations supplémentaires : la création d'un dictionnaire vide, l'ajout d'un nouveau couple (clé, valeur), la suppression d'une couple de clé donnée.

En Python, on utilise les dictionnaires de Python (qui en réalité ne sont pas tout à fait seulement des dictionnaires, mais plutôt des tables de hachage).

En Python, les clés ne sont pas nécessairement du même type, ni les valeurs.

_Cependant, d'un point de vue didactique, il est certainement préférable de choisir un unique type pour les clés (par exemple une chaîne pour un descripteur), alors que les valeurs peuvent de façon naturelle être de types différents._

In [15]:
t = {}  # un dictionnaire vide
t[12] = 33  # on ajoute la valeur 33 pour la clé 12
t['a'] = 44  # et la valeur 44 pour la clé 'a'
t['b'] = 'bonjour'
t[1] = False
t

{12: 33, 'a': 44, 'b': 'bonjour', 1: False}

In [16]:
t[12] = 888 # modification de la valeurs associée à une clé
t[12] # recherche pour la clé 12

888

In [17]:
t[4] # recherche pour la clé 4

KeyError: 4

In [18]:
t.keys(), list(t.keys())  # l'ensemble des clés

(dict_keys([12, 'a', 'b', 1]), [12, 'a', 'b', 1])

In [19]:
t.values(), list(t.values())  # l'ensemble des valeurs

(dict_values([888, 44, 'bonjour', False]), [888, 44, 'bonjour', False])

In [20]:
list(t.items())  # l'ensemble des couples (clé,valeur)

[(12, 888), ('a', 44), ('b', 'bonjour'), (1, False)]

### Un exemple : le Titanic
Le site [Kaggle](https://www.kaggle.com/broaniki/titanic) fournit des statistiques intéressantes sur les naufragés du Titanic.

In [21]:
import csv
reader = csv.DictReader(open('titanic.csv', 'r'))
titanic = []
for row in reader:
    titanic.append(dict(row))

In [22]:
len(titanic)

891

In [23]:
titanic[222]

{'PassengerId': '223',
 'Survived': '0',
 'Pclass': '3',
 'Name': 'Green, Mr. George Henry',
 'Sex': 'male',
 'Age': '51',
 'SibSp': '0',
 'Parch': '0',
 'Ticket': '21440',
 'Fare': '8.05',
 'Cabin': '',
 'Embarked': 'S'}

In [24]:
tab = [[p for p in titanic if p['Pclass'] == str(c)]
       for c in range(1, 4)]  # tableau par classe
n1, n2, n3 = len(tab[0]), len(tab[1]), len(tab[2])
s1 = len(
    [p for p in tab[0] if p['Survived'] == '1'])  # survivants de 1re classe
s2 = len(
    [p for p in tab[1] if p['Survived'] == '1'])  # survivants de 2e classe
s3 = len(
    [p for p in tab[2] if p['Survived'] == '1'])  # survivants de 3e classe
n1, n2, n3  # les effectifs, pour chaque classe

(216, 184, 491)

In [25]:
s1, s2, s3  # les survivants, pour chaque classe

(136, 87, 119)

In [26]:
s1 / n1, s2 / n2, s3 / n3  # les chances de survie, pour chaque classe

(0.6296296296296297, 0.47282608695652173, 0.24236252545824846)

## Piles et files

### Piles

Une pile est une structure de données sur laquelle on peut effectuer un jeu restreint d'opérations :
- creerPileVide qui crée une pile vide ;
- testeVide qui indique si la pile est vide ou non ;
- pop qui dépile un élément ;
- push qui empile un élément.

La sémantique est LIFO _last in, first out_, ce qui signifie que c'est toujours l'élément empilé le plus récemment qu'on dépile en premier.

On peut représenter cela de façon axiomatique :
- testeVide renvoie Faux après un push sur la pile ;
- un push suivi d'un pop renvoie la pile dans l'état de départ.

Bien sûr, un appel de pop sur une pile vide déclenche une erreur.

Le plus simple et le plus naturel pour créer une pile en Python est d'utiliser un "tableau" de Python. Même si utiliser les méthodes `append` et `pop` sur ces tableaux peut être vu comme de la triche.

In [27]:
class Pile:
    p = []

    def testeVide(self):
        return len(self.p) == 0

    def __init__(self):
        self.p = []

    def push(self, x):
        self.p.append(x)

    def pop(self):
        return self.p.pop()

In [28]:
P = Pile()

In [29]:
P.testeVide()

True

In [30]:
P.push(10)
P.push(44)
P.push(35)
P.pop()  # c'est 35 qui va disparaître de la pile
P.push(21)
P.pop(), P.pop()

(21, 44)

## Files
Une file est une structure analogue à celle de pile, avec le même type d'opérations :
- creerFileVide ;
- testeVide ;
- enfiler un élément ;
- defiler un élément.

Mais la sémantique est complètement différente, c'est celle de la file d'attente _first in, first out_, c'est-à-dire que c'est l'élément enfilé il y a le plus longtemps qui a priorité pour être défilé. On parle de sémantique FIFO.

Comme pour les piles, on peut commencer par proposer une implémentation en Python à l'aide d'un "tableau".

In [31]:
class File:
    p = []

    def testeVide(self):
        return len(self.p) == 0

    def __init__(self):
        self.p = []

    def enfiler(self, x):
        self.p.append(x)

    def defiler(self):
        return self.p.pop(0)

In [32]:
F = File()
F.testeVide()

True

In [33]:
F.enfiler(10)
F.enfiler(44)
F.enfiler(35)
F.defiler() # c'est 10 qui va disparaître de la file
F.enfiler(21)
F.defiler(),F.defiler()

(44, 35)

Il existe une autre façon amusante d'implémenter une file, à l'aide de deux piles $A$ et $B$.

Quand on ajoute un élément à la file, on l'empile dans la pile $A$.

Quand on supprimer un élément de la file, on le dépile de la pile $B$. Si la pile $B$ est vide, on y déverse d'abord toute la pile $A$ (à l'aide des seules opérations autorisées : `pop` sur $A$ et `push` sur $B$).

On vérifiera que la sémantique FIFO est bien respectée !

In [34]:
class File:
    def __init__(self):
        self.A = Pile()
        self.B = Pile()

    def testeVide(self):
        self.A.testeVide() and self.B.testeVide()

    def enfiler(self, x):
        self.A.push(x)

    def defiler(self):
        if not self.B.testeVide():
            return self.B.pop()
        else:  # le return précédent pourrait nous dispenser d'écrire else
            while not self.A.testeVide():
                self.B.push(self.A.pop())
            return self.B.pop()

In [35]:
F = File()
F.enfiler(10)
F.enfiler(44)
F.enfiler(35)
F.defiler()  # c'est 10 qui va disparaître de la file
F.enfiler(21)
F.defiler(), F.defiler()

(44, 35)

Question : que contiennent les piles $A$ et $B$ à la fin de l'exécution précédente ?

On remarque que pour l'utilisateur, ce qui compte est que la sémantique est correcte. Les détails de l'implémentation sont indifférents. L'utilisateur ne peut pas deviner comment est gérée la file.

## Les listes-tableaux-dynamiques de Python
Un gros problème avec Python, c'est que sa documentation officielle appelle liste des objets qui ne sont à proprement parler ni des listes, ni des tableaux.

Ce ne sont pas des listes, car on a un accès direct par indice dans la collection.

Ce ne sont pas des tableaux au sens habituel, car on peut mélanger les types et car la taille n'est pas fixée.

_Remarque : d'un point de vue pédagogique, il vaut mieux éviter de mélanger les types._

C'est agréable parce que c'est souple, mais c'est embêtant quand on veut parler avec rigueur de structures de données.

In [36]:
t = ['a', 12, 'b', False] # on peut mélanger les types

In [37]:
t[2] # on a un accès direct par indice

'b'

In [38]:
t[0] = 5 # ce sont des structures mutables

In [39]:
t

[5, 12, 'b', False]

In [40]:
t.append(14)
t.append(['a', 'b', 'c'])
t.append(99)
t

[5, 12, 'b', False, 14, ['a', 'b', 'c'], 99]

Une difficulté importante est relative aux complexités des opérations qu'on effectue sur ces objets _(comment les nommer ? des listes-tableaux-dynamiques ?)_ : on peut penser que chaque opération est de coût unitaire.

Mais c'est complètement faux.

Le [site WikiPython](https://wiki.python.org/moin/TimeComplexity) fournit la complexité de la plupart des opérations courantes. _Average Case_ réfère au coût moyen, _Amortized Worst Case_ au coût le pire amorti.

Qu'est-ce que cela ?

Les "tableaux" de Python réservent une taille puissance de 2. Par exemple `t = list(range(100))` réservera de la place pour 256 éléments. On peut donc réaliser l'instruction `t.append(random.random())` 156 fois sans problème (je veux dire avec un coût unitaire), mais si j'essaie une fois de plus, Python va réserver de la place pour 512 éléments, ce qui peut coûter cher : il faudra en effet éventuellement recopier les 256 premiers éléments dans une nouvelle zone mémoire, la zone actuellement occupée n'étant pas de taille suffisante. Le coût amorti consiste en la moyenne du coût sur une _histoire longue_ du "tableau".

_Attention : c'est une vision simplifiée de ce qui se passe._

Et dès qu'on effectue des _slices_ (en utilisant `:`), la situation devient carrément plus compliquée.

In [41]:
t = list(range(100))

In [42]:
t2 = t[20:30]  # en fait, c'est un tout nouveau tableau, qu'il a fallu réserver
# et où il a fallu recopier les valeurs
t2

[20, 21, 22, 23, 24, 25, 26, 27, 28, 29]

In [43]:
t2[4] = 999 # on modifie le nouveau "tableau" mais pas l'ancien
t2

[20, 21, 22, 23, 999, 25, 26, 27, 28, 29]

In [44]:
t[20:30]  # non modifié

[20, 21, 22, 23, 24, 25, 26, 27, 28, 29]

### insertion dans une liste triée
Considérons le problème classique d'insertion d'un entier $x$ dans un "tableau" $t$ de taille $n$ qu'on suppose déjà trié en ordre croissant : c'est une première étape pour le tri insertion. Pour simplifier, on va supposer que $x$ ne figure pas encore dans $t$ et que les éléments de $t$ sont deux à deux distincts.

Une version utilisant les _slides_ peut être la première idée d'un élève. 

In [45]:
def insertion(x, t):
    petits = [a for a in t if a < x]
    grands = [a for a in t if a > x]
    return petits + [x] + grands


insertion(8, [1, 4, 6, 11, 13])

[1, 4, 6, 8, 11, 13]

Ça marche, dirait-on.

Mais :
- on n'a pas travaillé _en place_ : le "tableau" `t`n'a pas été modifié, on renvoie un nouveau "tableau" ;
- chaque création de `petits` ou de `grands` coûte $O(n)$ ;
- l'évaluation de `petits + [x]` est d'un coût imprévisible (dépasse-t-on la taille allouée à `petits` ?) ;
- comment s'exécute la concaténation de deux "tableaux" `t1` et `t2`? Combien cela coûte-t-il ?

Pour maîtriser (à peu près) le calcul de complexité, on écrira plutôt (mais c'est plus difficile à comprendre) :

In [46]:
def insertion(x, t):
    t.append(x)  # j'insère x en fin du "tableau", puis je le range à sa place
    i = len(t) - 1
    while i > 0 and t[i - 1] > x:
        t[i], t[i - 1] = t[i - 1], x
        i = i - 1
    return t  # inutile puisqu'on modifie t en place, mais pas gênant


insertion(8, [1, 4, 6, 11, 13])

[1, 4, 6, 8, 11, 13]

In [47]:
t = [1, 4, 6, 8, 11, 13]
insertion(0, t)
insertion(15, t)
t

[0, 1, 4, 6, 8, 11, 13, 15]

Cette fois, on a bien travaillé _en place_, et on maîtrise davantage la complexité, en tout cas pour la boucle.

## Les listes, les vraies

La structure de données abstraite « liste » est définie par l'ensemble $E$ des valeurs qu'elle peut contenir. Notons $L(E)$ l'ensemble des listes sur $E$ y compris la liste vide, qu'on notera ici (pour l'instant) $\emptyset$.

On dispose des opérations suivantes : 
- $cons:E\times L(E)\rightarrow L(E)$ qui __cons__truit une liste en adjoignant une nouvelle tête de liste à une liste déjà construite ;
- $car:L(E)\rightarrow E$ qui associe à une liste sa tête ;
- $cdr:L(E)\rightarrow L(E)$ qui associe à une liste sa queue, c'est-à-dire la liste privée de sa tête:
- $estVide:L(E)\rightarrow\{\textrm{Vrai},\textrm{Faux}\}$ qui dit si une liste est vide ou non.

Les deux fonctions $car$ et $cdr$ ne sont pas définies sur $\emptyset$ (elles pourront déclencher une erreur).

Les noms $cons$, $car$ et $cdr$ sont historiques, ils datent de l'apparition de [Lisp](https://fr.wikipedia.org/wiki/Lisp), voir aussi [ici](https://en.wikipedia.org/wiki/CAR_and_CDR).

Sans faire de la programmation objet avancée (en particulier, le programme NSI exclut les concepts d'héritage et de polymorphisme), le vocabulaire objet se prête bien à la description formelle d'une structure de données abstraites, les méthodes de la classe listant les opérations autorisées.

In [48]:
class List:
    ...
    
    def car(self):
        ...
    
    def cdr(self):
        ...
        
    def estVide(self):
        ...

def cons(tete,queue):
    ...

On peut aller plus loin dans une description formelle de la _sémantique_ de la structure de données, en énonçant des axiomes tels que : 
- $car(cons(t,q))\equiv t$, 
- $cdr(cons(t,q))\equiv q$, 
- $estVide(cons(t,q))\equiv \textrm{Faux}$.

Cette axiomatisation n'est toutefois pas un attendu du programme, et une explication en français courant, voire le simple usage des mots _tête_ et _queue_ peut suffire à faire comprendre la sémantique.

On retiendra en particulier que pour calculer la longueur d'une liste, il n'y a pas d'autre moyen que de la parcourir en entier.

In [49]:
def longueur(L):
    n = 0
    while not(L.estVide()):
        n = n+1
        L = L.cdr()
    return n

De même, pas besoin de connaître la structure concrète, c'est-à-dire l'implémentation de la classe `List`, pour écrire la recherche d'un élément dans une liste.

In [50]:
def recherche(x, L):
    while not (L.estVide()) and not (x == L.car()):
        L = L.cdr()
    return not (L.estVide())

_Remarque_ : il est intéressant de prouver la correction de cette fonction.

Passons à une implémentation possible de cette structure, en écrivant une classe Python.

In [51]:
class List:
    def __init__(self, car, cdr=None):
        self.carValue = car
        self.cdrValue = cdr

    def __str__(self):
        return str(self.carValue) + ',' + str(self.cdrValue)

    def car(self):
        return self.carValue

    def cdr(self):
        return self.cdrValue

    def estVide(self):
        return self == None


def cons(tete, queue):
    return List(tete, queue)

def longueur(L):
    n = 0
    while not(L.estVide()):
        n = n+1
        L = L.cdr()
    return n

In [52]:
L = None
L = cons(22,L)
L = cons(12,L)
L = cons(33,L)
str(L)

'33,12,22,None'

In [53]:
longueur(L)

AttributeError: 'NoneType' object has no attribute 'estVide'

On est confronté au problème : `None` n'a pas de méthode `estVide`.

In [54]:
def longueur(L):
    n = 0
    while L != None:
        n = n + 1
        L = L.cdr()
    return n


def recherche(x, L):
    while L != None and not (x == L.car()):
        L = L.cdr()
    return L != None

In [55]:
longueur(L)

3

In [56]:
recherche(5,L),recherche(22,L)

(False, True)

Une autre implémentation est possible, via les "listes" de Python, bien sûr. Mais il y en a bien d'autres !

## Bibliographie

[Types de données et algorithmes – Christine Froidevaux, Marie-Claude Gaudel et Michèle Soria](https://www.lri.fr/~mcg/PDF/FroidevauxGaudelSoria.pdf)

[Algorithms, 4th Edition – 
Robert Sedgewick](https://algs4.cs.princeton.edu/home/)

[Algorithmique
Types de données abstraits – Florent Hivert, Univ. Paris Sud](https://www.lri.fr/~hivert/COURS/CFA-L3/05-TDA.pdf)

[Algorithmique
Cristina Sirangelo, ENS-Cachan](http://www.dptinfo.ens-cachan.fr/Agregation/Algo13-14/structures.pdf)