# Manipuler des structures de données

Dans cette partie, nous allons apprendre à manipuler différentes structures (listes, tuples, dictionnaires) afin d’obtenir au final des données facilement exploitables.

Reprenons tout d’abord les données du fichier *notes.csv* que nous sauvegardons dans une variable `data` :

In [None]:
# Import du module CSV
import csv

# Chargement de la ressource dans une variable 'fichier'
with open('notes.csv') as fichier:

    # Création d'un lecteur de fichier
    lecteur = csv.DictReader(fichier, delimiter='\t')

    # Sauvegarde des lignes du fichier
    data = [ ligne for ligne in lecteur ]

Si l’on observe les cinq premières lignes du fichier, on remarque facilement qu’elles ne respectent aucun critère de tri :

In [None]:
# Appel de l'itérateur sur "data"
for enregistrement in data[:5]:
    print(enregistrement)

Autre remarque, plusieurs notes ont été attribuées le même jour :

In [None]:
# Un ensemble de dates (vide)
dates = set()

# Appel de l'itérateur sur "data"
for d in data:
    # Ajout de la date de l'enregistrement analysé
    # dans l'ensemble des dates
    dates.add(d['date'])

# Affichage du nombre de dates dans l'ensemble des dates
print(len(dates))

Attardons-nous un peu sur cette nouvelle structure de données : l’ensemble. Sans entrer dans les détails, un ensemble fonctionne comme une liste, à l’exception près que toutes ses valeurs sont uniques (et que l’on peut réaliser dessus des opérations ensemblistes, mais ça c’est une autre histoire…).

En conséquence, lorsque l’on met à jour la variable `dates` avec la date d’un enregistrement, Python vérifie d’abord qu’elle ne figure pas déjà dans l’ensemble. Ce comportement explique le fait que la cardinalité (taille) de `dates` soit seulement de 88 quand celle de `data` est de 100.

À présent, effectue les mêmes opérations pour obtenir la cardinalité d’une variable `discipline` :

In [None]:
# Un ensemble de disciplines (vide)

# Appel de l'itérateur sur "data"

    # Ajout de la discipine de l'enregistrement analysé
    # dans l'ensemble des disciplines


# Affichage du nombre de disciplines dans l'ensemble des disciplines


Ces deux remarques faites, nous allons organiser différemment nos enregistrements de telle manière à obtenir des données :
1. regroupées par discipline ;
2. triées par ordre chronologique.

En Python, ça donnerait une structure sous la forme :

```py
{
    'Français': [
        ('2020-09-26', '13'),
        ('2020-12-13', '7'),
        ('2020-12-25', '6')
    ],
    'Sport': [
        ('2021-01-06', '14'),
        ('2021-01-19', '10')
    ]
}
```

## Regroupement par clés

La première étape consiste à regrouper les enregistrements par date. Comme nous l’avons vu, plusieurs notes peuvent avoir été attribuées le même jour.

Avant d’opérer sur la variable `data`, voyons comment réaliser la même opération sur d’autres données. Ci-dessous une liste de dictionnaires de plusieurs personnages de la série *Game of Thrones* et de leurs maisons d’appartenance :

In [None]:
GoT = [
    { 'maison': 'Lannister', 'personnage': 'Jaime', 'sexe': 'H' },
    { 'maison': 'Stark', 'personnage': 'Arya', 'sexe': 'F' },
    { 'maison': 'Targaryen', 'personnage': 'Daenerys', 'sexe': 'F' },
    { 'maison': 'Targaryen', 'personnage': 'Rhaegar', 'sexe': 'H' },
    { 'maison': 'Lannister', 'personnage': 'Cersei', 'sexe': 'F' },
]

L’objectif est de regrouper par maison les différents personnages de la variable `GoT`. Pour cela, nous allons appeler une structure de données particulière appelée `defaultdict` du module `collections` :

In [None]:
# Import de la structure "defaultdict"
from collections import defaultdict

# Une liste avec regroupement par clés
GoT_dict = defaultdict(list)

# Appel de l'itérateur embarqué dans "GoT"
for d in GoT:
    # Mise à jour de "GoT_dict":
    # pour chaque clé "d['maison']"
    # on ajoute un tuple dans lequel on trouve :
    # "d['personnage']" et "d['sexe']"
    GoT_dict[d['maison']].append(
        (d['personnage'], d['sexe'])
    )

À noter que la méthode `append()` est native des structures de données de type `list`. Elle permet d’ajouter un élément à la suite des autres.

Jetons un œil à l’objet généré par le programme :

In [None]:
print(GoT_dict)

Les maisons Lannister et Targaryen sont toutes deux constituées de deux personnages quand un seul compose la maison Stark. Affichons plus simplement le contenu de la variable `GoT_dict` :

In [None]:
# Pour chaque maison et ses personnages dans le dictinnaire
for maison, personnages in GoT_dict.items():

    # On affiche le nom de la maison (clé du dictionnaire)
    print(maison)

    # Pour chaque personnage
    for personnage, sexe in personnages:
        # On affiche son nom et son sexe
        print(f"\t- { personnage } ({ sexe })")

À présent, essaie de créer une structure `data_dict` sur le modèle précédent, avec pour clé la discipline d’un enregistrement et, pour valeurs, un tuple composé de la date et de la note.

In [None]:
# Import de la structure "defaultdict"


# Une liste avec regroupement par clés


# Appel de l'itérateur embarqué dans "data"

    # Mise à jour de "data_dict":
    # pour chaque clé "d['discipline']"
    # on ajoute un tuple dans lequel on trouve :
    # "d['date']" et "d['note']"




## Trier les données

Regardons attentivement l’organisation des notes pour une discipline, les mathématiques :

In [None]:
# Consulter la clé "Mathématiques" du dictionnaire "data_dict"
data_dict['Mathématiques']

Les notes, organisées sous forme de liste de tuples, ne sont pas triées. Regardons avant tout comment trier une liste d’éléments simples :

In [None]:
# Une liste de nombres
liste = [12, 6, 90, 1, 13]

La fonction `sorted()` permet de trier les éléments du plus petit au plus grand, sans modifier la liste initiale :

In [None]:
# Affichage de la liste triée
print(sorted(liste))

# Affichage de la liste originale, intacte
print(liste)

Une autre manière de trier une liste passe par l’invocation d’une méthode `sort()` sur l’objet de type `list`. À ce moment, on parle de tri en place, car la liste originale est modifiée de manière irréversible :

In [None]:
# Tri en place 
liste.sort()
print(liste)

Pour t’entraîner, affiche les personnages de la maison Lannister :

In [None]:
# Consulter la clé "Lannister" du dictionnaire GoT_dict


Les personnages ne sont pas triés par ordre alphabétique ! Essayons de le faire :

In [None]:
# Pour chaque maison et ses personnages dans le dictionnaire
for maison, personnages in GoT_dict.items():
    # Trier les personnages du plus petit au plus grand
    personnages.sort()

# Vérifier la bonne exécution de la commande
GoT_dict['Lannister']

À ton tour de trier les tuples `(date, note)` par ordre croissant de date pour chaque discipline :

In [None]:
# Pour chaque discipline et les dates de ses notes

    # Trier les dates


# Vérifier pour la clé "Mathématiques"
