<h1 style="font-size: 30px; text-align: center">TP - Trier une table de données</h1>

---

# Introduction

En Python, avec l'opérateur `<` (ou `>`, `==`, `<=`, `>=`), il est possible de comparer des nombres

In [None]:
5 < 10

In [None]:
3 < 1

ou des chaînes de caractères (c'est l'ordre alphabétique qui est alors utilisé)

In [None]:
'Arthur' < 'Bérénice'

In [None]:
'Gaëlle' < 'Boris'

Le fait de pouvoir comparer ce type d'éléments permet de les trier. On va s'intéresser dans ce TP à trier les données d'une table de données.

Lorsque des données sont regroupées dans une table, il peut être intéressant de pouvoir la trier. Par exemple, on peut vouloir afficher la liste de tous les élèves par ordre alphabétique ou bien encore trier les élèves selon leur date de naissance, selon la note obtenue à un contrôle...

Reprenons notre exemple avec les élèves de la classe :

Voici un exemple de table avec des informations sur des élèves :

| **prénom** | **jour** | **mois** | **année** | **sexe** | **groupe** | **projet** |
| --- | --- | --- | --- | --- | --- | --- |
| Loona | 29 | 11 | 2005 | F | 1 | être heureuse |
| Quentin | 28 | 5 | 2005 | G | 2 | manger une glace |
| Sania | 30 | 7 | 2005 | F | 1 | gagner au loto |
| Yanis | 14 | 4 | 2005 | G | 1 | devenir quelqu’un de célèbre |
| ... | 

On rappelle que les données de ce fichier CSV peuvent être mémorisées dans un tableau de dictionnaires appelé `eleves` comme suit :

In [None]:
import csv
fichier = open('eleves.csv', 'r', encoding = 'UTF-8')
t = csv.DictReader(fichier, delimiter=',')  # le caractère de séparation est la virgule
eleves = [dict(ligne) for ligne in t]  # création et construction du tableau par compréhension
fichier.close()
eleves  # pour voir le contenu du tableau 'eleves'

# Utilisation des algorithmes de tri par sélection ou par insertion

Les algorithmes de tri par sélection ou de tri par insertion que nous avons écrits permettent de trier des tableaux d'entiers. On rappelle par exemple l'algorithme de tri par insertion ci-dessous : 

In [None]:
def tri_insertion(T):
    for i in range(1,len(T)):
        x = T[i]
        j = i
        while j > 0 and x < T[j-1]:
            T[j] = T[j-1]
            j = j - 1
        T[j] = x

Si on essaie de trier notre tableau `eleves` avec cette fonction, comme les éléments du tableau `eleves` sont des dictionnaires, il va y avoir un problème car à la ligne 5 puisque `x` et `T[j-1]` sont des dictionnaires et alors la comparaison `x < T[j-1]` n'aura pas de sens (que veut dire "un dictionnaire est inférieur à un autre dictionnaire" ? cela n'a aucun sens !). On peut essayer :

In [None]:
tri_insertion(eleves)

On ne peut donc pas comparer directement deux dictionnaires, il faut définir selon quel critère on veut faire le tri. 

Par exemple, si on souhaite trier les élèves par ordre alphabétique, il faudrait adapter notre algorithme pour comparer les prénoms des élèves. On écrirait alors :

In [None]:
def tri_insertion_alphabetique(T):
    for i in range(1,len(T)):
        x = T[i]
        j = i
        while j > 0 and x['prénom'] < T[j-1]['prénom']:  # MODIFICATION DE LA COMPARAISON
            T[j] = T[j-1]
            j = j - 1
        T[j] = x

On peut vérifier que cela permet bien de trier la table par ordre alphabétique des prénoms :

In [None]:
tri_insertion_alphabetique(eleves)
eleves  # pour voir si le tableau a bien été trié

Cette façon de faire possède le désavantage de devoir modifier l'algorithme de tri, et de le réécrire à chaque fois que l'on veut trier selon un autre ordre (critère). De plus, on a vu que ces algorithmes de tri par insertion ou par sélection ne sont pas efficaces dès lors que le nombre d'éléments à trier est trop grand. 

C'est pour cela, que nous allons uniquement utiliser les fonctions de tri offertes par Python, qui sont efficaces et ne nécessitent pas d'adapter l'algorithme.

# Fonctions de tri offertes par Python (rappels et compléments)

Python offre deux fonctions permettant d'effectuer des opérations de tri.

## La fonction `sorted` 

Celle-ci prend en argument un tableau et **renvoie un *nouveau* tableau**, trié, contenant les mêmes éléments.

In [None]:
t = [12, 5, 3, 6, 8, 10]
sorted(t)  # renvoie un NOUVEAU tableau

On peut voir que le tableau `t` de départ n'a pas été modifié :

In [None]:
t

Cette fonction permet aussi de trier des chaînes de caractères, en utilisant l'odre alphabétique.

In [None]:
sorted(["poire", "pomme", "cerise", 'kiwi'])

## La fonction `sort` 
Celle-ci s'applique à un tableau, **ne renvoie rien, mais *modifie* le tableau d'origine**.

In [None]:
t = [12, 5, 3, 6, 8, 10]
t.sort()  # ne renvoie rien

On peut voir que le tableau `t` de départ a été modifié :

In [None]:
t

On peut aussi trier directement un tableau de chaînes de caractères avec `sort`.

In [None]:
fruits = ["poire", "pomme", "cerise", 'kiwi']
fruits.sort()
fruits

✍️ **Question 1** : Que vaut le tableau `t` après l'exécution des instructions suivantes ? *(Vérifiez ensuite en écrivant et en exécutant ces instructions dans une nouvelle cellule)*.

```python
t = [4, 5, 1, 3, 7]
t.sort()
t[0] = 2
```

In [None]:
# pour vérifier


✍️ **Question 2** : Que valent les tableaux `t` et `t1` après l'exécution des instructions suivantes ? *(Vérifiez ensuite en écrivant et en exécutant ces instructions dans une nouvelle cellule)*.

```python
t = ['Adèle', 'Zoé', 'Hugo', 'Clément']
t1 = sorted(t)
t1[0] = 'Arnaud'
```

In [None]:
# pour vérifier


✍️ **Question 3**: Quel est le contenu du tableau `tab` à l'issue des instructions suivantes ? *(Vérifiez ensuite en écrivant et en exécutant ces instructions dans une nouvelle cellule)*.

```python
tab = ['2', '1', '3', '12', '10', '5']
tab.sort()
```

In [None]:
# pour vérifier


## Ordre lexicographique

Il est possible de trier des données selon plusieurs critères. Ainsi, lorsque l'on trie selon un premier critère puis, à valeurs égales, selon un second critère, on appelle cela un *ordre lexicographique*.

In [None]:
(2, 3) < (2, 8)  # les deux premiers éléments sont égaux donc le tri se fait sur les seconds éléments

In [None]:
(2, 3) < (2, 1)  # les deux premiers éléments sont égaux donc le tri se fait sur les seconds éléments

In [None]:
(1, 5) < (2, 3)  # les deux premiers éléments ne sont pas égaux donc le tri se fait directement sur les premiers éléments

Les fonctions `sorted` et `sort` utilisent cet ordre lexicographique pour trier un tableau.

In [None]:
sorted([(2, 3), (1, 5), (2, 8), (2, 1)])

✍️ **Question 4 :** Que renvoie l'expression suivante ? *(Vérifiez ensuite en écrivant et en exécutant cette instruction dans une nouvelle cellule)*.

```Python
sorted([(1, 3), (1, 2), (2, 4), (2, 1)]) 
```

In [None]:
# pour vérifier


✍️ **Question 5 :** Que renvoie l'expression suivante ? *(Vérifiez ensuite en écrivant et en exécutant cette instruction dans une nouvelle cellule)*.

```Python
sorted([(1, "poires"), (3, "abricot"), (1, "bananes"), (2, "kiwi")]) 
```

In [None]:
# pour vérifier


# Trier des données en fonction d'une clé

On va pouvoir trier une table de données avec ces deux fonctions `sorted` et `sort`. Revenons à notre tableau d'élèves.

In [None]:
import csv
fichier = open('eleves.csv', 'r', encoding = 'UTF-8')
t = csv.DictReader(fichier, delimiter=',')
eleves = [dict(ligne) for ligne in t]  # création et construction du tableau par compréhension
fichier.close()
eleves  # pour voir le contenu du tableau 'eleves'

Les deux fonctions `sorted` et `sort` sont incapables de comparer deux dictionnaires. En particulier, on ne peut pas appliquer directement ces fonctions à notre tableau `eleves` :

In [None]:
sorted(eleves)

## Trier selon un critère unique

Pour pouvoir utiliser ces fonctions, il va falloir leur donner en paramètre ce que l'on appelle une **clé** (*key* en anglais). Cette clé est en fait une fonction qui prend en paramètre un dictionnaire représentant un éleve et qui renvoie la valeur que l'on souhaite comparer. Attention, les valeurs renvoyées doivent nécessairement être des éléments que Python sait comparer (nombres, chaînes de caractères, tuples).

Si on veut comparer les prénoms des élèves (pour faire un tri par ordre alphabétique des prénoms), on peut définir la fonction suivante.

In [None]:
def prenom(eleve):
    """eleve est un dictionnaire possédant une clé "prénom"."""
    return eleve["prénom"]

Ensuite, on peut appeler la fonction `sorted` sur le tableau `eleves` en précisant qu'il faut utiliser la fonction `prenom` à chaque fois que deux éléments du tableau doivent être comparés. On l'indique en passant le paramètre `key=prenom` à la fonction `sorted`.

In [None]:
eleves_ordre_alphabetique = sorted(eleves, key=prenom)
eleves_ordre_alphabetique

Si on veut trier plutôt dans l'ordre inverse, c'est-à-dire du plus grand au plus petit, il faut passer un autre paramètre à la fonction `sorted`, à savoir `reverse=True`.

In [None]:
eleves_ordre_alphabetique_inverse = sorted(eleves, key=prenom, reverse=True)
eleves_ordre_alphabetique_inverse

💻 **Question 6 :** Créer un nouveau tableau `eleves_age_croissant` qui contient les élèves de la table `eleves` suivant l'année de naissance des élèves (par ordre chronologique). *Indication :* ici la clé de tri change, il ne faut pas oublier de commencer par définir la nouvelle fonction de tri pour l'utiliser dans la fonction `sorted`.

In [None]:
# à vous de jouer !


## Trier selon plusieurs critères

Imaginons que l'on souhaite trier les élèves selon leur année de naissance, puis, si deux élèves sont nés la même année, les trier par ordre alphabétique.

On peut alors utiliser le fait que la fonction `sorted` réalise l'ordre lexicographique. Il suffit de définir la fonction de tri suivante.

In [None]:
def annee_puis_prenom(eleve):
    return int(eleve["année"]), eleve["prénom"] # ne pas oublier de convertir l'année en entier

Cette fonction renvoie pour chaque élève `eleve`, la paire (année, prénom). En utilisant cette clé, la fonction `sorted` va utiliser cette fonction pour comparer deux élèves, en respectant l'ordre lexicographique (d'abord l'année, puis en cas d'égalité le prénom).

In [None]:
table_a_afficher = sorted(eleves, key=annee_puis_prenom)
table_a_afficher

💻 **Question 7 :** Créer un tableau `eleves_tries_par_date_naissance` qui contient les élèves de la table `eleves` triés date de naissance (année/mois/jour) du plus vieux au plus jeune.

In [None]:
# à vous de jouer !


# Application : les prénoms à Angers en 2021 (BONUS)

Pour illustrer les fonctions de tris, nous allons maintenant travailler sur des données réelles et plus nombreuses : les prénoms donnés à Angers en 2021. Le fichier CSV appelé `prenoms2021.csv` contenant ces données est situé dans le même répertoire que ce Notebook.

> Pour information, ce fichier a été récupéré (et renommé) sur le site d'[Open Data](https://data.angers.fr/pages/home/) de la ville d'Angers ou directement en suivant ce lien plus direct : [https://data.angers.fr/explore/dataset/prenoms-des-enfants-nes-a-angers/export/?refine.annee=2021](https://data.angers.fr/explore/dataset/prenoms-des-enfants-nes-a-angers/export/?refine.annee=2021).

Voici le contenu du début de ce fichier :

| **COLL_NOM** | **COLL_INSEE** | **ENFANT_SEXE** | **ENFANT_PRENOM** | **NOMBRE_OCCURRENCES** | **ANNEE** |
| --- | --- | --- | --- | --- | --- |
| ANGERS | 49007 | F | Louise | 37 | 2021 | 
| ANGERS | 49007 | F | Rose | 31 | 2021 | 
| ANGERS | 49007 | F | Anna | 24 | 2021 | 
| ... | ... | ... | ... | ... | ... | 

> ⚠️ La documentation de ce jeu de données indique que seuls les prénoms donnés au moins 4 fois apparaissent.
> ⚠️ Comme beaucoup de données françaises, le **caractère de séparation est le point-virgule** (;) et non la virgule. Il faudra juste l'indiquer pour importer correctement les données dans le tableau `prenoms2021` comme ci-dessus.


In [None]:
import csv
fichier2021 = open('prenoms2021.csv', 'r', encoding = 'utf8')
t = csv.DictReader(fichier2021, delimiter=';') # ATTENTION : le point-virgule est le caractère de séparation
prenoms2021 = [dict(ligne) for ligne in t]
fichier2021.close()
prenoms2021

💻 **Question 8** : Créer un nouveau tableau contenant les éléments de la table `prenoms2021` triés par ordre alphabétique.

In [None]:
# à vous de jouer !


💻 **Question 9** : Créer un nouveau tableau contenant les éléments de la table `prenoms2021` triés du plus fréquent au moins fréquent.

In [None]:
# à vous de jouer !


💻 **Question 10** : Créer un nouveau tableau contenant les éléments de la table `prenoms2021` triés selon l'ordre (longueur du prénom, nombre_occurrences). C'est-à-dire qu'à longueur du prénom égale, on trie selon le nombre d'occurrences croissante.

In [None]:
# à vous de jouer !


💻 **Question 11** : Créez une nouvelle table `filles2021` qui contient uniquement les lignes de la table `prenoms2021` correspondant aux filles (cf. Chapitre 1 si besoin pour revoir comment on sélectionne certaines lignes : [cliquez ici](http://info-mounier.fr/premiere_nsi/traitement_donnees/recherche_dans_une_table.php#S%C3%A9lection-de-lignes)).

In [None]:
# à vous de jouer !


💻 **Question 12** : Créez de même une table `garcons2021` contenant les lignes correspondant uniquement aux garçons.

In [None]:
# à vous de jouer !


💻 **Question 13** : Triez les tables `filles2021` et `garçons2021` par nombre d'occurrences décroissant.

In [None]:
# à vous de jouer !


💻 **Question 14** : À partir de ces deux tables désormais triées (par nombre d'occurrences décroissant), construisez deux tables `top10filles` et `top10garcons` qui contiennent respectivement uniquement les 10 prénoms féminins et masculins les plus donnés en 2021 à Angers.

In [None]:
# à vous de jouer


💻 **Question 15** : À partir des deux tables `top10filles` et `top10garcons`, construisez deux nouvelles tables contenant uniquement les prénoms et nombres d'occurrences des ces deux "Top 10" (on ne veut plus les clés `'COLL_NOM'`, `'COLL_INSEE'`, `'ENFANT_SEXE'` et `'ANNEE'`). (cf. Chapitre 1 si besoin: [cliquez ici](http://info-mounier.fr/premiere_nsi/traitement_donnees/recherche_dans_une_table.php#Projection-sur-une-ou-plusieurs-colonnes)).

In [None]:
# à vous de jouer !


💻 **Question 16** : Le code ci-dessous utilise la fonction `bar` de la bibliothèque `matplotlib` pour créer un histogramme. Après avoir analysé et compris ce code, écrivez le programme permettant de créer un histogramme avec le top 10 des prénoms féminins, puis un histogramme avec le top 10 des prénoms masculins.

>Pour les plus curieux, voici un lien vers les [ressources officielles de matplotlib](https://matplotlib.org/stable/index.html) et un autre vers une [documentation en français](http://python-simple.com/python-matplotlib/matplotlib-intro.php).

In [None]:
# à analyser (ne pas hésiter à modifier/ajouter des choses pour comprendre)
# MET UN PEU DE TEMPS A LA PREMIERE EXECUTION SUR BASTHON (c'est le temps que la bibliothèque se charge)

import matplotlib.pyplot as plt
fruits = ['kiwis', 'poires', 'clémentines', 'abricots']
occurrences = [12, 10, 5, 21]
plt.bar(fruits, occurrences, width = 0.9, color = 'blue')
plt.show()

In [None]:
# à vous de jouer !


**Sources :**
- Documents ressources du DIU EIL, Université de Nantes
- Numérique et Sciences Informatiques, 1re, T. BALABONSKI, S. CONCHON, J.-C. FILLIATRE, K. NGUYEN, éditions ELLIPSES : [Site du livre](https://www.nsi-premiere.fr/)
- Ressource Eduscol : [Manipulation de tables](https://bit.ly/2BL2lbA)

---
Germain BECKER & Sébastien POINT, Lycée Mounier, ANGERS ![Licence Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)