<h1 style="font-size: 30px; text-align: center">TP - Trier une table de données</h1>

---

# Introduction

En Python, avec l'opérateur `<` (ou `>`, `==`, `<=`, `>=`), il est possible de comparer des nombres

In [None]:
5 < 10

In [None]:
3 < 1

ou des chaînes de caractères (c'est l'ordre alphabétique qui est alors utilisé)

In [None]:
'Arthur' < 'Bérénice'

In [None]:
'Gaëlle' < 'Boris'

Le fait de pouvoir comparer ce type d'éléments permet de les trier. On va s'intéresser dans ce TP à trier les données d'une table de données.

Lorsque des données sont regroupées dans une table, il peut être intéressant de pouvoir la trier. Par exemple, on peut vouloir afficher la liste de tous les élèves par ordre alphabétique ou bien encore trier les élèves selon leur date de naissance, selon la note obtenue à un contrôle...

Reprenons notre exemple avec les élèves de la classe :

| **prénom** | **jour** | **mois** | **année** | **sexe** | **projet** |
| --- | --- | --- | --- | --- | --- |
| Fathi | 3 | 2 | 2003 | G | être heureux |
| Evan | 19 | 8 | 2004 | G | manger une glace |
| Aline |29 | 10 | 2004 |F | gagner au loto |
| Baptiste | 6 | 12 | 2002 | G | devenir quelqu’un de célèbre|
| Corentin | 8 | 4 | 2004 | G | avoir une bonne note au prochain devoir |
| Estelle | 29 | 3 | 2004 | F | devenir astronaute |
| Elisa | 7 | 1 | 2004 | F | marcher sur la lune |
| Yanis | 17 | 11 | 2004 | G | dormir plus longtemps le matin |
| Leonie | 28 | 10 | 2004 | F | aider les autres |
| Lilian | 26 | 10 | 2004 | G | apprendre à piloter une Formule 1 |
| ... | 

On rappelle que les données de ce fichier CSV peuvent être mémorisées dans un tableau de dictionnaires appelé `eleves` comme suit :

In [None]:
import csv
fichier = open('eleves.csv', 'r', encoding = 'UTF-8')
t = csv.DictReader(fichier, delimiter=',')
eleves = [dict(ligne) for ligne in t] # création et construction du tableau par compréhension
fichier.close()
eleves # pour voir le contenu du tableau 'eleves'

# Utilisation des algorithmes de tri par sélection ou par insertion

Les algorithmes de tri par sélection ou de tri par insertion que nous avons écrits permettent de trier des tableaux d'entiers. On pourrait l'adapter pour trier un tableau de dictionnaires : il suffirait de remplacer l'opérateur de comparaison des entiers (< ou >) par une autre fonction, comparant deux élèves.

Par exemple, si on souhaite trier les élèves par ordre alphabétique, on peut définir une fonction de comparaison comme

In [None]:
def compare_prenom(e1, e2):
    """Compare les prénoms des deux élèves représentés par les dictionnaires e1 et e2.
    Renvoie True si les prénoms de e1 et e2 sont dans l'ordre alphabétique, et False sinon"""
    return e1["prénom"] < e2["prénom"]

In [None]:
compare_prenom(eleves[0],eleves[1]) # Fathi et Evan ne sont pas ordonnés par ordre alphabétique

In [None]:
compare_prenom(eleves[0], eleves[20]) # Fathi et Teddy sont ordonnés par ordre alphabétique

On peut alors utiliser cette fonction de comparaison en adaptant l'algorithme de tri par insertion (il en serait de même pour un tri par sélection).

Pour rappel, voici l'algorithme de tri par insertion d'un tableau d'entiers :

```python
def tri_insertion(T):
    for i in range(1,len(T)):
        x = T[i]
        j = i
        while j > 0 and x < T[j-1]:
            T[j] = T[j-1]
            j = j - 1
        T[j] = x        
```

Et voici comment l'adapter pour trier notre tableau de dictionnaires d'élèves :

In [None]:
def tri_par_insertion(T):
    for i in range(1,len(T)):
        x = T[i]
        j = i
        while j > 0 and compare_prenom(x, T[j-1]):  # modification nécessaire
            T[j] = T[j-1]
            j = j - 1
        T[j] = x

On peut vérifier que cela permet bien de trier la table par ordre alphabétique des prénoms :

In [None]:
tri_par_insertion(eleves)
eleves

Cette façon de faire possède le désavantage de devoir modifier l'algorithme de tri, et de le réécrire à chaque fois que l'on veut trier selon un autre ordre (critère). De plus, on a vu que ces algorithmes de tri par insertion ou par sélection ne sont pas efficaces dès lors que le nombre d'éléments à trier est trop grand. 

C'est pour cela, que nous allons uniquement utiliser les fonctions de tri offertes par Python, qui sont efficaces et ne nécessitent pas d'adapter l'algorithme.

# Fonctions de tri offertes par Python (rappels et compléments)

Python offre deux fonctions permettant d'effectuer des opérations de tri.

## La fonction `sorted` 

Celle-ci prend en argument un tableau et renvoie un *nouveau tableau*, trié, contenant les mêmes éléments.

In [None]:
t = [12, 5, 3, 6, 8, 10]
sorted(t)

In [None]:
t

On voit que `t` n'a pas été modifié.

Cette fonction permet aussi de trier des chaînes de caractères, en utilisant l'odre alphabétique.

In [None]:
sorted(["poire", "pomme", "cerise", 'kiwi'])

## La fonction `sort` 
Celle-ci s'applique à un tableau, ne renvoie rien, mais *modifie* le tableau d'origine.

In [None]:
t.sort()
t

On voit que `t` a été modifié.

On peut aussi trier directement un tableau de chaînes de caractères avec `sort`.

In [None]:
fruits = ["poire", "pomme", "cerise", 'kiwi']
fruits.sort()
fruits

**Question 1** : Que vaut le tableau `t` après l'exécution des instructions suivantes ? *(Vérifiez ensuite en écrivant et en exécutant ces instructions dans une nouvelle cellule)*.

```python
t = [4, 5, 1, 3, 7]
t.sort()
t[0] = 2
```

Réponse :

**Question 2** : Que valent les tableaux `t` et `t1` après l'exécution des instructions suivantes ? *(Vérifiez ensuite en écrivant et en exécutant ces instructions dans une nouvelle cellule)*.

```python
t = ['Adèle', 'Zoé', 'Hugo', 'Clément']
t1 = sorted(t)
t1[0] = 'Arnaud'
```

Réponse :

**Question 3**: Quel est le contenu du tableau `tab` à l'issue des instructions suivantes ? *(Vérifiez ensuite en écrivant et en exécutant ces instructions dans une nouvelle cellule)*.

```python
tab = ['2', '1', '3', '12', '10', '5']
tab.sort()
```

Réponse : 

## Ordre lexicographique

Il est possible de trier des données selon plusieurs critères. Ainsi, lorsque l'on trie selon un premier critère puis, à valeurs égales, selon un second critère, on appelle cela un *ordre lexicographique*.

In [None]:
(2, 3) < (2, 8) # les deux premiers éléments sont égaux donc le tri se fait sur les seconds éléments

In [None]:
(2, 3) < (2, 1) # les deux premiers éléments sont égaux donc le tri se fait sur les seconds éléments

In [None]:
(1, 5) < (2, 3) # les deux premiers éléments ne sont pas égaux donc le tri se fait directement sur les premiers éléments

Les fonctions `sorted` et `sort` utilisent cet ordre lexicographique pour trier un tableau.

In [None]:
sorted([(2, 3), (1, 5), (2, 8), (2, 1)])

**Question 4 :** Que renvoie l'expression suivante ? *(Vérifiez ensuite en écrivant et en exécutant cette instruction dans une nouvelle cellule)*.

```Python
sorted([(1, 3), (1, 2), (2, 4), (2, 1)]) 
```

Réponse : 

**Question 5 :** Que renvoie l'expression suivante ? *(Vérifiez ensuite en écrivant et en exécutant cette instruction dans une nouvelle cellule)*.

```Python
sorted([(1, "poires"), (3, "abricot"), (1, "bananes"), (2, "kiwi")]) 
```

Réponse :

# Trier des données en fonction d'une clé

On va pouvoir trier une table de données avec ces deux fonctions `sorted` et `sort`. Revenons à notre tableau d'élèves.

In [None]:
import csv
fichier = open('eleves.csv', 'r', encoding = 'UTF-8')
t = csv.DictReader(fichier, delimiter=',')
eleves = [dict(ligne) for ligne in t] # création et construction du tableau par compréhension
fichier.close()
eleves # pour voir le contenu du tableau 'eleves'

Les deux fonctions `sorted` et `sort` sont incapables de comparer deux dictionnaires. En particulier, on ne peut pas appliquer directement ces fonctions à notre tableau `eleves` :

In [None]:
sorted(eleves)

## Trier selon un critère unique

Pour pouvoir utiliser ces fonctions, il va falloir leur donner en paramètre ce que l'on appelle une *clé*. Cette clé est en fait une fonction qui prend en paramètre un dictionnaire représentant un éleve et qui renvoie la valeur que l'on souhaite comparer. Cela doit nécessairement être des éléments que Python sait comparer (nombres, chaînes de caractères, tuples).

Si on veut comparer les prénoms des élèves (pour faire un tri par ordre alphabétique des prénoms), on peut définir la fonction suivante.

In [None]:
def prenom(eleve):
    """eleve est un dictionnaire possédant une clé "prénom"."""
    return eleve["prénom"]

Ensuite, on peut appeler la fonction `sorted` sur le tableau `eleves` en précisant qu'il faut utiliser la fonction `prenom` à chaque fois que deux éléments du tableau doivent être comparés. On l'indique en passant `key=prenom` à la fonction `sorted`.

In [None]:
tri_eleves = sorted(eleves, key=prenom)
tri_eleves

Si on veut trier plutôt dans l'ordre inverse, c'est-à-dire du plus grand au plus petit, il faut passer une autre option à la fonction `sorted`, à savoir `reverse=True`.

In [None]:
tri_eleves = sorted(eleves, key=prenom, reverse=True)
tri_eleves

**Question 6 :** Triez la table `eleves` suivant l'année de naissance des élèves. *Indication :* n'oubliez pas de commencer par définir la fonction qui servira de clé de tri à la fonction `sorted`.

In [None]:
# à vous de jouer !


## Trier selon plusieurs critères

Imaginons que l'on souhaite trier les élèves selon leur année de naissance, puis, si deux élèves sont nés la même année, les trier par ordre alphabétique.

On peut alors utiliser le fait que la fonction `sorted` réalise l'ordre lexicographique. Il suffit de définir la fonction de tri suivante.

In [None]:
def annee_puis_prenom(eleve):
    return int(eleve["année"]), eleve["prénom"] # ne pas oublier de convertir l'année en entier

Cette fonction renvoie pour chaque élève `eleve`, la paire (année, prénom). En utilisant cette clé, la fonction `sorted` va utiliser cette fonction pour comparer deux élèves, en respectant l'ordre lexicographique (d'abord l'année, puis en cas d'égalité le prénom).

In [None]:
table_a_afficher = sorted(eleves, key=annee_puis_prenom)
table_a_afficher

**Question 7 :** Triez les élèves de la table `eleves` par date de naissance (année/mois/jour) du plus vieux au plus jeune.

In [None]:
# à vous de jouer !


# Application : les prénoms à Angers en 2020

Pour illustrer les fonctions de tris, nous allons maintenant travailler sur des données réelles et plus nombreuses : les prénoms donnés à Angers en 2020. Il est possible de récupérer ce genre de données sur le site d'[Open Data](https://data.angers.fr/pages/home/) de la ville d'Angers ou directement [ici](https://data.angers.fr/explore/dataset/prenoms-des-enfants-nes-a-angers/export/?refine.annee=2020).

Le fichier CSV appelé `prenoms2020.csv` contenant ces données est situé dans le même répertoire que ce Notebook. Voici le contenu du début de ce fichier :

| **COLL_NOM** | **COLL_INSEE** | **ENFANT_SEXE** | **ENFANT_PRENOM** | **NOMBRE_OCCURRENCES** | **ANNEE** |
| --- | --- | --- | --- | --- | --- |
| ANGERS | 49007 | F | Emma | 26 | 2020 | 
| ANGERS | 49007 | F | Rose | 21 | 2020 | 
| ANGERS | 49007 | F | Albane | 13 | 2020 | 
| ... | ... | ... | ... | ... | ... | 

La documentation de ce jeu de données indique que seuls les prénoms donnés au moins 4 fois apparaissent. 

**Attention** : comme beaucoup de données françaises, le caractère de séparation est le point-virgule (;) et non la virgule. Il faudra juste l'indiquer pour importer correctement les données dans le tableau `prenoms2020` comme ci-dessus.


In [None]:
import csv
fichier2020 = open('prenoms2020.csv', 'r', encoding = 'utf8')
t = csv.DictReader(fichier2020, delimiter=';') # ATTENTION : le point-virgule est le caractère de séparation
prenoms2020 = [dict(ligne) for ligne in t]
fichier2020.close()
prenoms2020

**Question 8** : Triez les prénoms de la table `prenoms2020` par ordre alphabétique.

In [None]:
# à vous de jouer !


**Question 9** : Triez les prénoms de la table `prenoms2020` du plus fréquent au moins fréquent.

In [None]:
# à vous de jouer !


**Question 10** : Triez par ordre alphabétique puis triez le tableau obtenu par nombre d'occurrences décroissant. Que permettent ces 2 tris successifs ?

In [None]:
# à vous de jouer !


**Question 11** : Créez une nouvelle table `filles2020` qui contient uniquement les lignes de la table `prenoms2020` correspondant aux filles (cf. Chapitre 1 si besoin pour revoir comment on sélectionne certaines lignes : [clique ici](http://info-mounier.fr/premiere_nsi/traitement_donnees/recherche_dans_une_table.php#S%C3%A9lection-de-lignes)).

In [None]:
# à vous de jouer !


**Question 12** : Créez de même une table `garcons2020` contenant les lignes correspondant uniquement aux garçons.

In [None]:
# à vous de jouer !


**Question 13** : Triez les tables `filles2020` et `garçons2020` par nombre d'occurrences décroissant.

In [None]:
# à vous de jouer !


**Question 14** : À partir de ces deux tables désormais triées (par nombre d'occurrences décroissant), construisez deux tables `top10filles` et `top10garcons` qui contiennent respectivement uniquement les 10 prénoms féminins et masculins les plus donnés en 2020 à Angers.

In [None]:
# à vous de jouer


**Question 15** : À partir des deux tables `top10filles` et `top10garcons`, construisez deux nouvelles tables contenant uniquement les prénoms et nombres d'occurrences des ces deux "Top 10" (on ne veut plus les clés `'COLL_NOM'`, `'COLL_INSEE'`, `'ENFANT_SEXE'` et `'ANNEE'`). (cf. Chapitre 1 si besoin: [clique ici](http://info-mounier.fr/premiere_nsi/traitement_donnees/recherche_dans_une_table.php#Projection-sur-une-ou-plusieurs-colonnes)).

In [None]:
# à vous de jouer !


**Question 16** : Le code ci-dessous utilise la fonction `bar` de la bibliothèque `matplotlib` pour créer un histogramme. Après avoir analysé et compris ce code, écrivez le programme permettant de créer un histogramme avec le top 10 des prénoms féminins, puis un histogramme avec le top 10 des prénoms masculins.

>Pour les plus curieux, voici un lien vers les [ressources officielles de matplotlib](https://matplotlib.org/stable/index.html) et un autre vers une [documentation en français](http://python-simple.com/python-matplotlib/matplotlib-intro.php).

In [None]:
# à analyser (ne pas hésiter à modifier/ajouter des choses pour comprendre)

import matplotlib.pyplot as plt
fruits = ['kiwis', 'poires', 'clémentines', 'abricots']
occurrences = [12, 10, 5, 21]
plt.bar(fruits, occurrences, width = 0.9, color = 'blue')
plt.show()

In [None]:
# à vous de jouer !


**Sources :**
- Documents ressources du DIU EIL, Université de Nantes
- Numérique et Sciences Informatiques, 1re, T. BALABONSKI, S. CONCHON, J.-C. FILLIATRE, K. NGUYEN, éditions ELLIPSES : [Site du livre](https://www.nsi-premiere.fr/)
- Ressource Eduscol : [Manipulation de tables](https://bit.ly/2BL2lbA)

---
Germain BECKER & Sébastien POINT, Lycée Mounier, ANGERS ![Licence Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)