<h1 style="font-size: 30px; text-align: center">TP - Trier une table de donn√©es</h1>

---

# Introduction

En Python, avec l'op√©rateur `<` (ou `>`, `==`, `<=`, `>=`), il est possible de comparer des nombres

In [None]:
5 < 10

In [None]:
3 < 1

ou des cha√Ænes de caract√®res (c'est l'ordre alphab√©tique qui est alors utilis√©)

In [None]:
'Arthur' < 'B√©r√©nice'

In [None]:
'Ga√´lle' < 'Boris'

Le fait de pouvoir comparer ce type d'√©l√©ments permet de les trier. On va s'int√©resser dans ce TP √† trier les donn√©es d'une table de donn√©es.

Lorsque des donn√©es sont regroup√©es dans une table, il peut √™tre int√©ressant de pouvoir la trier. Par exemple, on peut vouloir afficher la liste de tous les √©l√®ves par ordre alphab√©tique ou bien encore trier les √©l√®ves selon leur date de naissance, selon la note obtenue √† un contr√¥le...

Reprenons notre exemple avec les √©l√®ves de la classe :

Voici un exemple de table avec des informations sur des √©l√®ves :

| **pr√©nom** | **jour** | **mois** | **ann√©e** | **sexe** | **groupe** | **projet** |
| --- | --- | --- | --- | --- | --- | --- |
| Loona | 29 | 11 | 2005 | F | 1 | √™tre heureuse |
| Quentin | 28 | 5 | 2005 | G | 2 | manger une glace |
| Sania | 30 | 7 | 2005 | F | 1 | gagner au loto |
| Yanis | 14 | 4 | 2005 | G | 1 | devenir quelqu‚Äôun de c√©l√®bre |
| ... | 

On rappelle que les donn√©es de ce fichier CSV peuvent √™tre m√©moris√©es dans un tableau de dictionnaires appel√© `eleves` comme suit :

In [None]:
import csv
fichier = open('eleves.csv', 'r', encoding = 'UTF-8')
t = csv.DictReader(fichier, delimiter=',')  # le caract√®re de s√©paration est la virgule
eleves = [dict(ligne) for ligne in t]  # cr√©ation et construction du tableau par compr√©hension
fichier.close()
eleves  # pour voir le contenu du tableau 'eleves'

# Utilisation des algorithmes de tri par s√©lection ou par insertion

Les algorithmes de tri par s√©lection ou de tri par insertion que nous avons √©crits permettent de trier des tableaux d'entiers. On rappelle par exemple l'algorithme de tri par insertion ci-dessous : 

In [None]:
def tri_insertion(T):
    for i in range(1,len(T)):
        x = T[i]
        j = i
        while j > 0 and x < T[j-1]:
            T[j] = T[j-1]
            j = j - 1
        T[j] = x

Si on essaie de trier notre tableau `eleves` avec cette fonction, comme les √©l√©ments du tableau `eleves` sont des dictionnaires, il va y avoir un probl√®me car √† la ligne 5 puisque `x` et `T[j-1]` sont des dictionnaires et alors la comparaison `x < T[j-1]` n'aura pas de sens (que veut dire "un dictionnaire est inf√©rieur √† un autre dictionnaire" ? cela n'a aucun sens !). On peut essayer :

In [None]:
tri_insertion(eleves)

On ne peut donc pas comparer directement deux dictionnaires, il faut d√©finir selon quel crit√®re on veut faire le tri. 

Par exemple, si on souhaite trier les √©l√®ves par ordre alphab√©tique, il faudrait adapter notre algorithme pour comparer les pr√©noms des √©l√®ves. On √©crirait alors :

In [None]:
def tri_insertion_alphabetique(T):
    for i in range(1,len(T)):
        x = T[i]
        j = i
        while j > 0 and x['pr√©nom'] < T[j-1]['pr√©nom']:  # MODIFICATION DE LA COMPARAISON
            T[j] = T[j-1]
            j = j - 1
        T[j] = x

On peut v√©rifier que cela permet bien de trier la table par ordre alphab√©tique des pr√©noms :

In [None]:
tri_insertion_alphabetique(eleves)
eleves  # pour voir si le tableau a bien √©t√© tri√©

Cette fa√ßon de faire poss√®de le d√©savantage de devoir modifier l'algorithme de tri, et de le r√©√©crire √† chaque fois que l'on veut trier selon un autre ordre (crit√®re). De plus, on a vu que ces algorithmes de tri par insertion ou par s√©lection ne sont pas efficaces d√®s lors que le nombre d'√©l√©ments √† trier est trop grand. 

C'est pour cela, que nous allons uniquement utiliser les fonctions de tri offertes par Python, qui sont efficaces et ne n√©cessitent pas d'adapter l'algorithme.

# Fonctions de tri offertes par Python (rappels et compl√©ments)

Python offre deux fonctions permettant d'effectuer des op√©rations de tri.

## La fonction `sorted` 

Celle-ci prend en argument un tableau et **renvoie un *nouveau* tableau**, tri√©, contenant les m√™mes √©l√©ments.

In [None]:
t = [12, 5, 3, 6, 8, 10]
sorted(t)  # renvoie un NOUVEAU tableau

On peut voir que le tableau `t` de d√©part n'a pas √©t√© modifi√© :

In [None]:
t

Cette fonction permet aussi de trier des cha√Ænes de caract√®res, en utilisant l'odre alphab√©tique.

In [None]:
sorted(["poire", "pomme", "cerise", 'kiwi'])

## La fonction `sort` 
Celle-ci s'applique √† un tableau, **ne renvoie rien, mais *modifie* le tableau d'origine**.

In [None]:
t = [12, 5, 3, 6, 8, 10]
t.sort()  # ne renvoie rien

On peut voir que le tableau `t` de d√©part a √©t√© modifi√© :

In [None]:
t

On peut aussi trier directement un tableau de cha√Ænes de caract√®res avec `sort`.

In [None]:
fruits = ["poire", "pomme", "cerise", 'kiwi']
fruits.sort()
fruits

‚úçÔ∏è **Question 1** : Que vaut le tableau `t` apr√®s l'ex√©cution des instructions suivantes ? *(V√©rifiez ensuite en √©crivant et en ex√©cutant ces instructions dans une nouvelle cellule)*.

```python
t = [4, 5, 1, 3, 7]
t.sort()
t[0] = 2
```

In [None]:
# pour v√©rifier


‚úçÔ∏è **Question 2** : Que valent les tableaux `t` et `t1` apr√®s l'ex√©cution des instructions suivantes ? *(V√©rifiez ensuite en √©crivant et en ex√©cutant ces instructions dans une nouvelle cellule)*.

```python
t = ['Ad√®le', 'Zo√©', 'Hugo', 'Cl√©ment']
t1 = sorted(t)
t1[0] = 'Arnaud'
```

In [None]:
# pour v√©rifier


‚úçÔ∏è **Question 3**: Quel est le contenu du tableau `tab` √† l'issue des instructions suivantes ? *(V√©rifiez ensuite en √©crivant et en ex√©cutant ces instructions dans une nouvelle cellule)*.

```python
tab = ['2', '1', '3', '12', '10', '5']
tab.sort()
```

In [None]:
# pour v√©rifier


## Ordre lexicographique

Il est possible de trier des donn√©es selon plusieurs crit√®res. Ainsi, lorsque l'on trie selon un premier crit√®re puis, √† valeurs √©gales, selon un second crit√®re, on appelle cela un *ordre lexicographique*.

In [None]:
(2, 3) < (2, 8)  # les deux premiers √©l√©ments sont √©gaux donc le tri se fait sur les seconds √©l√©ments

In [None]:
(2, 3) < (2, 1)  # les deux premiers √©l√©ments sont √©gaux donc le tri se fait sur les seconds √©l√©ments

In [None]:
(1, 5) < (2, 3)  # les deux premiers √©l√©ments ne sont pas √©gaux donc le tri se fait directement sur les premiers √©l√©ments

Les fonctions `sorted` et `sort` utilisent cet ordre lexicographique pour trier un tableau.

In [None]:
sorted([(2, 3), (1, 5), (2, 8), (2, 1)])

‚úçÔ∏è **Question 4 :** Que renvoie l'expression suivante ? *(V√©rifiez ensuite en √©crivant et en ex√©cutant cette instruction dans une nouvelle cellule)*.

```Python
sorted([(1, 3), (1, 2), (2, 4), (2, 1)]) 
```

In [None]:
# pour v√©rifier


‚úçÔ∏è **Question 5 :** Que renvoie l'expression suivante ? *(V√©rifiez ensuite en √©crivant et en ex√©cutant cette instruction dans une nouvelle cellule)*.

```Python
sorted([(1, "poires"), (3, "abricot"), (1, "bananes"), (2, "kiwi")]) 
```

In [None]:
# pour v√©rifier


# Trier des donn√©es en fonction d'une cl√©

On va pouvoir trier une table de donn√©es avec ces deux fonctions `sorted` et `sort`. Revenons √† notre tableau d'√©l√®ves.

In [None]:
import csv
fichier = open('eleves.csv', 'r', encoding = 'UTF-8')
t = csv.DictReader(fichier, delimiter=',')
eleves = [dict(ligne) for ligne in t]  # cr√©ation et construction du tableau par compr√©hension
fichier.close()
eleves  # pour voir le contenu du tableau 'eleves'

Les deux fonctions `sorted` et `sort` sont incapables de comparer deux dictionnaires. En particulier, on ne peut pas appliquer directement ces fonctions √† notre tableau `eleves` :

In [None]:
sorted(eleves)

## Trier selon un crit√®re unique

Pour pouvoir utiliser ces fonctions, il va falloir leur donner en param√®tre ce que l'on appelle une **cl√©** (*key* en anglais). Cette cl√© est en fait une fonction qui prend en param√®tre un dictionnaire repr√©sentant un √©leve et qui renvoie la valeur que l'on souhaite comparer. Attention, les valeurs renvoy√©es doivent n√©cessairement √™tre des √©l√©ments que Python sait comparer (nombres, cha√Ænes de caract√®res, tuples).

Si on veut comparer les pr√©noms des √©l√®ves (pour faire un tri par ordre alphab√©tique des pr√©noms), on peut d√©finir la fonction suivante.

In [None]:
def prenom(eleve):
    """eleve est un dictionnaire poss√©dant une cl√© "pr√©nom"."""
    return eleve["pr√©nom"]

Ensuite, on peut appeler la fonction `sorted` sur le tableau `eleves` en pr√©cisant qu'il faut utiliser la fonction `prenom` √† chaque fois que deux √©l√©ments du tableau doivent √™tre compar√©s. On l'indique en passant le param√®tre `key=prenom` √† la fonction `sorted`.

In [None]:
eleves_ordre_alphabetique = sorted(eleves, key=prenom)
eleves_ordre_alphabetique

Si on veut trier plut√¥t dans l'ordre inverse, c'est-√†-dire du plus grand au plus petit, il faut passer un autre param√®tre √† la fonction `sorted`, √† savoir `reverse=True`.

In [None]:
eleves_ordre_alphabetique_inverse = sorted(eleves, key=prenom, reverse=True)
eleves_ordre_alphabetique_inverse

üíª **Question 6 :** Cr√©er un nouveau tableau `eleves_age_croissant` qui contient les √©l√®ves de la table `eleves` suivant l'ann√©e de naissance des √©l√®ves (par ordre chronologique). *Indication :* ici la cl√© de tri change, il ne faut pas oublier de commencer par d√©finir la nouvelle fonction de tri pour l'utiliser dans la fonction `sorted`.

In [None]:
# √† vous de jouer !


## Trier selon plusieurs crit√®res

Imaginons que l'on souhaite trier les √©l√®ves selon leur ann√©e de naissance, puis, si deux √©l√®ves sont n√©s la m√™me ann√©e, les trier par ordre alphab√©tique.

On peut alors utiliser le fait que la fonction `sorted` r√©alise l'ordre lexicographique. Il suffit de d√©finir la fonction de tri suivante.

In [None]:
def annee_puis_prenom(eleve):
    return int(eleve["ann√©e"]), eleve["pr√©nom"] # ne pas oublier de convertir l'ann√©e en entier

Cette fonction renvoie pour chaque √©l√®ve `eleve`, la paire (ann√©e, pr√©nom). En utilisant cette cl√©, la fonction `sorted` va utiliser cette fonction pour comparer deux √©l√®ves, en respectant l'ordre lexicographique (d'abord l'ann√©e, puis en cas d'√©galit√© le pr√©nom).

In [None]:
table_a_afficher = sorted(eleves, key=annee_puis_prenom)
table_a_afficher

üíª **Question 7 :** Cr√©er un tableau `eleves_tries_par_date_naissance` qui contient les √©l√®ves de la table `eleves` tri√©s date de naissance (ann√©e/mois/jour) du plus vieux au plus jeune.

In [None]:
# √† vous de jouer !


# Application : les pr√©noms √† Angers en 2021 (BONUS)

Pour illustrer les fonctions de tris, nous allons maintenant travailler sur des donn√©es r√©elles et plus nombreuses : les pr√©noms donn√©s √† Angers en 2021. Le fichier CSV appel√© `prenoms2021.csv` contenant ces donn√©es est situ√© dans le m√™me r√©pertoire que ce Notebook.

> Pour information, ce fichier a √©t√© r√©cup√©r√© (et renomm√©) sur le site d'[Open Data](https://data.angers.fr/pages/home/) de la ville d'Angers ou directement en suivant ce lien plus direct : [https://data.angers.fr/explore/dataset/prenoms-des-enfants-nes-a-angers/export/?refine.annee=2021](https://data.angers.fr/explore/dataset/prenoms-des-enfants-nes-a-angers/export/?refine.annee=2021).

Voici le contenu du d√©but de ce fichier :

| **COLL_NOM** | **COLL_INSEE** | **ENFANT_SEXE** | **ENFANT_PRENOM** | **NOMBRE_OCCURRENCES** | **ANNEE** |
| --- | --- | --- | --- | --- | --- |
| ANGERS | 49007 | F | Louise | 37 | 2021 | 
| ANGERS | 49007 | F | Rose | 31 | 2021 | 
| ANGERS | 49007 | F | Anna | 24 | 2021 | 
| ... | ... | ... | ... | ... | ... | 

> ‚ö†Ô∏è La documentation de ce jeu de donn√©es indique que seuls les pr√©noms donn√©s au moins 4 fois apparaissent.
> ‚ö†Ô∏è Comme beaucoup de donn√©es fran√ßaises, le **caract√®re de s√©paration est le point-virgule** (;) et non la virgule. Il faudra juste l'indiquer pour importer correctement les donn√©es dans le tableau `prenoms2021` comme ci-dessus.


In [None]:
import csv
fichier2021 = open('prenoms2021.csv', 'r', encoding = 'utf8')
t = csv.DictReader(fichier2021, delimiter=';') # ATTENTION : le point-virgule est le caract√®re de s√©paration
prenoms2021 = [dict(ligne) for ligne in t]
fichier2021.close()
prenoms2021

üíª **Question 8** : Cr√©er un nouveau tableau contenant les √©l√©ments de la table `prenoms2021` tri√©s par ordre alphab√©tique.

In [None]:
# √† vous de jouer !


üíª **Question 9** : Cr√©er un nouveau tableau contenant les √©l√©ments de la table `prenoms2021` tri√©s du plus fr√©quent au moins fr√©quent.

In [None]:
# √† vous de jouer !


üíª **Question 10** : Cr√©er un nouveau tableau contenant les √©l√©ments de la table `prenoms2021` tri√©s selon l'ordre (longueur du pr√©nom, nombre_occurrences). C'est-√†-dire qu'√† longueur du pr√©nom √©gale, on trie selon le nombre d'occurrences croissante.

In [None]:
# √† vous de jouer !


üíª **Question 11** : Cr√©ez une nouvelle table `filles2021` qui contient uniquement les lignes de la table `prenoms2021` correspondant aux filles (cf. Chapitre 1 si besoin pour revoir comment on s√©lectionne certaines lignes : [cliquez ici](http://info-mounier.fr/premiere_nsi/traitement_donnees/recherche_dans_une_table.php#S%C3%A9lection-de-lignes)).

In [None]:
# √† vous de jouer !


üíª **Question 12** : Cr√©ez de m√™me une table `garcons2021` contenant les lignes correspondant uniquement aux gar√ßons.

In [None]:
# √† vous de jouer !


üíª **Question 13** : Triez les tables `filles2021` et `gar√ßons2021` par nombre d'occurrences d√©croissant.

In [None]:
# √† vous de jouer !


üíª **Question 14** : √Ä partir de ces deux tables d√©sormais tri√©es (par nombre d'occurrences d√©croissant), construisez deux tables `top10filles` et `top10garcons` qui contiennent respectivement uniquement les 10 pr√©noms f√©minins et masculins les plus donn√©s en 2021 √† Angers.

In [None]:
# √† vous de jouer


üíª **Question 15** : √Ä partir des deux tables `top10filles` et `top10garcons`, construisez deux nouvelles tables contenant uniquement les pr√©noms et nombres d'occurrences des ces deux "Top 10" (on ne veut plus les cl√©s `'COLL_NOM'`, `'COLL_INSEE'`, `'ENFANT_SEXE'` et `'ANNEE'`). (cf. Chapitre 1 si besoin: [cliquez ici](http://info-mounier.fr/premiere_nsi/traitement_donnees/recherche_dans_une_table.php#Projection-sur-une-ou-plusieurs-colonnes)).

In [None]:
# √† vous de jouer !


üíª **Question 16** : Le code ci-dessous utilise la fonction `bar` de la biblioth√®que `matplotlib` pour cr√©er un histogramme. Apr√®s avoir analys√© et compris ce code, √©crivez le programme permettant de cr√©er un histogramme avec le top 10 des pr√©noms f√©minins, puis un histogramme avec le top 10 des pr√©noms masculins.

>Pour les plus curieux, voici un lien vers les [ressources officielles de matplotlib](https://matplotlib.org/stable/index.html) et un autre vers une [documentation en fran√ßais](http://python-simple.com/python-matplotlib/matplotlib-intro.php).

In [None]:
# √† analyser (ne pas h√©siter √† modifier/ajouter des choses pour comprendre)
# MET UN PEU DE TEMPS A LA PREMIERE EXECUTION SUR BASTHON (c'est le temps que la biblioth√®que se charge)

import matplotlib.pyplot as plt
fruits = ['kiwis', 'poires', 'cl√©mentines', 'abricots']
occurrences = [12, 10, 5, 21]
plt.bar(fruits, occurrences, width = 0.9, color = 'blue')
plt.show()

In [None]:
# √† vous de jouer !


**Sources :**
- Documents ressources du DIU EIL, Universit√© de Nantes
- Num√©rique et Sciences Informatiques, 1re, T. BALABONSKI, S. CONCHON, J.-C. FILLIATRE, K. NGUYEN, √©ditions ELLIPSES : [Site du livre](https://www.nsi-premiere.fr/)
- Ressource Eduscol : [Manipulation de tables](https://bit.ly/2BL2lbA)

---
Germain BECKER & S√©bastien POINT, Lyc√©e Mounier, ANGERS ![Licence Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)