<img src="Images/Logo.png" alt="Logo NSI" style="float:right">

<h1 style="text-align:center">Chapitre 28 : Tri d'une table</h1>

Lorsque l'on manipule des données en table, il est fréquent de vouloir les trier.  
Si on reprend l'exemple de la table d'[élèves](Donnees/eleves.csv), on peut vouloir, par exemple, afficher la liste de tous les élèves par ordre alphabétique, ou encore trier les élèves selon une note obtenue à un contrôle.

Nous avons écrit des programmes pour trier des tableaux d'entiers, avec le tri pas sélection et le tri par insertion. Nous pourrions adapter ces programmes pour trier un tableau contenant des dictionnaires. Il faut alors, remplacer les comparaisons d'entiers par une autre fonction.    
Si, par exemple, on veut trier les élèves par ordre alphabétique, on peut utiliser la fonction :

In [None]:
def compare_prenom(e1, e2):
    return e1["prenom"] < e2["prénom"]

et l'utiliser à la place de la comparaison dans nos programmes de tri.

Cependant, cette méthode nous oblige à réécrire le programme de tri et ceci à chaque fois que l'ordre change.

Nous allons donc exploiter les fonctions de [tri](https://docs.python.org/fr/3/howto/sorting.html) offertes par le langage Python.

In [None]:
import csv

with open("Donnees/eleves.csv") as fichier:
    table = list(csv.DictReader(fichier, delimiter = ','))
    
def valide(dico):
    prenom = dico["prénom"]
    jour = int(dico["jour"])
    mois = int(dico["mois"])
    annee = int(dico["année"])
    projet = dico["projet"]
    assert mois >= 1 and mois <= 12, "mois invalide dans le fichier CSV"
    return {"prénom" : prenom, "jour" : jour, "mois" : mois, "année" : annee, "projet" : projet}

eleves = [valide(ligne) for ligne in table]
print(eleves[0])

## Trier des données en fonction d'une clé
Python offre des opérations de tri et notamment une fonction [`sorted`](https://docs.python.org/fr/3/library/functions.html#sorted). Celle-ci prend en argument un tableau et en renvoie une version triée, sous la forme d'un **nouveau** tableau.

In [None]:
t = [21, 13, 34, 8]
sorted(t)

On vérifie que le tableau de départ n'a pas été modifié.

In [None]:
print(t)

La fonction a comparé les éléments (qui sont des entiers) avec l'ordre usuel (par défaut, il s'agit du tri par ordre croissant).  
Si on lui passe un tableau contenant des éléments d'un autre type, par exemple, des chaînes de caractères, alors il sera trié pour l'ordre alphabétique.

In [None]:
sorted(["bananes", "pomme", "cassis", "fraise"])

En revanche, si on essaie de trier le tableau contenant nos élèves avec cette fonction :
```python
>>> sorted(eleves)
```
on obtient une erreur :
```python
TypeError: '<' not supported between instances of 'dict' and 'dict'
```
Python ne sait pas comparer deux objets qui sont des dictionnaires.

Pour utiliser la fonction `sorted` sur notre tableau de dictionnaires, il faut indiquer comment se ramener à des valeurs que Python sait comparer (nombres, chaînes de caractères, $n$-uplets). Cela se fait en utilisant le paramètre  [`key`](https://docs.python.org/fr/3/howto/sorting.html#key-functions).

Pour cela, on commence par définir une fonction qui prend en argument un élève et renvoie la valeur que l'on souhaite comparer.  
Par exemple, le prénom :

In [None]:
def prenom(ligne):
    return ligne["prénom"]

Puis, on peut appeler la fonction `sorted` en précisant qu'il faut utiliser la fonction `prenom` chaque fois que deux éléments doivent être comparé. On l'indique en passant `key = prenom` en argument à la fonction `sorted`.

In [None]:
tri_eleves = sorted(eleves, key = prenom)
print(tri_eleves)

Si on veut trier dans l'[ordre inverse](https://docs.python.org/fr/3/howto/sorting.html#ascending-and-descending) (du plus grand au plus petit), il faut passer une autre option à la fonction `sorted`.

In [None]:
tri_eleves = sorted(eleves, key = prenom, reverse = True)
print(tri_eleves)

## Tri lexicographique et stabilité
Supposons que nous venons de trier nos élèves selon la note qu'ils ont obtenus au dernier contrôle, par exemple pour afficher les résultats. Si beaucoup d'élèves se trouvent avoir la même note, il peut être judicieux de trier aussi par ordre alphabétique les élèves qui ont la même note.  
Lorsque l'on trie selon deux critères, d'abord selon le premier puis, à valeur égale, selon le second, on appelle cela un **ordre lexicographique**.

La [comparaison de Python](https://docs.python.org/fr/3/reference/expressions.html?#value-comparisons) a la propriété de réaliser un ordre lexicographique.

In [None]:
(1, 3) < (1, 7)

In [None]:
(1, 7) < (1, 4)

In [None]:
(1, 7) < (2, 4)

On peut donc en tirer parti pour trier selon un critère puis selon un autre.

In [None]:
def note_puis_nom(ligne):
    return ligne["note"], ligne["nom"]
liste_a_afficher = sorted(eleves, key = note_puis_nom)
print(liste_a_afficher)

### Stabilité
Supposons que la liste l'élèves soit déjà triée par ordre alphabétique des prénoms, lorsqu'on la trie en suite selon la note, il suffit que les élèves ayant la même note **restent dans leur position relative**.  
Un tri qui a cette propriété est un **tri stable**.  
Le tri par insertion est stable, tandis que le tri par sélection ne l'est pas.  
La fonction `sorted` fournie par Python réalise un [tri stable](https://docs.python.org/fr/3/howto/sorting.html#sort-stability-and-complex-sorts).  
On peut donc trier, selon les notes, un tableau d'élèves déjà trié par ordre alphabétique pour obtenir le réultat désiré.

De manière plus générale, on peut appliquer successivement plusieurs tris stables à une table, selon différents critères, et obtenir ainsi un ordre lexicographique. Il faut alors prendre soin de faire les tris **dans l'ordre inverse de priorité**. Dans notre exemple, il faut trier d'abord par nom, puis par note.

## Trier en place
Python fournit également la méthode *tableau*.[`sort()`](https://docs.python.org/fr/3/library/stdtypes.html#list.sort) pour trier des données.  
A la différence de `sorted`, on n'obtient pas un nouveau tableau ; le tableau est **modifié**, pour se retrouver trié. Il s'agit d'un **tri en place**.  
On économise ainsi de la mémoire.  
Les tris par sélection et par insertion sont des tris en place.

La méthode `sort` accepte les mêmes option `key` et `reverse` que la fonction `sorted`.

In [None]:
eleves.sort(key = prenom)

Dans ce cas, il n'y a pas de résultat à stocker dans une variable. Le contenu du tableau a été modifié.

In [None]:
print(eleves)

Comme pour `sorted`, la méthode `sort` garantit un tri stable.

## Application : recherche des plus proches voisins
L'algorithme des plus proches voisins travaille à partir d'une table de données et nécessite de déterminer les $k$ lignes *les plus proches* du point chercher.  
Une manière d'isoler les $k$ plus proches voisins consiste à trier l'intégralité de la table par ordre de proximité avec le point cherché, pour ensuite prendre les $k$ premières lignes.  

Supposons que l'on considère une table de données `tab` dont chaque ligne désigne un point avec des coordonnées (attributs `'x'` et `'y'`) et une classe ou une valeur (attribut `"valeur"`), et que l'on essaie d'estimer la classe ou valeur associée à un point A dont les coordonnées sont données par l'utilisateur. 
```python
x = float(input("abscisse de A : "))
y = float(input("ordonnée de A : "))
```
On peut alors définir une fonction `distance_de_A` qui prend en paramètre une ligne de la table et renvoie la distance entre le point décrit par cette ligne et A.
```python
def distance_de_A(point):
    return math.sqrt((point['x'] - x) ** 2 + (point['y'] - y) ** 2)
```
Il ne reste alors plus qu'à trier la table avec comme clé de tri le fonction `distance_de_A`.
```python
tri_tab = sorted(tab, key = distance_de_A)
```
On obtient ainsi une table `tri_tab` avec les mêmes lignes que `tab`, mais triés par ordre de proximité au point A.  
On peut alors en sélectionner les $k$ premières lignes.
```python
plus_proche = [tri_tab[i] for i in range(k)]
```
Et enfin on pourra déterminer la moyenne ou la majorité des valeurs de ces lignes pour classer le point A.

#### Efficacité
Il faut, dans ce cas, trier l'intégralité de la table pour n'en garder que les quelques premiers éléments.  
Pour une meilleure efficacité, on peut utiliser les propriétés de certains tris.  
Par exemple, le tri par sélection déplace les éléments à leur place définitive, donc on peut arrêter dès que les $k$ premiers éléments sont en place. D'autres tris ne conserve jamais plus de $k$ éléments triés.

## Utilisation de la bibliothèque [pandas](https://pandas.pydata.org/)

### Lecture et importation du fichier CSV

In [None]:
import pandas

pays = pandas.read_csv("Donnees/countries.csv", delimiter = ';', keep_default_na = False)
villes = pandas.read_csv("Donnees/cities.csv", delimiter = ';')

### Opérations de tri
Les méthodes [`nlargerst`](https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.nlargest.html) et [`nsmallest`](https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.nsmallest.html) permettent de déterminer les plus grands et plus petits éléments selon un critère donné. Ainsi, pour obtenir les pays les plus grands en superficie et ceux les moins peuplés, on peut écrire :

In [None]:
pays.nlargest(10, "area")

In [None]:
pays.nsmallest(10, "population")

Le tri d’un dataframe s’effectue à l’aide de la méthode [`sort_values`](https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.sort_values.html), comme par exemple :

In [None]:
villes.sort_values(by = "population")

On peut trier selon plusieurs critères, en spécifiant éventuellement les monotonies.  
Ainsi, pour classer par continent puis par superficie décroissante (avec une sélection pertinente de champs) :

In [None]:
pays.sort_values(by = ["continent", "area"], ascending=[True, False])[["continent", "name", "area"]]

## Bases de données
La commande `ORDER BY` permet de trier les lignes dans un résultat d’une requête SQL

Une requête où l’on souhaite filtrer l’ordre des résultats utilise la commande `ORDER BY` de la sorte :

```sql
SELECT nom_colonne1, nom_colonne2
FROM nom_table
ORDER BY colonne1
```

## Exercices

### Exercice 1
Expliquer comment procéder pour trier le tableau `eleves`
* par mois de naissance (pour fêter les anniversaire)
* par mois de naissance et, pour le même mois, par jour de naissance
* par âge, c'est-à-dire par date de naissance

### Exercice 2
Expliquer pourquoi le tri par insertion est stable.

### Exercice 3
Réaliser des expériences pour tester que la fonction `sorted` réalise effectivement un tri stable.

### Exercice 4
[Problème du sac à dos](https://interstices.info/le-probleme-du-sac-a-dos/) : *programmation*  
On reprend le problème du sac à dos (algorithmes gloutons). 

*Arsène L. a devant lui un ensemble d'objets de valeurs et poids variés.  
Il dispose d'un sac à dos prendre une partie des objets, en essayant de maximiser la valeur totale emportée.  
Cependant, il ne pourra emporter le sac que si le poids total ne dépasse pas 10 kg.*

On suppose que les valeurs et poids des objets sont stockés dans une table de données.  
Ecrire des programmes utilisant chacune des trois stratégies gloutonnes pour calculer une valeur qui peut être emportée. 

*Rappel des stratégies :*

1. Choisir les objets par ordre de valeur décroissante parmi ceux qui ne dépassent pas la capacité restante.
2. Choisir les objets par ordre de poids croissant.
3. Choisir les objets par ordre de rapport $\dfrac{valeur}{poids}$ décroissant parmi ceux qui ne dépassent pas la capacité restante. 

## Liens :
* Document accompagnement Eduscol : [Manipulation de tables](https://cache.media.eduscol.education.fr/file/NSI/78/1/RA_Lycee_G_NSI_trtd_tables_1170781.pdf)
* Document accompagnement Eduscol : [Manipulation de tables avec la bibliothèque Pandas](https://cache.media.eduscol.education.fr/file/NSI/78/0/RA_Lycee_G_NSI_trtd_pandas_1170780.pdf)
* Documentation Python : [Guide pour le tri](https://docs.python.org/fr/3/howto/sorting.html)
* CNAM : [Travaux pratiques Bases de données](https://deptfod.cnam.fr/bd/tp)
* W3School : [The Try-SQL Editor](https://www.w3schools.com/sql/trysql.asp?filename=trysql_op_in)