[Retour au sommaire](../index.ipynb)

# Traitement de données en tables : tri

Cette année nous avons implémenté en Python deux types d'algorithmes de tri:
- Le [tri par selection](../8_Algorithmique/2_tri_insertion_selection.ipynb#tri_selection)
- Le [tri par insertion](../8_Algorithmique/2_tri_insertion_selection.ipynb#tri_insertion)

Python possède évidemment sa propre implémentation native du tri. (Il en existe d'ailleurs plusieurs) 

## La méthode *sort* pour les listes

Les listes possèdent leur propre méthode *sort* qui modifie directement la liste, on appelle cela un tri en place (in place).

In [None]:
liste = [8,6,4,2,0,7,5,3,1]
liste.sort()
liste

In [None]:
liste.sort(reverse=True)
liste

In [None]:
help(liste.sort)

Il est également possible de définir sa propre fonction de tri.

In [None]:
# take second element for sort
def takeSecond(elem):
    return elem[1]

ma_liste = [(2, 2), (3, 4), (4, 1), (1, 3), (2, 3)]

# sort list with key
ma_liste.sort(key=takeSecond)

# print list
print('Sorted list:', ma_liste)

## La fonction sorted

Cette fonction, contrairement à la méthode *sort* qui s'applique uniquement aux listes, permet de tri tout type d'itérable:

- liste
- tuple
- chaîne
- dictionnaire
- ...

Contrairement à la méthode *sort*, cette fonction renvoie un nouvel itérable et **n'affecte pas l'itérable d'origine**.

Voici sa syntaxe

```
Syntaxe: sorted (iterable, key, reverse = False)

Paramètres:
Iterable: séquence (liste, tuple, chaîne) ou collection (dictionnaire, ensemble, frozenset) ou tout autre itérateur à trier.
Clé (facultatif): une fonction qui servirait de clé ou de base de comparaison de tri.
Inverser (facultatif): Si défini sur True, l’itérable serait trié dans l’ordre inverse (décroissant), par défaut, il est défini sur False.

Type de retour : renvoie une liste triée.
```

### Un tri simple

Commençons simplement avec une **liste de mots**.

In [None]:
phrase = "Bonjour comment allez vous ?"
mots = phrase.split(' ')
mots_tries = sorted(mots)
mots_tries

In [None]:
mots # La liste d'origine est conservée.

Cette fonction s'applique également aux **clés de dictionnaires**.

In [None]:
dico = {26:'Z',4:'D', 1:'A', 3:'C'}
sorted(dico)

### Un tri qui utilise une clef

Le paramètre *key* permet de préciser une fonction qui peut être appelée sur chacun des éléments de l'itérable.


In [None]:
lettres = ('a','E', 'i', 'o', 'U', 'y') # ici on utilise un tuple
lettres_triees1 = sorted(lettres) # Les lettres majuscules précèdent les lettres minuscules
lettres_triees1

In [None]:
lettres_triees2 = sorted(lettres, key = str.lower) # Ici on précise que la fonction lower (minuscule) est prise en compte
lettres_triees2

Il est également possible de trier selon **nos propres fonctions**.

Voici une liste de personnes décrites par :
- prénom
- taille (en mètre)
- masse (en kilo)

Le but est de les trier par ordre croissant de leur IMC.

$IMC=\frac{masse}{taille^2}$

In [None]:
personnes = (
    ('Régis', 1.82, 82),
    ('Mathilde', 1.70, 64),
    ('Robert', 1.65, 92),
    ('Gaston', 1.90, 58),
    ('Maurice', 1.75, 75)
)

In [None]:
def imc(personne):
    return personne[2]/personne[1]**2

sorted(personnes, key=imc)

De même pour une liste de dictionnaires

In [None]:
personnes2 = [
    {'nom':'Kevin', 'taille':1.85, 'masse':82},
    {'nom':'Rolland','taille':1.70, 'masse':64},
    {'nom':'Marcel', 'taille':1.70, 'masse':92},
    {'nom':'Gertrude', 'taille':1.50, 'masse':122},
    {'nom':'Barnabé', 'taille':1.70, 'masse':75}
]
def imc2(personne):
    return personne['masse']/personne['taille']**2

sorted(personnes2, key=imc2)

Puis dans l'ordre inverse avec le paramètre *reverse* qui vaut True.

In [None]:
# Nous allons trier par classe puis par age, le tout dans l'ordre inverse
sorted(personnes2, key=imc2, reverse = True)

Il y a possibilité de trier par taille puis par poids.

In [None]:
def taille_puis_poids(personne):
    return (personne['taille'], personne['masse'])

sorted(personnes2, key=taille_puis_poids)

[la documentation](https://docs.python.org/fr/3/howto/sorting.html) est là.

## Application aux données issues d'un fichier csv

Dans le chapitre précédent nous avons vu comment **chercher et filtrer** nos données.
Il est également important de savoir **trier nos données**.

### En utilisant la fonction *sorted* de Python

 - Trier les collèges par nom de commune puis par nom d'établissement.
 - Trier les collèges par nom de commune puis par statut.

### En utilisant la librairie *[pandas](https://pandas.pydata.org/)*

La librairie pandas possède ses [propres méthodes de tri](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html).

In [None]:
import pandas as pd
colleges = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/a1075259-09ca-4c22-9e35-b2cd6bbf5c36", delimiter=';')
colleges.sort_values(by='nom_et')

<div class="alert alert-info">Faire les tris demandés en csv avec la librairie pandas.</div>

Vous pouvez continuer le [TP](TP1_bib_csv.ipynb), partie *Tri*.

<table style="width:100%">
    <tr>
        <td style="text-align:left;"><a href="2_recherche.ipynb"><< 2. Rechercher des données</a></td>
        <td style="text-align:right;"><a href="4_fusion.ipynb">4. Fusionner des tables >></a></td>
    </tr>
</table>

[Retour au sommaire](../index.ipynb)