Souvent, vous voulez trier les données Pandas d'une manière spécifique. Typiquement, on peut vouloir trier  en fonction des valeurs d'une ou plusieurs colonnes ou trier en fonction des valeurs de l'index des lignes ou des noms des lignes du dataframe. Le cadre de données Pandas a deux fonctions utiles

    sort_values() : pour trier les données pandas par une ou plusieurs colonnes.
    sort_index() : pour trier les données pandas trame par index de lignes

Chacune de ces fonctions comporte de nombreuses options, comme le tri de la trame de données dans un ordre spécifique (ascendant ou descendant), le tri en place, le tri avec les valeurs manquantes, le tri par algorithme spécifique, etc.

Voici un tutoriel rapide de Pandas sur les multiples façons d'utiliser sort_values()

In [1]:
import pandas as pd
import numpy as np

In [2]:
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
              'moyenne' : [12.0, 9, 16.0, 5.0, 9.0, 20.0, 14.0, 15.0, 8.0, 19.0],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes'],
         'profession': ['boulanger', 'chanteur', 'boulanger', 'cuisinier', 'conducteur', 'cuisinier', 'livreur', 'pilote de ligne', 'mécanicien', np.NAN]}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)

In [3]:
df

Unnamed: 0,nom,note,moyenne,qualification,profession
a,Anne,12.5,12.0,yes,boulanger
b,Alex,9.0,9.0,no,chanteur
c,catherine,16.5,16.0,yes,boulanger
d,Jean,,5.0,no,cuisinier
e,Emillie,9.0,9.0,no,conducteur
f,Michel,20.0,20.0,yes,cuisinier
g,Matieu,14.5,14.0,yes,livreur
h,Laura,,15.0,no,pilote de ligne
i,Kevin,8.0,8.0,no,mécanicien
j,Jonas,19.0,19.0,yes,


## 1. Comment trier les Dataframe sur la base des valeurs d'une colonne ?

Nous pouvons trier le dataframe  sur la base des valeurs d'une seule colonne en spécifiant le nom de la colonne que nous voulons trier comme argument d'entrée pour trier_values(). 

Par exemple, nous pouvons trier par les valeurs de la colonne "lifeExp" dans les données gapminder telles que

In [4]:
df.sort_values('moyenne')

Unnamed: 0,nom,note,moyenne,qualification,profession
d,Jean,,5.0,no,cuisinier
i,Kevin,8.0,8.0,no,mécanicien
b,Alex,9.0,9.0,no,chanteur
e,Emillie,9.0,9.0,no,conducteur
a,Anne,12.5,12.0,yes,boulanger
g,Matieu,14.5,14.0,yes,livreur
h,Laura,,15.0,no,pilote de ligne
c,catherine,16.5,16.0,yes,boulanger
j,Jonas,19.0,19.0,yes,
f,Michel,20.0,20.0,yes,cuisinier


Notez que par défaut, sort_values trie et donne une nouvelle dataframes. La nouvelle dataframes triée est dans l'ordre croissant (les petites valeurs en premier et les grandes valeurs en dernier). 

## 2. Comment trier les Pandas Dataframe en fonction des valeurs d'une colonne (ordre décroissant) ?

Pour trier un dataframe basé sur les valeurs d'une colonne mais dans l'ordre décroissant pour que les valeurs les plus grandes de la colonne soient en haut, on peut utiliser l'argument ascendant=Faux. Dans cet exemple, nous pouvons voir qu'après avoir trié les données par LifeExp avec ascendant=Faux, les pays ayant la plus grande espérance de vie sont en tête de liste.


In [5]:
df.sort_values('moyenne',ascending=False)

Unnamed: 0,nom,note,moyenne,qualification,profession
f,Michel,20.0,20.0,yes,cuisinier
j,Jonas,19.0,19.0,yes,
c,catherine,16.5,16.0,yes,boulanger
h,Laura,,15.0,no,pilote de ligne
g,Matieu,14.5,14.0,yes,livreur
a,Anne,12.5,12.0,yes,boulanger
b,Alex,9.0,9.0,no,chanteur
e,Emillie,9.0,9.0,no,conducteur
i,Kevin,8.0,8.0,no,mécanicien
d,Jean,,5.0,no,cuisinier


## 3. Comment trier un DataFrame basé sur une colonne et mettre les valeurs manquantes en premier ?

Souvent un DataFrame peut contenir des valeurs manquantes et lorsque nous trions un cadre de données sur une colonne avec des valeurs manquantes, nous pouvons vouloir avoir des lignes avec des valeurs manquantes pour être au premier ou au dernier. Nous pouvons spécifier la position que nous voulons pour les valeurs manquantes en utilisant l'argument na_position. Avec na_position='first', il aura les lignes avec les valeurs manquantes en premier.

Dans cet exemple, il y a des valeurs manquantes et c'est pourquoi il n'y a pas de valeurs na en haut lorsqu'elles sont triées avec l'option na_position='first'.

In [6]:
df.sort_values('note',na_position='first')

Unnamed: 0,nom,note,moyenne,qualification,profession
d,Jean,,5.0,no,cuisinier
h,Laura,,15.0,no,pilote de ligne
i,Kevin,8.0,8.0,no,mécanicien
b,Alex,9.0,9.0,no,chanteur
e,Emillie,9.0,9.0,no,conducteur
a,Anne,12.5,12.0,yes,boulanger
g,Matieu,14.5,14.0,yes,livreur
c,catherine,16.5,16.0,yes,boulanger
j,Jonas,19.0,19.0,yes,
f,Michel,20.0,20.0,yes,cuisinier


## 4. Comment trier un Dataframe sur la base d'une colonne en place ?

Par défaut, trier le Dataframe à l'aide de sort_values() crée un nouveau cadre de données. Si vous ne voulez pas créer une nouvelle Dataframe après le tri et que vous voulez juste faire le tri en place, vous pouvez utiliser l'argument "inplace = True". 
Voici un exemple de tri d'un Dataframe en place sans créer un nouveau Dataframe.

In [7]:
df.sort_values('moyenne',ascending=False, inplace=True)

In [8]:
df

Unnamed: 0,nom,note,moyenne,qualification,profession
f,Michel,20.0,20.0,yes,cuisinier
j,Jonas,19.0,19.0,yes,
c,catherine,16.5,16.0,yes,boulanger
h,Laura,,15.0,no,pilote de ligne
g,Matieu,14.5,14.0,yes,livreur
a,Anne,12.5,12.0,yes,boulanger
b,Alex,9.0,9.0,no,chanteur
e,Emillie,9.0,9.0,no,conducteur
i,Kevin,8.0,8.0,no,mécanicien
d,Jean,,5.0,no,cuisinier


In [9]:
# Vous pouvez voir que l'index est différent

## 5. Comment trier les dataframe en fonction des valeurs de plusieurs colonnes ?

Souvent, vous pouvez vouloir trier sur les valeurs de plusieurs colonnes. Nous pouvons spécifier les colonnes par lesquelles nous voulons trier en tant que liste dans l'argument pour sort_values(). 

Par exemple, pour trier par valeurs de deux colonnes, nous pouvons faire.

In [10]:
df.sort_values(['note','moyenne'])

Unnamed: 0,nom,note,moyenne,qualification,profession
i,Kevin,8.0,8.0,no,mécanicien
b,Alex,9.0,9.0,no,chanteur
e,Emillie,9.0,9.0,no,conducteur
a,Anne,12.5,12.0,yes,boulanger
g,Matieu,14.5,14.0,yes,livreur
c,catherine,16.5,16.0,yes,boulanger
j,Jonas,19.0,19.0,yes,
f,Michel,20.0,20.0,yes,cuisinier
d,Jean,,5.0,no,cuisinier
h,Laura,,15.0,no,pilote de ligne


Notez que lorsque vous triez par colonnes multiples, sort_value() utilise la première variable première et la deuxième variable suivante. Nous pouvons voir la différence en changeant l'ordre des noms de colonnes dans la liste. 

In [11]:
df.sort_values(['moyenne','note'])

Unnamed: 0,nom,note,moyenne,qualification,profession
d,Jean,,5.0,no,cuisinier
i,Kevin,8.0,8.0,no,mécanicien
b,Alex,9.0,9.0,no,chanteur
e,Emillie,9.0,9.0,no,conducteur
a,Anne,12.5,12.0,yes,boulanger
g,Matieu,14.5,14.0,yes,livreur
h,Laura,,15.0,no,pilote de ligne
c,catherine,16.5,16.0,yes,boulanger
j,Jonas,19.0,19.0,yes,
f,Michel,20.0,20.0,yes,cuisinier


In [15]:
df.sort_values(['note','moyenne'], ascending=[False,False],na_position='first')

Unnamed: 0,nom,note,moyenne,qualification,profession
h,Laura,,15.0,no,pilote de ligne
d,Jean,,5.0,no,cuisinier
f,Michel,20.0,20.0,yes,cuisinier
j,Jonas,19.0,19.0,yes,
c,catherine,16.5,16.0,yes,boulanger
g,Matieu,14.5,14.0,yes,livreur
a,Anne,12.5,12.0,yes,boulanger
b,Alex,9.0,9.0,no,chanteur
e,Emillie,9.0,9.0,no,conducteur
i,Kevin,8.0,8.0,no,mécanicien
