# Initiation à Pandas - Les DataFrames -

Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>
<img src='images/pandas.jpg'>

## Introduction
<p>
Pandas est une librairie python qui permet de manipuler facilement des données à analyser :
<ul>
<li>manipuler des tableaux de données avec des étiquettes de variables (colonnes) et d'individus (lignes).
<li>ces tableaux sont appelés DataFrames.
<li>on peut facilement lire et écrire ces dataframes à partir ou vers un fichier tabulé.
<li>on peut faciler tracer des graphes à partir de ces DataFrames grâce à matplotlib.
</ul>
</p>
<p>
Pour utiliser pandas : <strong>import pandas</strong>
</p>

## DataFrames

<p>
La structure de données clé dans Pandas est l'objet <strong>DataFrame</strong>. Un DataFrame est essentiellement une structure de données tabulaire, avec des lignes et des colonnes. Les lignes ont un index spécifique pour y accéder, qui peut avoir n'importe quel nom ou n'importe quelle valeur. Dans Pandas, les colonnes sont appelées <strong>Series</strong>, un type spécial de données, qui consiste essentiellement en une liste de plusieurs valeurs, où chaque valeur a un index. Par conséquent, la structure de données DataFrame peut être considérée comme une feuille de calcul (qui ressemble à une feuille Excel), mais elle est beaucoup plus flexible.
</p>

## Créer un nouveau DataFrame

<p>
Pour comprendre comment cela fonctionne, voyons comment créer un objet DataFrame de différentes manières :
</p>
<p>
<b>Création d'un dataFrame vide</b>
</p>

In [1]:
import pandas as pd
df = pd.DataFrame()
print (df)

Empty DataFrame
Columns: []
Index: []


<b>Création d'un DataFrame à partir d'une liste</b>

In [2]:
import pandas as pd
data = [10,20,30,40,50]
df = pd.DataFrame(data)
print(df)

    0
0  10
1  20
2  30
3  40
4  50


<b>Création d'un DataFrame à partir de listes</b>

In [3]:
import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data)
print(df)

        0   1
0    Alex  10
1     Bob  12
2  Clarke  13


In [4]:
import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print(df)

     Name   Age
0    Alex  10.0
1     Bob  12.0
2  Clarke  13.0


<b> Création d'un DataFrame à partir d'un dictionnaire</b>

<p>
Dans cet exemple, nous utilisons le constructeur d'objet DataFrame pandas avec un dictionnaire de listes Python en tant qu'argument. <i><b>La valeur de chaque entrée dans le dictionnaire est le nom de la colonne et les listes sont leurs valeurs.</b></i>
</p>

In [5]:

data = {'Année': [2010, 2011, 2012, 2010, 2011, 2012, 2010, 2011, 2012],
        'Equipes': ['FCBarcelona', 'FCBarcelona', 'FCBarcelona', 'RMadrid', 'RMadrid', 'RMadrid', 'ValenciaCF',
                 'ValenciaCF', 'ValenciaCF'],
        'matches gagnés':   [30, 28, 32, 29, 32, 26, 21, 17, 19],
        'matches égalités':  [6, 7, 4, 5, 4, 7, 8, 10, 8],
        'matches perdus': [2, 3, 2, 4, 2, 5, 9, 11, 11]
        }
equipes = pd.DataFrame(data, columns = ['Année', 'Equipes', 'matches gagnés', 'matches égalités', 'matches perdus'])
equipes

Unnamed: 0,Année,Equipes,matches gagnés,matches égalités,matches perdus
0,2010,FCBarcelona,30,6,2
1,2011,FCBarcelona,28,7,3
2,2012,FCBarcelona,32,4,2
3,2010,RMadrid,29,5,4
4,2011,RMadrid,32,4,2
5,2012,RMadrid,26,7,5
6,2010,ValenciaCF,21,8,9
7,2011,ValenciaCF,17,10,11
8,2012,ValenciaCF,19,8,11


<p>
Le résultat est une table où chaque entrée du dictionnaire est une colonne dans l'objet DataFrame. L'index de chaque ligne est créé automatiquement en prenant la position de ses éléments dans les listes d'entrée, en commençant par 0. Bien qu'il soit très facile de créer des DataFrames à partir de zéro (from scratch), la plupart du temps on est amené à importer des données dans une structure DataFrame.
</p>

## Lecture de données tabulaires dans pandas

<p>
La façon de lire les fichiers CSV dans Pandas consiste à utiliser la méthode <strong>read_csv</strong>. En plus du nom du fichier, nous ajoutons l'argument clé <strong>na_values</strong> à cette méthode avec le caractère représentant les "données non disponibles" dans le fichier. Normalement, les fichiers CSV ont un en-tête avec les noms des colonnes. Si tel est le cas, nous pouvons utiliser le paramètre <strong>usecols</strong> pour sélectionner les colonnes du fichier qui seront utilisées.
</p>

In [6]:
import pandas as pd
# remarquez que le fichier se trouve dans le dossier 'files' du repository
education = pd.read_csv('files/educ_figdp_1_Data.csv',na_values=':',
                    usecols=['TIME', 'GEO', 'Value'])
education

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.00
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
...,...,...,...
379,2007,Finland,5.90
380,2008,Finland,6.10
381,2009,Finland,6.81
382,2010,Finland,6.85


<p>
En plus de la méthode <strong>read_csv</strong>, Pandas fournit aussi des fonctions pour lire des fichiers avec des formats comme Excel, HDF5, des fichiers tabulaires ou même le contenu du presse-papiers (<strong>read_excel ()</strong>, <strong>read_hdf ()</strong>, <strong>read_table ()</strong>, <strong>read_clipboard ()</strong>) . Quelle que soit la fonction utilisée, le résultat de la lecture d'un fichier est stocké en tant qu'objet DataFrame.
</p>

## Affichage des données
<p>
Pour voir à quoi ressemblent les données, nous pouvons utiliser la méthode <strong>head ()</strong>, qui montre seulement les cinq premières lignes. Si nous passons un nombre en argument de cette méthode, ce sera le nombre des premières lignes affichées.
</p>

In [7]:
# Affichage des 5 premières lignes
education.head() #Equivalent à education.head(5)

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95


In [8]:
# Affichage des 10 premières lignes
education.head(10)

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
5,2005,European Union (28 countries),4.92
6,2006,European Union (28 countries),4.91
7,2007,European Union (28 countries),4.92
8,2008,European Union (28 countries),5.04
9,2009,European Union (28 countries),5.38


De même, il existe la méthode <strong>tail ()</strong>, qui retourne les cinq dernières lignes par défaut.

In [9]:
education.tail()

Unnamed: 0,TIME,GEO,Value
379,2007,Finland,5.9
380,2008,Finland,6.1
381,2009,Finland,6.81
382,2010,Finland,6.85
383,2011,Finland,6.76


In [10]:
education.tail(3)

Unnamed: 0,TIME,GEO,Value
381,2009,Finland,6.81
382,2010,Finland,6.85
383,2011,Finland,6.76


<p>
Si nous voulons connaître les noms des colonnes ou les noms des index, nous pouvons utiliser les attributs <strong>columns</strong> et <strong>index</strong> de DataFrame. Les noms des colonnes ou des index peuvent être modifiés en affectant une nouvelle liste de la même longueur à ces attributs.
</p>

In [11]:
education.columns

Index(['TIME', 'GEO', 'Value'], dtype='object')

In [12]:
education.index

RangeIndex(start=0, stop=384, step=1)

<p>
Les valeurs d'un DataFrame peuvent être récupérées en tant que tableau Python en appelant son attribut values.
</p>

In [13]:
education.values

array([[2000, 'European Union (28 countries)', nan],
       [2001, 'European Union (28 countries)', nan],
       [2002, 'European Union (28 countries)', 5.0],
       ...,
       [2009, 'Finland', 6.81],
       [2010, 'Finland', 6.85],
       [2011, 'Finland', 6.76]], dtype=object)

<p>
Si nous voulons simplement des informations statistiques rapides sur toutes les colonnes numériques d'un DataFrame, nous pouvons utiliser la fonction <strong>describe ()</strong>. Le résultat de la fonction montre le nombre, la moyenne, l'écart type, le minimum et le maximum, et les centiles, par défaut, les 25e, 50e et 75e, pour toutes les valeurs de chaque colonne (chaque série).
</p>

In [14]:
education.describe()

Unnamed: 0,TIME,Value
count,384.0,361.0
mean,2005.5,5.203989
std,3.456556,1.021694
min,2000.0,2.88
25%,2002.75,4.62
50%,2005.5,5.06
75%,2008.25,5.66
max,2011.0,8.81


## La sélection

<p>
Si nous voulons sélectionner un sous-ensemble de données à partir d'un DataFrame, il est nécessaire d'indiquer ce sous-ensemble à l'aide de crochets [] après le DataFrame. Le sous-ensemble peut être spécifié de plusieurs façons. Si nous voulons sélectionner seulement une colonne d'un DataFrame, nous avons  besoin seulement de mettre son nom entre les crochets. Le résultat sera une série, et non pas un DataFrame, car une seule colonne est récupérée.
</p>

In [15]:
# Sélectionner la colonne 'Value' du DataFrame
education['Value'].head()

0     NaN
1     NaN
2    5.00
3    5.03
4    4.95
Name: Value, dtype: float64

<p>
Si nous voulons sélectionner un sous-ensemble de lignes d'un DataFrame, nous pouvons le faire en indiquant une plage de lignes entre crochets et séparées par <strong>":"</strong>.
</p>
<p>
L'instruction suivante renvoie la tranche de lignes entre la 10ème à la 13ème position. Notez que la tranche n'utilise pas les étiquettes d'index comme références, mais la position. Dans ce cas, les étiquettes des lignes coïncident simplement avec la position des lignes.
</p>

In [16]:
education[10:14]

Unnamed: 0,TIME,GEO,Value
10,2010,European Union (28 countries),5.41
11,2011,European Union (28 countries),5.25
12,2000,European Union (27 countries),4.91
13,2001,European Union (27 countries),4.99


<p>
Si nous voulons sélectionner un sous-ensemble de colonnes et de lignes en utilisant les étiquettes comme références au lieu des positions, nous pouvons utiliser l'indexation <strong>loc</strong> :
</p>
<p>
L'instruction suivante renvoie toutes les lignes ayant :
<ul>
<li>les index spécifiés avant la virgule
<li>les colonnes spécifiées en tant que liste après la virgule
</ul>
<p>
Dans ce cas, <strong>loc</strong> ne renvoie pas les 90<sup>e</sup> à 94<sup>e</sup> lignes, mais renvoie toutes les lignes entre la ligne étiquetée 90 et la ligne étiquetée 94.
</p>

In [17]:
education.loc[90:94, ['TIME', 'GEO']]

Unnamed: 0,TIME,GEO
90,2006,Belgium
91,2007,Belgium
92,2008,Belgium
93,2009,Belgium
94,2010,Belgium


## Filtrer les données
<p>
Une autre façon de sélectionner un sous-ensemble de données consiste à appliquer une condition booléenne. Cette condition est communément appelée un filtre. Par exemple, si nous voulons sélectionner seulement les 5 premières lignes ayant la colonne 'Value' inférieures ou égales à 6.5, nous pouvons le faire comme ceci :
</p>

In [18]:
#education[education['Value'] <= 6.5] affiche toutes les lignes ayant 'Value' <= 6.5
education[education['Value'] <= 6.5].head()

Unnamed: 0,TIME,GEO,Value
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
5,2005,European Union (28 countries),4.92
6,2006,European Union (28 countries),4.91


<p>
La condition booléenne renvoie <strong>True</strong> ou <strong>False</strong> pour chaque ligne. Les lignes qui correspondent à la valeur True seront sélectionnées.
</p>
<p>
Dans l'exemple précédent, l'opération booléenne <strong>education ['Value'] &lt;= 6.5</strong> produit un masque booléen. Lorsqu'un élément de la colonne 'Value' est inférieur ou égal à 6.5, la valeur correspondante dans le masque est définie par True, sinon elle est définie par False.
</p>
<p>
Bien sûr, les opérateurs booléens habituels peuvent être utilisés pour le filtrage :
</p>
<table border="1">
<tr>
<td>&lt;</td><td>inférieur à</td>
</tr>
<tr>
<td> &lt;=</td><td>inférieur ou égal à</td>
</tr>
<tr>
<td>&gt;</td><td>supérieur à</td>
</tr>
<tr>
<td>&gt;=</td><td>supérieur ou égal à</td>
</tr>
<tr>
<td>==</td><td>égal à</td>
</tr>
<tr>
<td>!=</td><td>différent de</td>
</tr>
</table>


## Filtrage des valeurs manquantes
<p>
Pandas utilise la valeur spéciale <strong>NaN</strong> (Not a Number, pas un nombre) pour représenter les valeurs manquantes. Une caractéristique subtile des valeurs NaN est que deux NaN ne sont jamais égaux. Pour cette raison, le seul moyen sûr de savoir si une valeur est manquante dans un DataFrame est d'utiliser la fonction <strong>isnull()</strong> :
</p>

In [19]:
education[education['Value'].isnull()].head()

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
36,2000,Euro area (18 countries),
37,2001,Euro area (18 countries),
48,2000,Euro area (17 countries),


## Manipulation des données

<p>
Une fois que nous savons comment sélectionner les données souhaitées, la prochaine étape est de savoir comment manipuler les données. L'une des choses les plus simples que nous puissions faire est de manipuler des colonnes ou des lignes en utilisant des fonctions d'agrégation. La liste suivante montre les fonctions d'agrégation les plus courantes :
</p>

<table>
<tr>
<td>Fonction</td><td>Description</td>
</tr>
<tr>
<td>count()</td><td>Nombres d'observations non nulles</td>
</tr>
<tr>
<td>sum()</td><td>La somme des valeurs</td>
</tr>
<tr>
<td>mean()</td><td>La moyenne des valeurs</td>
</tr>
<tr>
<td>median()</td><td>La médiane arithmétique des valeurs</td>
</tr>
<tr>
<td>min()</td><td>Le minimum de plusieurs valeurs</td>
</tr>
<tr>
<td>max()</td><td>Le maximum de plusieurs valeurs</td>
</tr>
<tr>
<td>prod()</td><td>Le produits de plusieurs valeurs</td>
</tr>
<tr>
<td>std()</td><td>Ladéviation standard</td>
</tr>
<tr>
<td>var()</td><td>La variance</td>
</tr>
</table>

<p>
Le résultat de toutes ces fonctions appliquées à une ligne ou à une colonne est toujours un nombre. Si une fonction est appliquée à un DataFrame ou à une sélection de lignes et de colonnes, vous pouvez spécifier si la fonction doit être appliquée aux lignes de chaque colonne (en plaçant le mot-clé <strong>axis = 0</strong> dans l'appel de la fonction), ou aux colonnes de chaque ligne (en mettant le mot-clé <strong>axis = 1</strong> dans l'appel de la fonction).
</p>

In [20]:
education.max(axis=0)

TIME      2011
GEO      Spain
Value     8.81
dtype: object

In [21]:
education.sum(axis=1).head()

0    2000.00
1    2001.00
2    2007.00
3    2008.03
4    2008.95
dtype: float64

<p>
Notez que les fonctions citées ci-dessus sont spécifiques Pandas, et ne s'agissent pas de fonctions de Python. Il y a des différences dans leur mise en œuvre. En Python, les valeurs NaN sont prises en comptes par les opérations sans déclencher d'exception. En revanche, les opérations Pandas excluent les valeurs NaN représentant les données manquantes. Par exemple, la fonction pandas max() exclut les valeurs NaN, elles sont donc interprétées comme des valeurs manquantes, tandis que la fonction Python max() prendra NAN comme maximum :
</p>

In [22]:
print ('Fonction max de Pandas :', education['Value'].max())
print ('Fonction max Python  :', max(education['Value']))

Fonction max de Pandas : 8.81
Fonction max Python  : nan


<p>
En plus de ces fonctions d'agrégation, nous pouvons appliquer des opérations sur toutes les valeurs des lignes, des colonnes ou une sélection des deux. La règle générale est qu'une opération sur les colonnes signifie qu'elle est appliquée à chaque ligne de cette colonne et qu'une opération sur les lignes signifie qu'elle est appliquée à chaque colonne de cette ligne. Par exemple, nous pouvons appliquer n'importe quelle opération arithmétique binaire (+, -, *, /) à une ligne ou colonne entière :
</p> 

In [23]:
value = education['Value']
value.head()/10

0      NaN
1      NaN
2    0.500
3    0.503
4    0.495
Name: Value, dtype: float64

<p>
Nous pouvons appliquer, aussi, n'importe quelle fonction à un DataFrame ou à une série en plaçant simplement son nom comme argument de la méthode <strong>apply()</strong>. Par exemple, dans le code suivant, nous appliquons la fonction <strong>sqrt()</strong> de la bibliothèque <strong>numpy</strong> pour calculer la racine carrée de chaque valeur dans la colonne 'Value'.
</p>

In [26]:
import numpy as np
s = education['Value'].apply(np.sqrt)
s.head()

0         NaN
1         NaN
2    2.236068
3    2.242766
4    2.224860
Name: Value, dtype: float64

<p>
Une autre manipulation de base consiste à définir de nouvelles valeurs dans notre DataFrame. Cela peut être fait directement en utilisant l'opérateur d'affectation <strong>=</strong> sur un DataFrame. Par exemple, pour ajouter une nouvelle colonne à un DataFrame, nous pouvons affecter une série à une colonne qui n'existe pas. Cela produira une nouvelle colonne dans le DataFrame après tous les autres. Vous devez être conscient que si une colonne avec le même nom existe déjà, les valeurs précédentes seront remplacées.
</p>
<p>
Dans l'exemple suivant, nous affectons la série qui résulte de la division de la colonne "Value" par la valeur maximale de la même colonne à une nouvelle colonne nommée "ValueNorm".
</p>

In [35]:
education['ValueNorm'] = education['Value'] / education['Value'].max()
education.tail()

Unnamed: 0,TIME,GEO,Value,ValueNorm
379,2007,Finland,5.9,0.669694
380,2008,Finland,6.1,0.692395
381,2009,Finland,6.81,0.772985
382,2010,Finland,6.85,0.777526
383,2011,Finland,6.76,0.76731


<p>
Maintenant, si nous voulons supprimer une colonne du DataFrame, nous pouvons utiliser la fonction <strong>drop</strong>; cela supprime les lignes indiquées si <strong>axis = 0</strong>, ou les colonnes indiquées si <strong>axis = 1</strong>.
</p>
<p>
Dans Pandas, toutes les fonctions qui modifient le contenu d'un DataFrame, comme la fonction <strong>drop</strong>, renvoient normalement une copie des données modifiées, au lieu d'écraser le DataFrame. Par conséquent, le DataFrame d'origine est conservé. Si vous ne souhaitez pas conserver les anciennes valeurs, vous pouvez définir le mot clé <strong>inplace</strong> à True. Par défaut, ce mot clé est défini à False, ce qui signifie qu'une copie des données est renvoyée.
</p>

In [38]:
ee=education.drop('ValueNorm', axis=1)
education.head()

Unnamed: 0,TIME,GEO,Value,ValueNorm
0,2000,European Union (28 countries),,
1,2001,European Union (28 countries),,
2,2002,European Union (28 countries),5.0,0.567537
3,2003,European Union (28 countries),5.03,0.570942
4,2004,European Union (28 countries),4.95,0.561862


In [34]:
education.drop('ValueNorm', axis=1, inplace=True)
education.head()

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95


<p>
Pour insérer une nouvelle ligne en bas du DataFrame, nous pouvons utiliser la fonction Pandas <strong>append()</strong>. Cette fonction reçoit comme argument la nouvelle ligne, qui est représentée comme un dictionnaire où les clés sont le nom des colonnes et les valeurs la valeur associée. Vous devez mettre l'indicateur <strong>ignore_index</strong> dans la méthode append à True, sinon l'index 0 est donné à cette nouvelle ligne, ce qui produira une erreur si cet index existe déjà :
</p>

In [None]:
education = education.append({'TIME': 2000, 'Value': 5.00, 'GEO': 'a'}, ignore_index=True)
education.tail()

<p>
Si nous voulons supprimer cette ligne, nous devons à nouveau utiliser la fonction <strong>drop</strong>. Cette fois-ci, nous devons initier l'argument <strong>axis</strong> avec 0 ( <strong>axis = 0</strong>), et spécifier l'index de la ligne que nous voulons supprimer. Puisque nous voulons supprimer la dernière ligne, nous pouvons utiliser la fonction <strong>max()</strong> sur les index pour déterminer de quelle ligne s'agit-il.
</p>

In [None]:
education.drop(max(education.index), axis=0, inplace=True)
education.tail()

<p>
La fonction <strong>drop ()</strong> est également utilisée pour supprimer les valeurs manquantes en l'appliquant sur le résultat de la fonction <strong>isnull ()</strong>. Cela a un effet similaire à filtrer les valeurs <trong>NaN</strong>, comme nous l'avons expliqué ci-dessus, mais ici la différence est qu'une copie du DataFrame sans les valeurs <strong>NaN</strong> est retournée, au lieu d'une vue.
</p>

In [None]:
eduNaN = education.drop(education['Value'].isnull(), axis=0)
eduNaN.head()

<p>
Pour supprimer les valeurs <strong>NaN</strong>, au lieu d'utiliser la fonction de suppression générique (<strong>drop()</strong>), nous pouvons utiliser la fonction spécifique <strong>dropna()</strong>. Si nous voulons effacer une ligne contenant une valeur NaN, nous devons affecter au mot-clé <strong>how</strong> la valeur <strong>any</strong>.
Pour le restreindre à un sous-ensemble de colonnes, nous pouvons le spécifier en utilisant le mot clé <strong>subset</strong>. Comme nous pouvons le voir ci-dessous, le résultat sera identique à l'utilisation de la fonction <strong>drop</strong> :
</p>

In [None]:
eduNaN = education.dropna(how='any', subset=['Value'], axis=0)
eduNaN.head()

<p>
Si, au lieu de supprimer les lignes contenant NaN, nous voulons les remplir avec une autre valeur, alors nous pouvons utiliser la méthode <strong>fillna()</strong>, en spécifiant quelle valeur doit être utilisée. Si nous voulons remplir seulement certaines colonnes spécifiques, nous devons mettre comme argument de la fonction <strong>fillna()</strong> un dictionnaire avec le nom des colonnes comme clé et le caractère à utiliser pour le remplissage comme valeur.
</p>

In [None]:
eduFilled = education.fillna(value={'Value': 0})
eduFilled.head()

## Tri de données

<p>
Une autre fonctionnalité importante dont nous aurons besoin lors de l'inspection de nos données est de trier les données par colonnes. Nous pouvons trier un DataFrame en utilisant n'importe quelle colonne, en utilisant la fonction de tri (<strong>sort_xxxx()</strong>). Si nous voulons voir les cinq premières lignes des données triées par ordre décroissant en utilisant la colonne <strong>'Value'</strong>, alors nous pouvons écrire :
</p>

In [None]:
education.sort_values(by='Value', ascending=False, inplace=True)
education.head()

<p>
Notez que le mot-clé <strong>inplace</strong> signifie que le DataFrame sera écrasé, et donc aucun nouveau DataFrame n'est retourné. Si au lieu de <strong>ascending = False</strong>, nous utilisons <strong>ascending = True</strong>, les valeurs seront triées dans l'ordre croissant.
</p>
<p>
Si nous voulons revenir à l'ordre d'origine, nous pouvons trier par un index en utilisant la fonction <strong>sort_index</strong> et en spécifiant <strong>axis = 0</strong> :
</p>

In [None]:
education.sort_index(axis=0, ascending=True, inplace=True)
education.head()

## Regroupement des données

<p>
Un autre moyen très utile pour inspecter les données consiste à les regrouper selon certains critères. Par exemple, dans notre cas, il serait bien judicieux de regrouper toutes les données par pays, indépendamment de l'année. Pandas dispose de la fonction <strong>groupby</strong> qui nous permet de faire exactement cela. La valeur renvoyée par cette fonction est un DataFrame dans lequel les valeurs sont regroupés. Pour avoir un DataFrame correct, il est nécessaire d'appliquer une fonction d'agrégation (par exemple, sum(), mean, ...). Ainsi, cette fonction sera appliquée à toutes les valeurs du même groupe.
</p>
<p>
Par exemple, dans notre cas, si nous voulons un DataFrame affichant la moyenne des valeurs pour chaque pays pour toutes les années, nous pouvons l'obtenir en regroupant par pays et en utilisant la fonction <strong>mean</strong> comme méthode d'agrégation pour chaque groupe. Le résultat serait un DataFrame avec des pays comme index et les valeurs des moyennes comme colonnes :
</p>

In [None]:
group = education[['GEO', 'Value']].groupby('GEO').mean()
group.head()

In [None]:
group = education.groupby('GEO')['Value'].mean()
group.head()