# Premier pas avec Pandas

Pandas est un module destiné à la manipulation de données. Il a été créé en 2008 et est très activement développé depuis. Il a été conçu au départ pour l’analyse de données financières.

On l’importe comme n’importe quel module, et l’usage est de l’abrévier en «pd», grâce au mot-clé `as`:

In [2]:
import pandas as pd

Dans Excel, on parle de «feuilles de calcul». L’équivalent, dans Pandas, est un **DataFrame**, qu’on abrège **df**.

Pour vous familiariser avec cet objet, on va ouvrir [des données de l’OFS obtenues sur STAT-TAB](http://www.pxweb.bfs.admin.ch/sq/a39f8d09-9e2b-4a58-b67a-51d22ebbe989):

In [3]:
df = pd.read_csv('couts-personnel-hautes-ecoles.csv')

Voyons à quoi ressemblent les 5 premières lignes

In [4]:
df.head()

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
0,2009,Enseignement de base,Personnel,1845950,11603840,22487075,7449804,7679101
1,2009,Recherche appliquée et développement,Personnel,174791,1254804,4998217,1163338,1655812
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846
3,2009,Prestations de services,Personnel,133224,1431853,2123045,0,3767684
4,2010,Enseignement de base,Personnel,1787920,14031903,20368249,7553247,9476562


## Compter les valeurs d’une colonne
Dans la colonne «Prestation», on voit que «Enseignement de base» apparaît au moins deux fois. Et si on regardait combien de fois apparaît chaque valeur de cette colonne?
Pour ce faire, on utilise **`.value_counts()`**.

In [5]:
df['Prestation'].value_counts()

Prestation
Enseignement de base                    11
Recherche appliquée et développement    11
Formation continue                      11
Prestations de services                 11
Name: count, dtype: int64

## Filtrer

Vous vous rappelez des booléens **True** et **False**? En voici un exemple:

In [6]:
ma_condition = 5 < 10
print('Ma condition vaut:', ma_condition)

Ma condition vaut: True


 C'est ce qu’on utilise pour filtrer.

On définit une condition, par exemple: **la colonne année est égale à 2019**, ce qui se traduit ainsi:

In [7]:
condition = df['Année'] == 2019

Puis on applique ce filtre aux données:

In [8]:
df[condition]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
40,2019,Enseignement de base,Personnel,1994090,12553917,43207376,9054637,9650727
41,2019,Recherche appliquée et développement,Personnel,235679,2176814,12663265,1972288,2079828
42,2019,Formation continue,Personnel,494971,3874482,8691043,1661413,2018726
43,2019,Prestations de services,Personnel,520148,2349377,2639705,2676579,1724585


Autrement dit: on a demandé «Montre moi le dataframe pour lequel la colonne «Année» est égale à 2019».

On peut combiner plusieurs conditions. C’est le même principe que les **and** et **or** des if/else, mais avec les symboles **&** pour *and* et **|** pour *or*.

In [9]:
annee_2019 = df['Année'] == 2019
annee_2009 = df['Année'] == 2009

# Opérateur OR: 2009 ou 2019
df[annee_2019 | annee_2009]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
0,2009,Enseignement de base,Personnel,1845950,11603840,22487075,7449804,7679101
1,2009,Recherche appliquée et développement,Personnel,174791,1254804,4998217,1163338,1655812
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846
3,2009,Prestations de services,Personnel,133224,1431853,2123045,0,3767684
40,2019,Enseignement de base,Personnel,1994090,12553917,43207376,9054637,9650727
41,2019,Recherche appliquée et développement,Personnel,235679,2176814,12663265,1972288,2079828
42,2019,Formation continue,Personnel,494971,3874482,8691043,1661413,2018726
43,2019,Prestations de services,Personnel,520148,2349377,2639705,2676579,1724585


In [10]:
# Opérateur AND: 2019 et formation continue
formation_continue = df['Prestation'] == 'Formation continue'
df[annee_2019 & formation_continue]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
42,2019,Formation continue,Personnel,494971,3874482,8691043,1661413,2018726


In [11]:
# Les trois à la fois. Il nous faut des parenthèses pour préciser quelles conditions vont ensemble.
df[(annee_2019 | annee_2009) & formation_continue]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846
42,2019,Formation continue,Personnel,494971,3874482,8691043,1661413,2018726


On peut aussi écrire la condition directement, sans passer par une variable. C’est pratique pour explorer rapidement les données. Mais pas s’il faut récrire dix fois la même condition…

In [12]:
# Je mets des espaces pour mieux distinguer les différentes brackets [] et éviter les erreurs
df[ df['Année'] == 2019 ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
40,2019,Enseignement de base,Personnel,1994090,12553917,43207376,9054637,9650727
41,2019,Recherche appliquée et développement,Personnel,235679,2176814,12663265,1972288,2079828
42,2019,Formation continue,Personnel,494971,3874482,8691043,1661413,2018726
43,2019,Prestations de services,Personnel,520148,2349377,2639705,2676579,1724585


In [13]:
# Dans ce cas, quand on combine plusieurs conditions, on doit les entourer de parenthèses
df[ (df['Année'] == 2019) & (df['Prestation'] == 'Prestations de services') ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
43,2019,Prestations de services,Personnel,520148,2349377,2639705,2676579,1724585


## Les colonnes

On peut choisir d’afficher uniquement certaines colonnes. Pour ce faire, on utilise une liste:

In [14]:
columnsToShow = ['Année', 'HEP-VD', 'HEP-FR']

In [15]:
df[columnsToShow].head()

Unnamed: 0,Année,HEP-VD,HEP-FR
0,2009,22487075,7679101
1,2009,4998217,1655812
2,2009,6571043,1681846
3,2009,2123045,3767684
4,2010,20368249,9476562


Mettons qu’on s’intéresse uniquement à 2018 et aux montants inférieurs à 100 000 à la HEP-VD. Pour combiner ces deux critères, on met les filtres dans des parenthèses et on utilise l’opérateur **`&`** pour  **and**.

In [16]:
df[ (df['Année'] == 2019) & (df['HEP-VD'] > 0) ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
40,2019,Enseignement de base,Personnel,1994090,12553917,43207376,9054637,9650727
41,2019,Recherche appliquée et développement,Personnel,235679,2176814,12663265,1972288,2079828
42,2019,Formation continue,Personnel,494971,3874482,8691043,1661413,2018726
43,2019,Prestations de services,Personnel,520148,2349377,2639705,2676579,1724585


### Trouver le maximum

Pandas trouve instantanément le maximum d’une ligne ou une colonne d’un jeu de données.

Commençons par une colonne…

In [17]:
df['HEP-VD'].max()

43207376

On peut aussi le demander pour toutes les colonnes:

In [18]:
df.max()

Année                                              2019
Prestation         Recherche appliquée et développement
Nature de coûts                               Personnel
HETS-GE                                         2122376
HEP-BEJUNE                                     14199474
HEP-VD                                         43207376
HEP-VS                                          9054637
HEP-FR                                         10184870
dtype: object

#### Et pour les lignes?
Pour voir le maximum par ligne, on précise qu’on veut l’axe 1 (horizontal): `df.max(axis=1)`.

Ici, on crée d’abord un index avec les colonnes "Année" et "Prestation", pour comprendre à quoi le maximum se rapporte.

On précise aussi `numeric_only=True`, sans quoi Pandas donne une erreur à cause de la colonne "Nature de coûts".

In [35]:
df.set_index(["Année", "Prestation"]).max(axis=1, numeric_only=True).head(10)

Année  Prestation                          
2009   Enseignement de base                    22487075
       Recherche appliquée et développement     4998217
       Formation continue                       6571043
       Prestations de services                  3767684
2010   Enseignement de base                    20368249
       Recherche appliquée et développement     5581505
       Formation continue                       6037990
       Prestations de services                  3133284
2011   Enseignement de base                    29579659
       Recherche appliquée et développement     5949069
dtype: int64

Génial! Et si on mettait ça dans une colonne? Comme dans Excel, en fait…

## Ajouter une colonne

Pandas vous permet d’ajouter une colonne plus ou moins de la même manière que vous donnez une valeur à une variable.

In [36]:
df['Maximum'] = df.max(axis=1, numeric_only=True)

In [37]:
df.head()

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR,Maximum
0,2009,Enseignement de base,Personnel,1845950,11603840,22487075,7449804,7679101,22487075
1,2009,Recherche appliquée et développement,Personnel,174791,1254804,4998217,1163338,1655812,4998217
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846,6571043
3,2009,Prestations de services,Personnel,133224,1431853,2123045,0,3767684,3767684
4,2010,Enseignement de base,Personnel,1787920,14031903,20368249,7553247,9476562,20368249


## Retirer une colonne

Regardons la colonne «Nature de coûts» de plus près. La valeur est partout la même:

In [38]:
df['Nature de coûts'].value_counts()

Nature de coûts
Personnel    44
Name: count, dtype: int64

Elle ne nous sert à rien. On peut l’éliminer avec **`del`**.

Vous connaissez `del` pour les listes?

In [39]:
array = ['a', 'b']
del array[0]
array

['b']

Pour les colonnes, c’est pareil:

In [40]:
del df['Nature de coûts']

## Trier
Dans Pandas, le tri se fait avec la méthode `.sort_values("nom_colonne_ici")`.

In [41]:
df.sort_values('Maximum').head()

Unnamed: 0,Année,Prestation,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR,Maximum
39,2018,Prestations de services,199456,1744989,2025399,2408620,1707231,2408620
35,2017,Prestations de services,405726,1781042,2567974,2555640,1689654,2567974
31,2016,Prestations de services,301265,1646523,1551425,2657838,1687785,2657838
43,2019,Prestations de services,520148,2349377,2639705,2676579,1724585,2676579
23,2014,Prestations de services,96074,1429297,1377381,3015743,2972196,3015743


Que s’est-il passé? Par défaut, Pandas trie par ordre ascendant. Pour obtenir l’inverse, il faut préciser `ascending=False`:

In [42]:
df.sort_values('Maximum', ascending=False).head()

Unnamed: 0,Année,Prestation,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR,Maximum
40,2019,Enseignement de base,1994090,12553917,43207376,9054637,9650727,43207376
36,2018,Enseignement de base,1932761,13542045,41950755,8633675,9564308,41950755
28,2016,Enseignement de base,2078340,12929548,40957918,7985699,9823898,40957918
32,2017,Enseignement de base,1977361,13338050,40114348,8059686,9600105,40114348
24,2015,Enseignement de base,2080177,13244598,35680912,8037192,9517863,35680912


## Tri avec plusieurs colonnes

Si on donne une liste de colonnes à `sort_values()`, il fait un tri multi-colonnes:

In [43]:
df.sort_values(['Année', 'Maximum'], ascending=False).head(10)

Unnamed: 0,Année,Prestation,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR,Maximum
40,2019,Enseignement de base,1994090,12553917,43207376,9054637,9650727,43207376
41,2019,Recherche appliquée et développement,235679,2176814,12663265,1972288,2079828,12663265
42,2019,Formation continue,494971,3874482,8691043,1661413,2018726,8691043
43,2019,Prestations de services,520148,2349377,2639705,2676579,1724585,2676579
36,2018,Enseignement de base,1932761,13542045,41950755,8633675,9564308,41950755
37,2018,Recherche appliquée et développement,256710,2238965,12667583,1787200,2118586,12667583
38,2018,Formation continue,154446,3499772,7656946,1666031,1797675,7656946
39,2018,Prestations de services,199456,1744989,2025399,2408620,1707231,2408620
32,2017,Enseignement de base,1977361,13338050,40114348,8059686,9600105,40114348
33,2017,Recherche appliquée et développement,275926,2164651,11608392,1465795,1168407,11608392


## Diviser
Et si on rendait les nombres plus lisibles en les divisant par un million?

In [44]:
df['Maximum (millions)'] = df['Maximum'] / 1000000

In [45]:
df[['Année', 'Prestation', 'Maximum (millions)']].head()

Unnamed: 0,Année,Prestation,Maximum (millions)
0,2009,Enseignement de base,22.487075
1,2009,Recherche appliquée et développement,4.998217
2,2009,Formation continue,6.571043
3,2009,Prestations de services,3.767684
4,2010,Enseignement de base,20.368249


## Arrondir
Vous vous rappelez de `round()`? Ça marche aussi!

In [46]:
df['Maximum (millions)'] = round(df['Maximum (millions)'], 1)

df[['Année', 'Prestation', 'Maximum (millions)']].head()

Unnamed: 0,Année,Prestation,Maximum (millions)
0,2009,Enseignement de base,22.5
1,2009,Recherche appliquée et développement,5.0
2,2009,Formation continue,6.6
3,2009,Prestations de services,3.8
4,2010,Enseignement de base,20.4


Déjà plus clair.

Peut-être qu’on peut tout diviser par un million?

## Exercice

* Sélectionnez et affichez les données de 2018

* Dans une autre cellule, sélectionnez la Formation continue uniquement (avec à nouveau toutes les années)

* Mettons que vous voulez faire un graphique. Quelles données auriez-vous envie de montrer? (Répondez en une ou deux phrases, sans écrire de code, dans la cellule de texte tout en bas)

### Cellule de texte
Vous pouvez répondre à la 3e question ici

…

