# Premier pas avec Pandas

Pandas est un module destiné à la manipulation de données. Il a été créé en 2008 et est très activement développé depuis. Il a été conçu au départ pour l’analyse de données financières.

On l’importe comme n’importe quel module, et l’usage est de l’abrévier en «pd», grâce au mot-clé `as`:

In [1]:
import pandas as pd

Dans Excel, on parle de «feuilles de calcul». L’équivalent, dans Pandas, est un **DataFrame**, qu’on abrège **df**.

Pour vous familiariser avec cet objet, on va ouvrir [des données de l’OFS obtenues sur STAT-TAB](http://www.pxweb.bfs.admin.ch/sq/a39f8d09-9e2b-4a58-b67a-51d22ebbe989):

In [2]:
df = pd.read_csv('couts-personnel-hautes-ecoles.csv')

Voyons à quoi ressemblent les 5 premières lignes

In [3]:
df.head()

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
0,2009,Enseignement de base,Personnel,1845950,11603840,22487075,7449804,7679101
1,2009,Recherche appliquée et développement,Personnel,174791,1254804,4998217,1163338,1655812
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846
3,2009,Prestations de services,Personnel,133224,1431853,2123045,0,3767684
4,2010,Enseignement de base,Personnel,1787920,14031903,20368249,7553247,9476562


## Lister les valeurs d’une colonne
Dans la colonne «Prestation», on voit que «Enseignement de base» apparaît au moins deux fois. Et si on regardait combien de fois apparaît chaque valeur de cette colonne?
Pour ce faire, on utilise **`.value_counts()`**.

In [4]:
df['Prestation'].value_counts()

Enseignement de base                    11
Formation continue                      11
Recherche appliquée et développement    11
Prestations de services                 11
Name: Prestation, dtype: int64

## Filtrer

Regardons maintenant l’année 2019. Avec Pandas, ça se fait comme suit:

In [9]:
df[ df['Année'] == 2018 ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
36,2018,Enseignement de base,Personnel,1932761,13542045,41950755,8633675,9564308
37,2018,Recherche appliquée et développement,Personnel,256710,2238965,12667583,1787200,2118586
38,2018,Formation continue,Personnel,154446,3499772,7656946,1666031,1797675
39,2018,Prestations de services,Personnel,199456,1744989,2025399,2408620,1707231


In [15]:
df.max(axis=1)

0     22487075
1      4998217
2      6571043
3      3767684
4     20368249
5      5581505
6      6037990
7      3133284
8     29579659
9      5949069
10     6233707
11     3260529
12    29088265
13     4298163
14     6031208
15     3379067
16    27579774
17     8595311
18     6829192
19     3172321
20    33173159
21    10058791
22     7206509
23     3015743
24    35680912
25    10589840
26     7218741
27     3040953
28    40957918
29    10823988
30     7541424
31     2657838
32    40114348
33    11608392
34     7512039
35     2567974
36    41950755
37    12667583
38     7656946
39     2408620
40    43207376
41    12663265
42     8691043
43     2676579
dtype: int64

Autrement dit: on a demandé «Montre moi le dataframe pour lequel la colonne «Année» est égale à 2019».

On peut choisir d’afficher uniquement certaines colonnes. Pour ce faire, on utilise une liste:

In [6]:
columnsToShow = ['Année', 'HEP-VD', 'HEP-FR']

In [7]:
df[columnsToShow].head()

Unnamed: 0,Année,HEP-VD,HEP-FR
0,2009,22487075,7679101
1,2009,4998217,1655812
2,2009,6571043,1681846
3,2009,2123045,3767684
4,2010,20368249,9476562


Mettons qu’on s’intéresse uniquement à 2018 et aux montants inférieurs à 100 000 à la HEP-VD. Pour combiner ces deux critères, on met les filtres dans des parenthèses et on utilise l’opérateur **`&`** pour  **and**.

In [8]:
df[ (df['Année'] == 2019) & (df['HEP-VD'] > 0) ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
40,2019,Enseignement de base,Personnel,1994090,12553917,43207376,9054637,9650727
41,2019,Recherche appliquée et développement,Personnel,235679,2176814,12663265,1972288,2079828
42,2019,Formation continue,Personnel,494971,3874482,8691043,1661413,2018726
43,2019,Prestations de services,Personnel,520148,2349377,2639705,2676579,1724585


### Trouver le maximum

Pandas trouve instantanément le maximum d’une ligne ou une colonne d’un jeu de données.

Commençons par une colonne…

In [9]:
df['HEP-VD'].max()

43207376

On peut aussi le demander pour toutes les colonnes:

In [10]:
df.max()

Année                                              2019
Prestation         Recherche appliquée et développement
Nature de coûts                               Personnel
HETS-GE                                         2122376
HEP-BEJUNE                                     14199474
HEP-VD                                         43207376
HEP-VS                                          9054637
HEP-FR                                         10184870
dtype: object

#### Et pour les lignes?
Pour voir le maximum par ligne, on précise qu’on veut l’axe 1 (horizontal): `df.max(axis=1)`.

In [11]:
df.max(axis=1)

0     22487075
1      4998217
2      6571043
3      3767684
4     20368249
5      5581505
6      6037990
7      3133284
8     29579659
9      5949069
10     6233707
11     3260529
12    29088265
13     4298163
14     6031208
15     3379067
16    27579774
17     8595311
18     6829192
19     3172321
20    33173159
21    10058791
22     7206509
23     3015743
24    35680912
25    10589840
26     7218741
27     3040953
28    40957918
29    10823988
30     7541424
31     2657838
32    40114348
33    11608392
34     7512039
35     2567974
36    41950755
37    12667583
38     7656946
39     2408620
40    43207376
41    12663265
42     8691043
43     2676579
dtype: int64

Génial! Et si on mettait ça dans une colonne? Comme dans Excel, en fait…

## Ajouter une colonne

Pandas vous permet d’ajouter une colonne plus ou moins de la même manière que vous donnez une valeur à une variable.

In [12]:
df['Maximum'] = df.max(axis=1)

In [13]:
df.head()

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR,Maximum
0,2009,Enseignement de base,Personnel,1845950,11603840,22487075,7449804,7679101,22487075
1,2009,Recherche appliquée et développement,Personnel,174791,1254804,4998217,1163338,1655812,4998217
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846,6571043
3,2009,Prestations de services,Personnel,133224,1431853,2123045,0,3767684,3767684
4,2010,Enseignement de base,Personnel,1787920,14031903,20368249,7553247,9476562,20368249


## Retirer une colonne

Regardons la colonne «Nature de coûts» de plus près. La valeur est partout la même:

In [14]:
df['Nature de coûts'].value_counts()

Personnel    44
Name: Nature de coûts, dtype: int64

Elle ne nous sert à rien. On peut l’éliminer avec **`del`**.

Vous connaissez `del` pour les listes?

In [15]:
array = ['a', 'b']
del array[0]
array

['b']

Pour les colonnes, c’est pareil:

In [16]:
del df['Nature de coûts']

## Trier
Dans Pandas, le tri se fait avec la méthode `.sort_values("nom_colonne_ici")`.

In [17]:
df.sort_values('Maximum')

Unnamed: 0,Année,Prestation,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR,Maximum
39,2018,Prestations de services,199456,1744989,2025399,2408620,1707231,2408620
35,2017,Prestations de services,405726,1781042,2567974,2555640,1689654,2567974
31,2016,Prestations de services,301265,1646523,1551425,2657838,1687785,2657838
43,2019,Prestations de services,520148,2349377,2639705,2676579,1724585,2676579
23,2014,Prestations de services,96074,1429297,1377381,3015743,2972196,3015743
27,2015,Prestations de services,86708,1349543,1569324,2892061,3040953,3040953
7,2010,Prestations de services,100169,1419544,858899,0,3133284,3133284
19,2013,Prestations de services,121384,1469451,1051416,0,3172321,3172321
11,2011,Prestations de services,81651,1443942,1683585,0,3260529,3260529
15,2012,Prestations de services,119333,1457441,1148518,0,3379067,3379067


Que s’est-il passé? Par défaut, Pandas trie par ordre ascendant. Pour obtenir l’inverse, il faut préciser `ascending=False`:

In [18]:
df.sort_values('Maximum', ascending=False)

Unnamed: 0,Année,Prestation,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR,Maximum
40,2019,Enseignement de base,1994090,12553917,43207376,9054637,9650727,43207376
36,2018,Enseignement de base,1932761,13542045,41950755,8633675,9564308,41950755
28,2016,Enseignement de base,2078340,12929548,40957918,7985699,9823898,40957918
32,2017,Enseignement de base,1977361,13338050,40114348,8059686,9600105,40114348
24,2015,Enseignement de base,2080177,13244598,35680912,8037192,9517863,35680912
20,2014,Enseignement de base,2122376,12717387,33173159,8458984,9638424,33173159
8,2011,Enseignement de base,1821890,14199474,29579659,8023424,9812603,29579659
12,2012,Enseignement de base,1879788,13825057,29088265,8453706,10184870,29088265
16,2013,Enseignement de base,2051730,13420288,27579774,8342866,9933486,27579774
0,2009,Enseignement de base,1845950,11603840,22487075,7449804,7679101,22487075


## Diviser
Et si on rendait ça plus lisible en divisant par un million?

In [28]:
df['Maximum (millions)'] = df['Maximum'] / 1000000

In [29]:
df[['Année', 'Prestation', 'Maximum (millions)']].head()

Unnamed: 0,Année,Prestation,Maximum (millions)
0,2009,Enseignement de base,22.487075
1,2009,Recherche appliquée et développement,4.998217
2,2009,Formation continue,6.571043
3,2009,Prestations de services,3.767684
4,2010,Enseignement de base,20.368249


## Arrondir
Vous vous rappelez de `round()`? Ça marche aussi!

In [30]:
df['Maximum (millions)'] = round(df['Maximum (millions)'], 1)

df[['Année', 'Prestation', 'Maximum (millions)']].head()

Unnamed: 0,Année,Prestation,Maximum (millions)
0,2009,Enseignement de base,22.5
1,2009,Recherche appliquée et développement,5.0
2,2009,Formation continue,6.6
3,2009,Prestations de services,3.8
4,2010,Enseignement de base,20.4


Déjà plus clair.

Peut-être qu’on peut tout diviser par un million?

## Exercice

* Sélectionnez et affichez les données de 2018

* Dans une autre cellule, sélectionnez la Formation continue uniquement (avec à nouveau toutes les années)

* (En texte, sans programmation) Mettons que vous voulez faire un graphique. Quelles données auriez-vous envie de montrer?

In [17]:
df[ df['Année'] == 2018 ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
36,2018,Enseignement de base,Personnel,1932761,13542045,41950755,8633675,9564308
37,2018,Recherche appliquée et développement,Personnel,256710,2238965,12667583,1787200,2118586
38,2018,Formation continue,Personnel,154446,3499772,7656946,1666031,1797675
39,2018,Prestations de services,Personnel,199456,1744989,2025399,2408620,1707231


In [18]:
df[ df['Prestation'] == "Formation continue" ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846
6,2010,Formation continue,Personnel,146551,3804777,6037990,1809025,1295660
10,2011,Formation continue,Personnel,133821,4066746,6233707,1877448,1275166
14,2012,Formation continue,Personnel,161025,5179649,6031208,1746074,1330662
18,2013,Formation continue,Personnel,193299,4876828,6829192,1886098,1982338
22,2014,Formation continue,Personnel,160397,5048905,7206509,1706339,1917978
26,2015,Formation continue,Personnel,223118,4967718,7218741,1693342,1761967
30,2016,Formation continue,Personnel,314951,4968285,7541424,1693019,1915273
34,2017,Formation continue,Personnel,341191,3358434,7512039,1674016,1962059
38,2018,Formation continue,Personnel,154446,3499772,7656946,1666031,1797675


In [21]:
df.sort_values('HETS-GE')

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
11,2011,Prestations de services,Personnel,81651,1443942,1683585,0,3260529
27,2015,Prestations de services,Personnel,86708,1349543,1569324,2892061,3040953
23,2014,Prestations de services,Personnel,96074,1429297,1377381,3015743,2972196
7,2010,Prestations de services,Personnel,100169,1419544,858899,0,3133284
15,2012,Prestations de services,Personnel,119333,1457441,1148518,0,3379067
19,2013,Prestations de services,Personnel,121384,1469451,1051416,0,3172321
3,2009,Prestations de services,Personnel,133224,1431853,2123045,0,3767684
10,2011,Formation continue,Personnel,133821,4066746,6233707,1877448,1275166
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846
6,2010,Formation continue,Personnel,146551,3804777,6037990,1809025,1295660


In [22]:
df.sort_values('HETS-GE', ascending=False)

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
20,2014,Enseignement de base,Personnel,2122376,12717387,33173159,8458984,9638424
24,2015,Enseignement de base,Personnel,2080177,13244598,35680912,8037192,9517863
28,2016,Enseignement de base,Personnel,2078340,12929548,40957918,7985699,9823898
16,2013,Enseignement de base,Personnel,2051730,13420288,27579774,8342866,9933486
40,2019,Enseignement de base,Personnel,1994090,12553917,43207376,9054637,9650727
32,2017,Enseignement de base,Personnel,1977361,13338050,40114348,8059686,9600105
36,2018,Enseignement de base,Personnel,1932761,13542045,41950755,8633675,9564308
12,2012,Enseignement de base,Personnel,1879788,13825057,29088265,8453706,10184870
0,2009,Enseignement de base,Personnel,1845950,11603840,22487075,7449804,7679101
8,2011,Enseignement de base,Personnel,1821890,14199474,29579659,8023424,9812603


In [25]:
df[['Année']]

Unnamed: 0,Année
0,2009
1,2009
2,2009
3,2009
4,2010
5,2010
6,2010
7,2010
8,2011
9,2011


### Cellule de texte
Vous pouvez répondre à la 3e question ici

…

