# Premier pas avec Pandas

Pandas est un module destiné à la manipulation de données. Il a été créé en 2008 et est très activement développé depuis. Il a été conçu au départ pour l’analyse de données financières.

On l’importe comme n’importe quel module, et l’usage est de l’abrévier en «pd», grâce au mot-clé `as`:

In [4]:
import pandas as pd

Dans Excel, on parle de «feuilles de calcul». L’équivalent, dans Pandas, est un **DataFrame**, qu’on abrège **df**.

Pour vous familiariser avec cet objet, on va ouvrir [des données de l’OFS obtenues sur STAT-TAB](http://www.pxweb.bfs.admin.ch/sq/a39f8d09-9e2b-4a58-b67a-51d22ebbe989):

In [5]:
df = pd.read_csv('couts-personnel-hautes-ecoles.csv')

Voyons à quoi ressemblent les 5 premières lignes

In [6]:
df.head()

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
0,2009,Enseignement de base,Personnel,1845950,11603840,22487075,7449804,7679101
1,2009,Recherche appliquée et développement,Personnel,174791,1254804,4998217,1163338,1655812
2,2009,Formation continue,Personnel,137429,3937666,6571043,538089,1681846
3,2009,Prestations de services,Personnel,133224,1431853,2123045,0,3767684
4,2010,Enseignement de base,Personnel,1787920,14031903,20368249,7553247,9476562


## Filtrer

Regardons maintenant l’année 2019. Avec Pandas, ça se fait comme suit:

In [8]:
df[ df['Année'] == 2019 ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
40,2019,Enseignement de base,Personnel,1994090,12553917,43207376,9054637,9650727
41,2019,Recherche appliquée et développement,Personnel,235679,2176814,12663265,1972288,2079828
42,2019,Formation continue,Personnel,494971,3874482,8691043,1661413,2018726
43,2019,Prestations de services,Personnel,520148,2349377,2639705,2676579,1724585


In [10]:
df[ df['HETS-GE'] < 100000 ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VD,HEP-VS,HEP-FR
11,2011,Prestations de services,Personnel,81651,1443942,1683585,0,3260529
23,2014,Prestations de services,Personnel,96074,1429297,1377381,3015743,2972196
27,2015,Prestations de services,Personnel,86708,1349543,1569324,2892061,3040953


Autrement dit: on a demandé «Montre moi le dataframe pour lequel la colonne «Année» est égale à 2019».

On peut choisir d’afficher uniquement certaines colonnes. Pour ce faire, on utilise une liste:

In [12]:
columnsToShow = ['Année', 'HEP-VD', 'HEP-FR']

In [20]:
test = list(df.columns)

In [22]:
test.remove('HEP-VD')

In [23]:
df[ test ]

Unnamed: 0,Année,Prestation,Nature de coûts,HETS-GE,HEP-BEJUNE,HEP-VS,HEP-FR
0,2009,Enseignement de base,Personnel,1845950,11603840,7449804,7679101
1,2009,Recherche appliquée et développement,Personnel,174791,1254804,1163338,1655812
2,2009,Formation continue,Personnel,137429,3937666,538089,1681846
3,2009,Prestations de services,Personnel,133224,1431853,0,3767684
4,2010,Enseignement de base,Personnel,1787920,14031903,7553247,9476562
5,2010,Recherche appliquée et développement,Personnel,149512,1502861,967376,1042346
6,2010,Formation continue,Personnel,146551,3804777,1809025,1295660
7,2010,Prestations de services,Personnel,100169,1419544,0,3133284
8,2011,Enseignement de base,Personnel,1821890,14199474,8023424,9812603
9,2011,Recherche appliquée et développement,Personnel,228251,1537543,968652,1208909


In [24]:
df['Prestation'].value_counts()

Formation continue                      11
Enseignement de base                    11
Recherche appliquée et développement    11
Prestations de services                 11
Name: Prestation, dtype: int64

Mettons qu’on s’intéresse uniquement à 2019 et aux montants supérieurs à zéro, à l’IHEID…

In [22]:
df[ (df['Année'] == 2019) & (df['IHEID'] > 0) ]

TypeError: '>' not supported between instances of 'str' and 'int'

Que s’est-il passé? Pas de panique. On a déjà vu ce genre de trucs. Python nous dit qu’on ne peut pas comparer un "string" et un "integer" avec l’opérateur ">". Ça signifie que soit le chiffre 0, soit la colonne IHEID n’est pas un entier.

Voyons si on peut regarder cette colonne de plus près.

In [27]:
df['IHEID'].values

array(['...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...', '...', '...', '...', '...', '...', '...', '...',
       '...', '...',

Aïe. Le fichier de l’OFS contient des "…". Ce n’est pas un entier, du coup Pandas considère toute cette colonne comme du texte et notre erreur vient de là.

On abandonne l’IHEID et on va regarder l’UNIGE. Ça devrait marcher:

In [32]:
df['GE'].values

array([  3400000,   7710000, 279440000,   1958000,  22358000,         0,
               0,         0,         0,         0,         0,         0,
        69733000,         0,         0,         0,         0,  45540000,
               0,         0,         0,         0,         0,         0,
               0,         0,         0,         0,         0,         0,
               0,         0,         0,         0,         0,         0,
        -7881000,  80741000,  10094425,   7594914, 301109420,     90000,
        22863256,   9502309,         0,         0,         0,         0,
               0, -28180000,  62125676,         0,         0,         0,
        -2579000,  47359250,         0,         0,     50873,         0,
               0,   4821991,         0,         0,         0,         0,
               0,         0,       500,         0,         0,  48466520,
               0,   4097422,  -7488000,  23555130,   8297000,         0,
       301295000,         0,  22880000,         0, 

On redéfinit nos colonnes à afficher:

In [35]:
columnsToShow = ['Source de financement', 'GE']
df[ (df['Année'] == 2019) & (df['GE'] > 0) ][columnsToShow]

Unnamed: 0,Source de financement,GE
912,Ecolage,13580478
913,Autres moyens propres de la haute école,20205526
914,Canton universitaire: couverture ou budget,370732623
916,Autres cantons: accord intercantonal universit...,37795445
917,Autres cantons: autres subventions,2625808
918,Confédération: contributions aux investissemen...,448785
919,Confédération: contributions liées à des proje...,739396
924,Confédération: subventions de base LEHE (autre...,110890055
927,Financement de projets de l'UE par le FNS (dès...,1918653
929,Projets du FNS,85110337


## Trier
Dans Pandas, le tri se fait avec la méthode `.sort_values("nom_colonne_ici")`.

Mais commençons par enregistrer les données genevoises dans une variable, on gagnera du temps…

In [39]:
df_GE = df[ (df['Année'] == 2019) & (df['GE'] > 0) ][columnsToShow]

In [40]:
df_GE.sort_values('GE')

Unnamed: 0,Source de financement,GE
918,Confédération: contributions aux investissemen...,448785
919,Confédération: contributions liées à des proje...,739396
937,Financement de projets de l'UE par le SEFRI,1739988
927,Financement de projets de l'UE par le FNS (dès...,1918653
917,Autres cantons: autres subventions,2625808
932,Autres programmes internationaux,2639115
930,Projets de Innosuisse (autrefois CTI),2866273
939,Mandats de recherche des autres collectivités ...,12112604
933,Mandats de recherche de la Confédération,12662390
931,Programmes de recherche de l'UE,12979363


Que s’est-il passé? Par défaut, Pandas trie par ordre ascendant. Pour obtenir l’inverse, il faut préciser `ascending=False`:

In [43]:
df_GE = df_GE.sort_values('GE', ascending=False)
df_GE

Unnamed: 0,Source de financement,GE
914,Canton universitaire: couverture ou budget,370732623
924,Confédération: subventions de base LEHE (autre...,110890055
929,Projets du FNS,85110337
940,Revenus des prestations de service,80459268
916,Autres cantons: accord intercantonal universit...,37795445
938,Mandats de recherche du secteur privé,24933883
913,Autres moyens propres de la haute école,20205526
912,Ecolage,13580478
941,Revenus de la formation continue,13551495
931,Programmes de recherche de l'UE,12979363


C’est bien, mais pas très lisible. Si on divisait par mille?

In [51]:
df_GE['UNIGE, en milliers'] = df_GE['GE'] / 1000
df_GE

Unnamed: 0,Source de financement,GE,"UNIGE, en milliers"
914,Canton universitaire: couverture ou budget,370732623,370732.623
924,Confédération: subventions de base LEHE (autre...,110890055,110890.055
929,Projets du FNS,85110337,85110.337
940,Revenus des prestations de service,80459268,80459.268
916,Autres cantons: accord intercantonal universit...,37795445,37795.445
938,Mandats de recherche du secteur privé,24933883,24933.883
913,Autres moyens propres de la haute école,20205526,20205.526
912,Ecolage,13580478,13580.478
941,Revenus de la formation continue,13551495,13551.495
931,Programmes de recherche de l'UE,12979363,12979.363


Et pour enlever ces décimales? Oui, vous avez déjà vu cette fonction!

In [54]:
df_GE['UNIGE, en milliers'] = round(df_GE['UNIGE, en milliers'])
df_GE

Unnamed: 0,Source de financement,GE,"UNIGE, en milliers"
914,Canton universitaire: couverture ou budget,370732623,370733.0
924,Confédération: subventions de base LEHE (autre...,110890055,110890.0
929,Projets du FNS,85110337,85110.0
940,Revenus des prestations de service,80459268,80459.0
916,Autres cantons: accord intercantonal universit...,37795445,37795.0
938,Mandats de recherche du secteur privé,24933883,24934.0
913,Autres moyens propres de la haute école,20205526,20206.0
912,Ecolage,13580478,13580.0
941,Revenus de la formation continue,13551495,13551.0
931,Programmes de recherche de l'UE,12979363,12979.0


## Exercice

- Comment a été principalement financée l’Université de Fribourg en 2019?
- Et en 1999?
- Réfléchissez à la structure des données. Est-elle pratique à explorer? Quelle structure vous paraîtrait plus pratique? (Ici, pas besoin de coder bien sûr. Notez vos idées quelque part, par exemple dans le bloc «Structure des données» ci-dessous.)

### Structure des données

[Un endroit où vous pouvez noter des idées]