# Pandas quand ça se complique

Le cas d’un fichier un peu moins «propre»…

In [26]:
import pandas as pd

In [27]:
df = pd.read_csv('couverture-charges-hautes-ecoles.csv')

Voyons à quoi ressemblent les 5 premières lignes

In [28]:
df.head()

Unnamed: 0,Année,Source de financement,BS,BE,FR,GE,LS,LU,NE,SG,UZH,USI,EPFL,ETHZ,FS-CH,IHEID
0,1995,Ecolage,7057248,8015360,5144738,3400000,5811377,198405,1921134,3484643,18823722,0,3041000,5591000,...,...
1,1995,Autres moyens propres de la haute école,3944795,29832251,3530732,7710000,3777604,94816,1135937,1443054,49688289,0,0,0,...,...
2,1995,Canton universitaire: couverture ou budget,86693000,262899000,33095904,279440000,150095000,3846854,28989988,22115000,391236460,0,0,0,...,...
3,1995,Canton: imputations internes (jusqu'en 1999),0,442000,0,1958000,0,0,0,2923000,0,0,0,0,...,...
4,1995,Autres cantons: accord intercantonal universit...,17783363,30926256,40067064,22358000,20910540,1124035,10147579,17319754,53931787,0,0,0,...,...


## Filtrer

Argh, tout est mélangé. Regardons les données 2019:

In [4]:
df[ df['Année'] == 2019 ]

Unnamed: 0,Année,Source de financement,BS,BE,FR,GE,LS,LU,NE,SG,UZH,USI,EPFL,ETHZ,FS-CH,IHEID
912,2019,Ecolage,21073923,19668410,12395965,13580478,16981900,4316166,3123275,20650688,29441886,13110494,11587958,18030670,4820020,6577521
913,2019,Autres moyens propres de la haute école,405736,1575172,4703778,20205526,9078755,1182989,1149917,4251800,182138551,5610283,2378997,44274689,148177,7932563
914,2019,Canton universitaire: couverture ou budget,337300700,317760427,98634515,370732623,348268664,19386789,48729181,54336400,623783826,24050053,0,0,3009664,15036918
915,2019,Canton: imputations internes (jusqu'en 1999),0,0,0,0,0,0,0,0,0,0,0,0,0,0
916,2019,Autres cantons: accord intercantonal universit...,80350525,113447017,62930080,37795445,65819779,14641101,21901682,43385430,155241548,13440218,0,0,10462160,739350
917,2019,Autres cantons: autres subventions,0,0,0,2625808,0,0,0,0,0,0,0,0,40000,0
918,2019,Confédération: contributions aux investissemen...,3085851,0,116062,448785,288781,0,0,299084,2169287,0,0,0,0,0
919,2019,Confédération: contributions liées à des proje...,1426076,0,5116377,739396,3541336,1020385,685021,2044807,2551838,5408558,0,0,97144,0
920,2019,Confédération: autres subventions,0,5197268,0,0,0,0,8650,18368,0,248904,0,0,0,0
921,2019,Fondations,1520870,2302987,0,0,0,233500,0,1107850,141653,4078583,0,0,0,1447556


On peut afficher uniquement certaines colonnes. Pour ce faire, on a vu qu’il faut indiquer à Pandas une liste de colonnes:

`valuesToShow = ['colonne1', 'colonne2']
df[valuesToShow]`

Ce qu’on peut aussi directement écrire:
`df[['colonne1', 'colonne2]]`

Attention, dans ce cas il faut **deux fois les parenthèses carrées**!
- une fois pour le dataframe **df**, sur le même principe que quand on prend un élément donnée dans une liste: **maliste[3]** (si vous aimez le jargon: on appelle ça l’*opérateur d’index (index operator)*)
- une fois pour notre liste de colonnes: **[**'colonne1', ...**]**

In [5]:
df[['Année', 'IHEID']]

Unnamed: 0,Année,IHEID
0,1995,...
1,1995,...
2,1995,...
3,1995,...
4,1995,...
...,...,...
945,2019,0
946,2019,0
947,2019,0
948,2019,0


Maintenant, si on filtre davantage: mettons qu’on s’intéresse uniquement à 2019 et aux montants supérieurs à zéro, à l’IHEID…

In [15]:
df[ (df['Année'] == 2019) & (df['IHEID'] > 0) ]

TypeError: '>' not supported between instances of 'str' and 'int'

Que s’est-il passé? Pas de panique. On a déjà vu ce genre de trucs. Python nous dit qu’on ne peut pas comparer un "string" et un "integer" avec l’opérateur ">". Ça signifie que soit le chiffre 0, soit la colonne IHEID n’est pas un entier.

Voyons si on peut regarder cette colonne de plus près.

In [16]:
pd.set_option('max_rows', None)

In [17]:
df[['IHEID']]

Unnamed: 0,IHEID
0,...
1,...
2,...
3,...
4,...
5,...
6,...
7,...
8,...
9,...


Aïe. Le fichier de l’OFS contient des "…". Ce n’est pas un entier, du coup Pandas considère toute cette colonne comme du texte et notre erreur vient de là.

On abandonne l’IHEID et on va regarder l’UNIGE. Ça devrait marcher:

In [18]:
df['GE'].values

array([  3400000,   7710000, 279440000,   1958000,  22358000,         0,
               0,         0,         0,         0,         0,         0,
        69733000,         0,         0,         0,         0,  45540000,
               0,         0,         0,         0,         0,         0,
               0,         0,         0,         0,         0,         0,
               0,         0,         0,         0,         0,         0,
        -7881000,  80741000,  10094425,   7594914, 301109420,     90000,
        22863256,   9502309,         0,         0,         0,         0,
               0, -28180000,  62125676,         0,         0,         0,
        -2579000,  47359250,         0,         0,     50873,         0,
               0,   4821991,         0,         0,         0,         0,
               0,         0,       500,         0,         0,  48466520,
               0,   4097422,  -7488000,  23555130,   8297000,         0,
       301295000,         0,  22880000,         0, 

On redéfinit nos colonnes à afficher:

In [19]:
columnsToShow = ['Source de financement', 'GE']
df[ (df['Année'] == 2019) & (df['GE'] > 0) ][columnsToShow]

Unnamed: 0,Source de financement,GE
912,Ecolage,13580478
913,Autres moyens propres de la haute école,20205526
914,Canton universitaire: couverture ou budget,370732623
916,Autres cantons: accord intercantonal universit...,37795445
917,Autres cantons: autres subventions,2625808
918,Confédération: contributions aux investissemen...,448785
919,Confédération: contributions liées à des proje...,739396
924,Confédération: subventions de base LEHE (autre...,110890055
927,Financement de projets de l'UE par le FNS (dès...,1918653
929,Projets du FNS,85110337


## Mettre un sous-ensemble dans une variable
Dans Pandas, le tri se fait avec la méthode `.sort_values("nom_colonne_ici")`.

Mais commençons par enregistrer les données genevoises dans une variable, on gagnera du temps…

In [20]:
df_GE = df[ (df['Année'] == 2019) & (df['GE'] > 0) ][columnsToShow]

In [None]:
df_GE.sort_values('GE')

Que s’est-il passé? Par défaut, Pandas trie par ordre ascendant. Pour obtenir l’inverse, il faut préciser `ascending=False`:

In [21]:
df_GE = df_GE.sort_values('GE', ascending=False)
df_GE

Unnamed: 0,Source de financement,GE
914,Canton universitaire: couverture ou budget,370732623
924,Confédération: subventions de base LEHE (autre...,110890055
929,Projets du FNS,85110337
940,Revenus des prestations de service,80459268
916,Autres cantons: accord intercantonal universit...,37795445
938,Mandats de recherche du secteur privé,24933883
913,Autres moyens propres de la haute école,20205526
912,Ecolage,13580478
941,Revenus de la formation continue,13551495
931,Programmes de recherche de l'UE,12979363


C’est bien, mais pas très lisible. Si on divisait par mille?

In [22]:
df_GE['UNIGE, en milliers'] = df_GE['GE'] / 1000
df_GE

Unnamed: 0,Source de financement,GE,"UNIGE, en milliers"
914,Canton universitaire: couverture ou budget,370732623,370732.623
924,Confédération: subventions de base LEHE (autre...,110890055,110890.055
929,Projets du FNS,85110337,85110.337
940,Revenus des prestations de service,80459268,80459.268
916,Autres cantons: accord intercantonal universit...,37795445,37795.445
938,Mandats de recherche du secteur privé,24933883,24933.883
913,Autres moyens propres de la haute école,20205526,20205.526
912,Ecolage,13580478,13580.478
941,Revenus de la formation continue,13551495,13551.495
931,Programmes de recherche de l'UE,12979363,12979.363


Et pour enlever ces décimales? Oui, vous avez déjà vu cette fonction!

In [23]:
df_GE['UNIGE, en milliers'] = round(df_GE['UNIGE, en milliers'])
df_GE

Unnamed: 0,Source de financement,GE,"UNIGE, en milliers"
914,Canton universitaire: couverture ou budget,370732623,370733.0
924,Confédération: subventions de base LEHE (autre...,110890055,110890.0
929,Projets du FNS,85110337,85110.0
940,Revenus des prestations de service,80459268,80459.0
916,Autres cantons: accord intercantonal universit...,37795445,37795.0
938,Mandats de recherche du secteur privé,24933883,24934.0
913,Autres moyens propres de la haute école,20205526,20206.0
912,Ecolage,13580478,13580.0
941,Revenus de la formation continue,13551495,13551.0
931,Programmes de recherche de l'UE,12979363,12979.0


## Exercice

- Comment a été principalement financée l’Université de Fribourg en 2019?
- Et en 1999?
- Réfléchissez à la structure des données. Est-elle pratique à explorer? Quelle structure vous paraîtrait plus pratique? (Ici, pas besoin de coder bien sûr. Notez vos idées quelque part, par exemple dans le bloc «Structure des données» ci-dessous.)

In [24]:
df[ (df['Année'] == 2019) & (df['FR'] > 0) ][['Source de financement','FR']]

Unnamed: 0,Source de financement,FR
912,Ecolage,12395965
913,Autres moyens propres de la haute école,4703778
914,Canton universitaire: couverture ou budget,98634515
916,Autres cantons: accord intercantonal universit...,62930080
918,Confédération: contributions aux investissemen...,116062
919,Confédération: contributions liées à des proje...,5116377
924,Confédération: subventions de base LEHE (autre...,45602185
926,Frais centraux de la haute école couverts par ...,1636348
927,Financement de projets de l'UE par le FNS (dès...,480202
929,Projets du FNS,31383776


In [25]:
df[ (df['Année'] == 1999) & (df['FR'] > 0) ][['Source de financement','FR']]

Unnamed: 0,Source de financement,FR
152,Ecolage,6764729
153,Autres moyens propres de la haute école,3328727
154,Canton universitaire: couverture ou budget,41601590
156,Autres cantons: accord intercantonal universit...,46064802
158,Confédération: contributions aux investissemen...,3957792
164,Confédération: subventions de base LEHE (autre...,41422680
169,Projets du FNS,11463086
170,Projets de Innosuisse (autrefois CTI),163851
171,Programmes de recherche de l'UE,727467
172,Autres programmes internationaux,319351


### Structure des données
A étudier 




