# Pandas quand ça se complique

Le cas d’un fichier un peu moins «propre»…

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('couverture-charges-hautes-ecoles.csv')

Voyons à quoi ressemblent les 5 premières lignes

In [None]:
df.head(5)

## Filtrer

Argh, tout est mélangé. Regardons les données 2019:

In [None]:
df[ df['Année'] == 2019 ]

A nouveau, on peut se limiter à certaines colonnes. Pour ce faire, on a vu qu’il faut indiquer à Pandas une liste de colonnes:

`valuesToShow = ['colonne1', 'colonne2]
df[valuesToShow]`

Ce qu’on peut aussi directement écrire:
`df[['colonne1', 'colonne2]]`

Attention, dans ce cas il faut **deux fois les parenthèses carrées**!

In [None]:
df[[2019, 'IHEID']]

Maintenant, si on filtre davantage: mettons qu’on s’intéresse uniquement à 2019 et aux montants supérieurs à zéro, à l’IHEID…

In [None]:
df[ (df['Année'] == 2019) & (df['IHEID'] > 0) ]

Que s’est-il passé? Pas de panique. On a déjà vu ce genre de trucs. Python nous dit qu’on ne peut pas comparer un "string" et un "integer" avec l’opérateur ">". Ça signifie que soit le chiffre 0, soit la colonne IHEID n’est pas un entier.

Voyons si on peut regarder cette colonne de plus près.

In [None]:
df['IHEID'].values

Aïe. Le fichier de l’OFS contient des "…". Ce n’est pas un entier, du coup Pandas considère toute cette colonne comme du texte et notre erreur vient de là.

On abandonne l’IHEID et on va regarder l’UNIGE. Ça devrait marcher:

In [None]:
df['GE'].values

On redéfinit nos colonnes à afficher:

In [None]:
columnsToShow = ['Source de financement', 'GE']
df[ (df['Année'] == 2019) & (df['GE'] > 0) ][columnsToShow]

## Mettre un sous-ensemble dans une variable
Dans Pandas, le tri se fait avec la méthode `.sort_values("nom_colonne_ici")`.

Mais commençons par enregistrer les données genevoises dans une variable, on gagnera du temps…

In [None]:
df_GE = df[ (df['Année'] == 2019) & (df['GE'] > 0) ][columnsToShow]

In [None]:
df_GE.sort_values('GE')

Que s’est-il passé? Par défaut, Pandas trie par ordre ascendant. Pour obtenir l’inverse, il faut préciser `ascending=False`:

In [None]:
df_GE = df_GE.sort_values('GE', ascending=False)
df_GE

C’est bien, mais pas très lisible. Si on divisait par mille?

In [None]:
df_GE['UNIGE, en milliers'] = df_GE['GE'] / 1000
df_GE

Et pour enlever ces décimales? Oui, vous avez déjà vu cette fonction!

In [None]:
df_GE['UNIGE, en milliers'] = round(df_GE['UNIGE, en milliers'])
df_GE

## Exercice

- Comment a été principalement financée l’Université de Fribourg en 2019?
- Et en 1999?
- Réfléchissez à la structure des données. Est-elle pratique à explorer? Quelle structure vous paraîtrait plus pratique? (Ici, pas besoin de coder bien sûr. Notez vos idées quelque part, par exemple dans le bloc «Structure des données» ci-dessous.)

In [1]:
df[df [Année] == 2019]

NameError: name 'df' is not defined

### Structure des données

[Un endroit où vous pouvez noter des idées]