# Tables de données avec Pandas

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/fe/Ailurus_fulgens_RoterPanda_LesserPanda.jpg/394px-Ailurus_fulgens_RoterPanda_LesserPanda.jpg" width="10%">
<!-- Photo Par User:Brunswyk — User:Brunswyk, gescannt Januar 2006, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=502603 !-->

## Manipulation de données

Nous allons apprendre à manipuler des données organisées sous forme de table à une ou
deux dimensions, notamment pour faire des analyses statistiques ou des visualisations.


### Bibliothèque Pandas

[Pandas](https://fr.wikipedia.org/wiki/Pandas) est une bibliothèque Python qui permet de:

- manipuler des tables de données et,
- faire des analyses statistiques

comme on pourrait le faire avec un tableur (libreoffice ou excel par exemple), mais
**programmatiquement**, donc permettant l'**automatisation**.

Les *tables de données* (type `DataFrame`): sont des tableaux à deux (ou plus)
dimensions, avec des étiquettes (*labels*) sur les lignes et les colonnes. Les données ne
sont pas forcément **homogènes**: d'une colonne à l'autre, le type des données peut
changer (chaînes de caractères, flottants, entiers, etc.); de plus certaines données
peuvent être manquantes.

Les *séries* (type `Series`) sont des tables à une seule dimension (des vecteurs),
typiquement obtenues en extrayant une colonne d'un `DataFrame`.

Dans ce cours, par **tableau**, on entendra un tableau à deux dimensions de type
`DataFrame`, tandis que par **série** on entendra un tableau à une dimension de type
`Series`.

On retrouve ces concepts de `DataFrame` et de `Series` dans les autres bibliothèques ou
systèmes d'analyse de données comme [`R`](<https://fr.wikipedia.org/wiki/R_(langage)>).

De plus, Pandas permet de traiter des données massives réparties sur de très nombreux
ordinateurs en s'appuyant sur des bibliothèques de parallélisme comme
[dask](https://dask.org/)

## Séries de données

Nous devons commencer par importer la bibliothèque `pandas`; il est traditionnel de
définir un raccourci `pd`:

In [None]:
import pandas as pd

Construisons une **série** de températures:

In [None]:
temperatures = pd.Series([8.3, 10.5, 4.4, 2.9, 5.7, 11.1], name="Température")
temperatures

Vous noterez que la série est considérée comme une colonne et que les indices de ses
lignes sont affichés. Par défaut, ce sont les entiers $0,1,\ldots$, mais d'autres indices
sont possibles. Comme pour les tableaux C++ ou les listes Python, on utiliser la notation
't[i]' pour extraire la ligne d'indice `i`:

In [None]:
temperatures[3]

La taille de la série s'obtient de manière traditionnelle avec Python avec la fonction
`len`:

In [None]:
len(temperatures)

Calculons la moyenne des températures à l'aide de la **méthode** `mean`:

In [None]:
temperatures.mean()

Calculez la température maximale à l'aide de la méthode `max`:

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

Calculez la température minimale:

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

Quelle est la gamme de données (le *range* en anglais) de température?
C'est-à-dire quelle est la différence entre la température maximale et
la température minimale?

<!--
TODO: mettre une indication repliée par défaut suggérant d'aller voir le cours
!-->

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

## Tableaux de données (`DataFrame`)

Nous allons maintenant construire un tableau contenant les données d'acidité de l'eau de
plusieurs puits. Il aura deux colonnes: l'une pour le nom des puits et l'autre pour la
valeur du pH (l'acidité).

Nous pouvons maintenant construire le tableau à partir de la liste des noms des puits et
la liste des pH des puits:

In [None]:
df = pd.DataFrame({
    "Noms" : ['P1', 'P2', 'P3', 'P4', 'P5', 'P6', 'P7', 'P8', 'P9', 'P10'],
    "pH"   : [ 7.0,  6.5,  6.8,  7.1,  8.0,  7.0,  7.1,  6.8,  7.1,  7.1 ]
})
df

<div class="alert alert-info">

Vous remarquerez que:

- Il est traditionnel de nommer `df` (pour `DataFrame`) la variable contenant le tableau.
  Mais il est souhaitable d'utiliser un meilleur nom chaque fois que naturel!
- La première colonne du tableau donne l'index des lignes. Par défaut, il s'agit de leur
  numéro, commençant à 0, en plus des colonnes "Noms" et "pH".

</div>

Ce tableau à deux dimensions est vu comme une **collection de colonnes**. De ce fait,
`df[label]` extrait la colonne d'étiquette `label`, sous la forme d'une **série**:

In [None]:
df['Noms']

Vous pouvez ensuite accéder à chacune des valeurs du tableau en en précisant le label de
sa colonne puis l'indice de sa ligne. Voici le nom dans la deuxième ligne (indice 1):

In [None]:
df['Noms'][1]

Et la valeur du pH dans la quatrième ligne (indice 3):

In [None]:
df['pH'][3]

<div class="alert alert-info">

Là encore, vous remarquerez que l'accès est de la forme `df[colonne][ligne]` alors
qu'avec un tableau C++ l'accès serait de la forme `t[ligne][colonne]`.

</div>

## Métadonnées et statistiques

Nous utilisons maintenant `Pandas` pour extraire quelques métadonnées et statistiques de
nos données.

D'abord la taille du tableau:

In [None]:
df.shape

Le titre des colonnes:

In [None]:
df.columns

Le nombre de lignes:

In [None]:
len(df)

Des informations générales:

In [None]:
df.info()

La moyenne de chaque colonne pour laquelle cela fait du sens, c'est-à-dire seulement les
colonnes contenant des valeurs numériques (ici que le pH):

In [None]:
df.mean(numeric_only = True)

Les écarts-types:

In [None]:
df.std(numeric_only = True)

La mediane:

In [None]:
df.median(numeric_only = True)

Le quantile 25%:

In [None]:
df.quantile(.25, numeric_only=True)

Les valeurs min et max:

In [None]:
df.min()

In [None]:
df.max()

Un résumé des statistiques principales:

In [None]:
df.describe()

L'indice du pH max:

In [None]:
df['pH'].idxmax()

Un histogramme des pH. *Remarque* : Ici, on a l'option bins = 20, cela veut dire qu'on
divise le range des pH (l'axe des *x*) en 20 groupes de meme taille. Changez la valeur de
bins à 2 et regardez la différence:

In [None]:
df['pH'].hist(bins=20);

Avec pyplot, il est possible de peaufiner le résultat en ajoutant des labels aux axes,
etc:

In [None]:
import matplotlib.pyplot as plt

df['pH'].plot(kind='hist')
plt.grid()
plt.ylabel('Counts')
plt.xlabel('pH');

## Opérations de bases de données

Pandas permet de faire des opérations de bases de données (pour ceux qui ont fait le
projet Données Libres, souvenez-vous de «*select*», «*group by*», «*join*», etc.). Nous
ne montrons ici que la sélection de lignes; vous jouerez avec «*group by*» plus loin.

Transformons le tableau pour que l'une des colonnes serve d'indices; ici nous nous
servirons des noms:

In [None]:
df1 = df.set_index('Noms')
df1

Il est maintenant possible d'accéder à une valeur de pH en utilisant directement le nom
comme index de ligne:

In [None]:
df1['pH']['P1']

Sélectionnons maintenant toutes les lignes de pH $7.1$:

In [None]:
df1[df1['pH'] == 7.1]

**Comment cela fonctionne-t-il?**

Notons `pH` la colonne de même label:

In [None]:
pH = df1['pH']
pH

Comme avec `NumPy`, toutes les opérations sont **vectorisées** sur tous les éléments du
tableau ou de la séries. Ainsi, si l'on écrit `pH + 1` (ce qui n'a pas de sens
mathématique, les objets étant de type très différents: `pH` est une série tandis que `1`
est un nombre), cela ajoute 1 à toutes les valeurs de la série:

In [None]:
pH + 1

De manière similaire, si l'on écrit `pH == 7.1`, cela renvoie une série de booléens,
chacun indiquant si la valeur correspondante est égale ou non à $7.1$:

In [None]:
pH == 7.1

Enfin, si l'on indexe un tableau par une série de booléen, cela extrait les lignes pour
lesquelles la série contient `True`:

In [None]:
df1[pH == 7.1]

## Exercice: les notes

Les notes d'un cours «Info 111» (anonymes!) sont dans le fichier CSV <a
href="notes_info_111.csv">data/notes_info_111.csv</a>. Consultez le contenu de ce fichier:
vous noterez que les valeurs sont séparées par des virgules ',' (CSV: Comma Separated
Value).

Voici comment charger ce fichier comme tableau `Pandas`:

In [None]:
df = pd.read_csv("data/notes_info_111.csv", sep=",")

Affichez la table qui a été chargée ci-dessus:

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

Affichez un résumé des statistiques principales:

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

Avec `DataGrid`, vous pouvez explorer interactivement le tableau; faites quelques essais:

- de filtrage (icône <i class='fa fa-filter'></i>);

- de tri (cliquer sur le titre de la colonne par rapport à laquelle trier).

  :::{admonition} todo
  verifier datagrid pour l'an prochain
  :::

In [None]:
from ipydatagrid import DataGrid
DataGrid(df)

## Exercice: Les prénoms

Dans cet exercice il s'agit d'analyser une base de données qui porte sur les prénoms
donnés à Paris entre 2004 et 2018 (souvenirs du S1?). Ces données sont librement
accessibles également sur le site
[opendata](https://opendata.paris.fr/explore/dataset/liste_des_prenoms) de la ville de
Paris. La commande shell suivante va les télécharger dans le fichier
`liste_des_prenoms.csv` s'il n'est pas déjà présent.

```sh
if [ ! -f liste_des_prenoms.csv ]; then
    curl --http1.1 "https://opendata.paris.fr/explore/dataset/liste_des_prenoms/download/?format=csv&timezone=Europe/Berlin&lang=fr&use_labels_for_header=true&csv_separator=%3B" -o data/liste_des_prenoms.csv
fi
```

1. Ouvrez le fichier pour consulter son contenu.

2. En vous inspirant de l'exemple ci-dessus, chargez le fichier
   `data/liste_des_prenoms.csv` et stockez dans une variable `prenoms`. **Indication:** le fichier
   utilise des points-virgules `;` comme séparateurs et non des virgules `,`.

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

<!-- TODO déplacer plus haut comme admonition repliée lorsque
celles-ci seront disponibles sous JupyterLab !-->

Si le test ci-dessous ne passe pas, vérifiez que vous avez bien appelé votre tableau
`prenoms` (sans accent, avec un s):

In [None]:
assert isinstance(prenoms, pd.DataFrame)
assert list(prenoms.columns) == ['Nombre prénoms déclarés', 'Sexe', 'Annee', 'Prenoms','Nombre total cumule par annee']

2. Affichez les dix premières lignes du fichier. **Indication:** consultez la
   documentation de la méthode `head` avec `prenoms.head?`
   <!-- utiliser un admonition repliée !-->

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

3. Affichez les lignes correspondant à votre prénom (ou un autre prénom tel que Mohammed,
   Maxime ou encore Brune si votre prénom n'est pas dans la liste):

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

4. Faites de même interactivement avec `DataGrid`:

In [None]:
DataGrid(prenoms)

5. Extraire dans une variable `prenoms_femmes` les prénoms de femmes (avec répétitions),
   sous la forme d'une série. **Indication:** retrouvez dans les exemples ci-dessus
   comment sélectionner des lignes et comment extraire une colonne.

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

Combien y en a-t'il?

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

In [None]:
# Vérifie que prenoms_femmes est bien une série
assert isinstance(prenoms_femmes, pd.Series)

In [None]:
# Vérifie le premier prénom alphabetiquement
assert prenoms_femmes.min() == 'Aaliyah'
# Vérifie le nombre de prénoms après suppression des répétitions
assert len(set(prenoms_femmes)) == 1491

6. Procédez de même pour les prénoms d'hommes:

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

Une petite vérification:

In [None]:
assert len(prenoms_hommes) + len(prenoms_femmes) == len(prenoms)

**Exercice** : Transformez les Prenoms en majuscule de la table `prenoms`. Affectez le
résultat à la variable `prenoms_maj`

*Objectif*: savoir rechercher dans la documentation pandas:
https://pandas.pydata.org/docs/user_guide/.

<!--
TODO:
- lien vers version française (pas retrouvée)
- indication repliée: consulter l'index et chercher «manipuler du texte»
!-->

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

**Exercice $\clubsuit$**

Quel est le prénom le plus déclaré, en cumulé sur toutes les années? Affectez le à la
variable `prenom`.

**Indication:** consulter le premier exemple à la fin de la documentation de la méthode
`groupby` pour calculer les nombres cumulés par prénom (avec `sum`). Puis utilisez
`DataGrid` pour visualiser le résultat et le trier, ou bien utilisez `sort_values`, ou
`idxmax`.

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

In [None]:
# REMPLACEZ CETTE LIGNE PAR VOTRE CODE

Ce test vérifie que vous avez trouvé la bonne réponse; sans vous la donner; la magie des
fonctions de hachage :-)

In [None]:
import hashlib
assert hashlib.md5(prenom.encode("utf-8")).hexdigest() == 'b70e2a0d855b4dc7b1ea34a8a9d10305'

## Conclusion

|< Précédent|^ Remonter ^|Suivant >|
|:---|:---:|---:|
|[Compréhension de listes](03-comprehensions.ipynb)|[Introduction à la programmation, avec Python et Jupyter](../index.ipynb)|[Manipuler des tableaux](tableaux.ipynb)|