# Visualisation de données en Python

## À propos

* Cet atelier est basé sur le tutoriel
  [Data Carpentry - *Data Analysis and Visualization in Python for Ecologists*](https://datacarpentry.org/python-ecology-lesson/).
  * Puisque les différentes techniques d'analyse
    de données ont été vues dans l'atelier
    [*DAT201 - Analyse de données en Python*](https://github.com/calculquebec/cq-formation-dat201),
    le présent matériel couvre essentiellement
    les exemples de visualisation.
* Les *notebooks* IPython du présent
  atelier et les données associées sont
  [publiés sur GitHub](https://github.com/calculquebec/cq-formation-dat203).

### Table des matières

1. [Visualisation avec Pandas et Matplotlib](fr/01-matplotlib.ipynb)
2. [Introduction à Altair](fr/02-altair.ipynb)
3. [Construire un graphique par étapes](fr/03-ggaltair.ipynb)
4. [Visualiser des séries temporelles](fr/04-mark_line.ipynb)
5. [Création de facettes](fr/05-facet.ipynb)
6. [Visualiser des distributions](fr/06-distributions.ipynb)

### Comment utiliser l'interface Jupyter
Lorsqu'une cellule est en **mode édition** :

  Raccourci | Description
----------- | -----------
MAJ+Entrée  | Exécuter une cellule et aller à la suivante
Entrée      | Insérer un saut de ligne
Tab         | Indenter le code ou autocomplétion
Échap       | Aller en **mode commande**

Lorsqu'une cellule est en **mode commande** :

  Raccourci | Description
----------- | -----------
MAJ+Entrée  | Exécuter une cellule et aller à la suivante
Entrée      | Aller en **mode édition**
A           | Insérer une cellule en haut
B           | Insérer une cellule en bas
C           | Copier la cellule
V           | Coller la cellule en bas
D D         | Supprimer la cellule
M           | Changer la cellule en code Markdown
Y           | Changer la cellule en code Python

Pour réinitialiser toutes les cellules :
* Aller dans le menu du haut et sélectionner
  Kernel -> Restart & Clear Output

In [None]:
1 + 2  # Faites Maj+Entrée pour exécuter cette cellule

### À propos des données tabulaires

Voici un peu de vocabulaire à propos des données tabulaires :

* **Colonne de données** : une des variables observées
* **Ligne de données** : une observation ou enregistrement
* **Index** : liste d'identifiants uniques pour les lignes

### Les données utilisées

Pour le présent atelier, nous utiliserons un sous-ensemble des données du
[*Portal Project Teaching Database*](https://figshare.com/articles/Portal_Project_Teaching_Database/1314459).
En effet, notre fichier [`data/surveys.csv`](data/surveys.csv)
est une version simplifiée du
[fichier original](https://ndownloader.figshare.com/files/2292172).

La cellule suivante permet d'avoir un aperçu des données CSV :

In [None]:
!head data/surveys.csv

 Colonne          | Description
----------------- | -----------
`record_id`       | Identifiant unique de l'enregistrement
`month`           | Mois de l'enregistrement
`day`             | Jour de l'enregistrement
`year`            | Année de l'enregistrement
`plot_id`         | Identifiant du site
`species_id`      | Identifiant de l'espèce, encodé avec deux lettres
`sex`             | Sexe de l'animal ("F", "M")
`hindfoot_length` | Longueur de l'arrière-pied (mm)
`weight`          | Poids de l'animal (g)

Avec ce fichier de données, nous allons étudier les caractéristiques de
différentes espèces animales vues dans différents sites de la zone de recherche.
Chaque enregistrement dans ce fichier CSV contient l'information d'un seul animal observé.

Le détail des différentes espèces est ensuite donné dans le fichier
[`data/species.csv`](data/species.csv).
La cellule suivante permet d'avoir un aperçu de ces espèces :

In [None]:
!head data/species.csv

 Colonne     | Description
------------ | -----------
`species_id` | Identifiant de l'espèce, encodé avec deux lettres
`genus`      | Genre d'espèce
`species`    | Nom latin de l'espèce
`taxa`       | Taxon (famille) de l'espèce

Référence : Ernst *et al*,
[Long-term monitoring and experimental manipulation of a Chihuahuan Desert ecosystem near Portal, Arizona, USA](https://esapubs.org/archive/ecol/E090/118/)

### Références
Modules Python :
* [`pandas`](https://pandas.pydata.org/docs/reference/index.html)
* [`altair`](https://altair-viz.github.io/index.html),
  grammaire [Vega-Lite](https://vega.github.io/vega-lite/)
  des graphiques interactifs
* Autres modules de visualisation :
  * [`plotnine`](https://plotnine.org)
  * [`seaborn`](https://seaborn.pydata.org/)
  * [`bokeh`](https://docs.bokeh.org/en/latest/)
    et [`plotly`](https://plotly.com/python/)
    pour des graphiques interactifs en page Web

Outils d'édition de codes Python :
* Via [JupyterLab](https://docs.alliancecan.ca/wiki/Jupyter/fr#JupyterLab)
* L'éditeur [Spyder](https://www.spyder-ide.org)
* [Visual Studio Code](https://code.visualstudio.com)

Formation :
* Les prochains ateliers à
  [Calcul Québec](https://www.eventbrite.ca/o/calcul-quebec-8295332683)
  et à
  [l'Alliance de recherche numérique du Canada](https://explora.alliancecan.ca/)
* Tutoriels en ligne [Software Carpentry](https://software-carpentry.org/lessons/)
  et [Data Carpentry](https://datacarpentry.org/lessons/) :
  * [Introduction à la ligne de commande Bash](https://swcarpentry.github.io/shell-novice/)
  * [Introduction à la programmation en Python](https://swcarpentry.github.io/python-novice-inflammation/)
  * [Nettoyage des données avec OpenRefine](https://datacarpentry.org/OpenRefine-ecology-lesson/)
  * [Gestion de données avec SQL](https://datacarpentry.org/sql-ecology-lesson/)
  * [Analyse de données et visualisation en R](https://datacarpentry.org/R-ecology-lesson/)