# Analyse de données et visualisation en Python

## À propos

Cet atelier est une adaptation du tutoriel
[Data Carpentry - Data Analysis and Visualization in Python for Ecologists](https://datacarpentry.org/python-ecology-lesson/).

Note : les *notebooks* IPython du présent atelier et les données associées sont [publiés sur GitHub](https://github.com/calculquebec/analyse-donnees-python).

### Table des matières
**Jour 1** (3 heures)
* [Démarrer avec des données](01-donnees.ipynb)
* [Sélectionner des rangées et des colonnes](02-selection.ipynb)
* [Combiner des DataFrames avec Pandas](03-combiner.ipynb)

**Jour 2** (3 heures)
* [Automatisation du traitement des données](04-automatisation.ipynb)
* [Créer des graphiques avec Plotnine](05-plotnine.ipynb)
* [Matplotlib et Pandas](06-matplotlib.ipynb)

**Extras** (si le temps le permet)
* [Accéder à des bases de données SQLite via Pandas](extras/sqlite.ipynb)

### Les données utilisées

Pour le présent atelier, nous utiliserons un sous-ensemble des données du
[*Portal Project Teaching Database*](https://figshare.com/articles/Portal_Project_Teaching_Database/1314459).
En effet, notre fichier [`data/surveys.csv`](data/surveys.csv)
est une version simplifiée du
[fichier original](https://ndownloader.figshare.com/files/2292172).
Les premières lignes du fichier CSV ressemblent donc à ceci :

```
record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
1,7,16,1977,2,NL,M,32,
2,7,16,1977,3,NL,M,33,
3,7,16,1977,2,DM,F,37,
4,7,16,1977,7,DM,M,36,
5,7,16,1977,3,DM,M,35,
6,7,16,1977,1,PF,M,14,
7,7,16,1977,2,PE,F,,
8,7,16,1977,1,DM,M,37,
9,7,16,1977,1,DM,F,34,
```

 Colonne          | Description
----------------- | -----------
`record_id`       | Identifiant unique de l'enregistrement
`month`           | Mois de l'enregistrement
`day`             | Jour de l'enregistrement
`year`            | Année de l'enregistrement
`plot_id`         | Identifiant du site
`species_id`      | Identifiant de l'espèce, encodé avec deux lettres
`sex`             | Sexe de l'animal ("F", "M")
`hindfoot_length` | Longueur de l'arrière-pied (mm)
`weight`          | Poids de l'animal (g)

Avec ce fichier de données, nous allons étudier les caractéristiques de
différentes espèces animales vues dans différents sites de la zone de recherche.
Chaque enregistrement dans ce fichier CSV contient l'information d'un seul animal observé.

Référence : Ernst *et al*,
[Long-term monitoring and experimental manipulation of a Chihuahuan Desert ecosystem near Portal, Arizona, USA](https://esapubs.org/archive/ecol/E090/118/)

### Comment utiliser l'interface Jupyter
Lorsqu'une cellule est en mode d'édition :

  Raccourci | Description
----------- | -----------
MAJ+Entrée  | Exécuter une cellule et aller à la suivante
Tab         | Indenter le code ou autocomplétion
Échap       | Aller en mode commande

Lorsqu'une cellule est en mode commande :

  Raccourci | Description
----------- | -----------
MAJ+Entrée  | Exécuter une cellule et aller à la suivante
Double-clic | Aller en mode édition
Entrée      | Aller en mode édition

  Raccourci | Description
----------- | -----------
A           | Insérer une cellule en haut
B           | Insérer une cellule en bas
C           | Copier la cellule
V           | Coller la cellule en bas
D D         | Supprimer la cellule
M           | Changer la cellule en code Markdown
Y           | Changer la cellule en code Python

Pour réinitialiser toutes les cellules :
* Aller dans le menu du haut et sélectionner Kernel -> Restart & Clear Output

In [None]:
1 + 2  # Faites Maj+Entrée pour exécuter cette cellule

### Références
Modules Python :
* [`pandas`](https://pandas.pydata.org/docs/reference/index.html)
* [`plotnine`](https://plotnine.readthedocs.io/en/stable/) :
  * [Galerie (exemples)](https://plotnine.readthedocs.io/en/stable/gallery.html)
  * Constructeurs d'éléments géométriques [`geom_*()`](https://plotnine.readthedocs.io/en/stable/api.html#geoms)
  * Constructeurs de thèmes [`theme*()`](https://plotnine.readthedocs.io/en/stable/api.html#themes)
  * Constructeurs de facettes [`facet_*()`](https://plotnine.readthedocs.io/en/stable/api.html#facets)
* [`bokeh`](https://docs.bokeh.org/en/latest/) et
[`plotly`](https://plotly.com/python/) pour des graphes interactifs en page Web

Outils d'édition de codes Python :
* Via [JupyterLab](https://docs.computecanada.ca/wiki/Jupyter#JupyterLab) sur les grappes de calcul
* Via un [Jupyter Notebook](https://docs.computecanada.ca/wiki/JupyterNotebook/fr), lancé localement
* L'éditeur [Spyder](https://www.spyder-ide.org)
* [Visual Studio Code](https://code.visualstudio.com)

Formation :
* Les prochains ateliers à [Calcul Québec](https://www.eventbrite.ca/o/calcul-quebec-8295332683)
  et [Calcul Canada](https://www.computecanada.ca/research-portal/technical-support/training/)
* Tutoriels en ligne [Software Carpentry](https://software-carpentry.org/lessons/)
  et [Data Carpentry](https://datacarpentry.org/lessons/) :
  * [Introduction à la ligne de commande Bash](https://swcarpentry.github.io/shell-novice/)
  * [Introduction à la programmation en Python](https://swcarpentry.github.io/python-novice-inflammation/)
  * [Nettoyage des données avec OpenRefine](https://datacarpentry.org/OpenRefine-ecology-lesson/)
  * [Gestion de données avec SQL](https://datacarpentry.org/sql-ecology-lesson/)
  * [Analyse de données et visualisation en R](https://datacarpentry.org/R-ecology-lesson/)