# Analyse et visualisation de données avec Python
## Démarrer avec des données

Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame dans Python.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques avec un DataFrame.
* Effectuer une première visualisation des données.

## Utiliser les DataFrames Pandas dans Python
### Nos données
Pour le présent atelier, nous utiliserons un sous-ensemble des données du *Portal Teaching* :
* Ernst *et al*, Long-term monitoring and experimental manipulation of a Chihuahuan Desert ecosystem near Portal, Arizona, USA, http://www.esapubs.org/archive/ecol/E090/118/default.htm
* Les données du *Portal Project Teaching Database* :
https://figshare.com/articles/Portal_Project_Teaching_Database/1314459
* Entre autres, le fichier **`../data/surveys.csv`** est une version simplifiée du fichier : https://ndownloader.figshare.com/files/2292172

Avec ce fichier de données, nous allons étudier les caractéristiques de différentes espèces animales vues dans différents sites de la zone de recherche. Chaque enregistrement dans ce fichier CSV contient l'information d'un seul animal observé. Voici les différentes informations recueillies qui correspondent aux colonnes d'une table de données :

 Column           | Description
----------------- | -----------
`record_id`       | Identifiant unique de l'enregistrement
`month`           | Mois de l'enregistrement
`day`             | Jour de l'enregistrement
`year`            | Année de l'enregistrement
`plot_id`         | Identifiant du site
`species_id`      | Identifiant de l'espèce, encodé avec deux lettres
`sex`             | Sexe de l'animal ("F", "M")
`hindfoot_length` | Longueur de l'arrière-pied (mm)
`weight`          | Poids de l'animal (g)

Les premières lignes du fichier CSV ressemblent donc à ceci :
```
record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
1,7,16,1977,2,NL,M,32,
2,7,16,1977,3,NL,M,33,
3,7,16,1977,2,DM,F,37,
4,7,16,1977,7,DM,M,36,
5,7,16,1977,3,DM,M,35,
6,7,16,1977,1,PF,M,14,
7,7,16,1977,2,PE,F,,
8,7,16,1977,1,DM,M,37,
9,7,16,1977,1,DM,F,34,
```

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

In [None]:
import ### as ###

## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

In [None]:
# On utilise ici l'alias "pd" pour accéder aux ressources de Pandas
###("###/###/surveys.csv")

In [None]:
### = pd.read_csv("../data/surveys.csv")

In [None]:
surveys_df

In [None]:
surveys_df### # Affiche les quelques premiers enregistrements

### Démo - L'objet DataFrame
Essayez les codes ci-dessous pour voir ce qu'ils retournent.

In [None]:
surveys_df.###

In [None]:
surveys_df.###

In [None]:
surveys_df.###
# Dans quel format est retourné la taille du DataFrame?

In [None]:
# Convertir les poids en kilogrammes
surveys_df[###] ###

## Calculer des statistiques

In [None]:
pd.###(surveys_df['year'])

In [None]:
surveys_df['species_id']###

### Exercice - Calculer des statistiques
`1`. Créer une liste des différents identifiants de site (`plot_id`) que l'on peut trouver dans `surveys_df`. Sauvegarder le résultat dans `site_names`. Combien y a-t-il de sites différents dans les données?

In [None]:
### = pd.###(surveys_df[###])
###.###

`2`. Quelle est la différence entre `len(site_names)` et `surveys_df['plot_id'].nunique()`?

In [None]:
# print(len(site_names))
# print(surveys_df['plot_id'].nunique())

## Grouper des données

In [None]:
surveys_df['weight'].###

In [None]:
print("Count:    ", surveys_df['weight'].###())
print("Mean:     ", surveys_df['weight'].###())
print("Std Dev.: ", surveys_df['weight'].###())
print("Min:      ", surveys_df['weight'].###())
print("Max:      ", surveys_df['weight'].###())

In [None]:
# Grouper les données par sexe
### = surveys_df.###('###')

In [None]:
# Obtenir des statistiques pour toutes les variables numériques
by_sex.###

In [None]:
# Obtenir uniquement la moyenne de chaque colonne
by_sex.###

### Exercice - Grouper des données
`1`. Combien d'individus de sexe féminin `F`, et combien d'individus de sexe masculin `M`?

In [None]:
by_sex###

`2`. Qu'arrive-t-il si on groupe par deux colonnes et si on recalcule les moyennes?

In [None]:
by_site_sex = surveys_df.groupby(['plot_id','sex'])
by_site_sex.###()

`3`. Faites calculer un résumé statistique des poids (`weight`) pour chaque site (`plot_id`). Indice : c'est possible de sélectionner une seule colonne après avoir groupé les données.

In [None]:
by_site = surveys_df.###(['###'])
by_site['###'].###

### Obtenir la taille de population d'une seule espèce

In [None]:
surveys_df.groupby('species_id')['record_id']#.count()###

## Créer des graphiques à partir de Pandas

In [None]:
by_site['record_id'].###().###(kind='bar')

### Exercice - Créer un graphique
Créer un graphique de type `line` montrant la médiane de `weight` par mois.

In [None]:
surveys_df.###('###')['###'].###().plot(kind='###')

## Exemple résumé

In [None]:
site_sex_totalw = by_site_sex['weight'].###()
site_sex_totalw###

In [None]:
# Convertir les valeurs de la catégorie la plus à droite en colonnes
sst = site_sex_totalw.unstack()
sst

In [None]:
s_plot = sst.plot(kind='bar', ###,
                  title="Total weight by site and sex")
s_plot.set_ylabel("Weight")
s_plot.set_xlabel("Site")