# Analyse et visualisation de données avec Python
## Démarrer avec des données

Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame dans Python.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques avec un DataFrame.
* Effectuer une première visualisation des données.

## Utiliser les DataFrames Pandas dans Python
### Nos données
Pour le présent atelier, nous utiliserons un sous-ensemble des données du *Portal Teaching* :
* Ernst *et al*, Long-term monitoring and experimental manipulation of a Chihuahuan Desert ecosystem near Portal, Arizona, USA, http://www.esapubs.org/archive/ecol/E090/118/default.htm
* Les données du *Portal Project Teaching Database* :
https://figshare.com/articles/Portal_Project_Teaching_Database/1314459
* Entre autres, le fichier **`../data/surveys.csv`** est une version simplifiée du fichier : https://ndownloader.figshare.com/files/2292172

Avec ce fichier de données, nous allons étudier les caractéristiques de différentes espèces animales vues dans différents sites de la zone de recherche. Chaque enregistrement dans ce fichier CSV contient l'information d'un seul animal observé. Voici les différentes informations recueillies qui correspondent aux colonnes d'une table de données :

 Column           | Description
----------------- | -----------
`record_id`       | Identifiant unique de l'enregistrement
`month`           | Mois de l'enregistrement
`day`             | Jour de l'enregistrement
`year`            | Année de l'enregistrement
`plot_id`         | Identifiant du site
`species_id`      | Identifiant de l'espèce, encodé avec deux lettres
`sex`             | Sexe de l'animal ("F", "M")
`hindfoot_length` | Longueur de l'arrière-pied (mm)
`weight`          | Poids de l'animal (g)

Les premières lignes du fichier CSV ressemblent donc à ceci :
```
record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
1,7,16,1977,2,NL,M,32,
2,7,16,1977,3,NL,M,33,
3,7,16,1977,2,DM,F,37,
4,7,16,1977,7,DM,M,36,
5,7,16,1977,3,DM,M,35,
6,7,16,1977,1,PF,M,14,
7,7,16,1977,2,PE,F,,
8,7,16,1977,1,DM,M,37,
9,7,16,1977,1,DM,F,34,
```

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

In [None]:
import ### as ###

## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

In [None]:
# On utilise ici l'alias "pd" pour accéder aux ressources de Pandas
###("###/###/surveys.csv")

In [None]:
### = pd.read_csv("../data/surveys.csv")

In [None]:
surveys_df###  # Affiche les quelques premiers enregistrements

In [None]:
surveys_df.###
# Dans quel format est retourné la taille du DataFrame?

In [None]:
surveys_df.###

In [None]:
# Calculer des statistiques descriptives par colonne
print("Valeurs non nulles:  ", surveys_df['weight'].###())
print("Moyenne des valeurs: ", surveys_df['weight'].###())
print("Deviation standard:  ", surveys_df['weight'].###())
print("Valeur minimale:     ", surveys_df['weight'].###())
print("Valeur maximale:     ", surveys_df['weight'].###())

In [None]:
# Créer une nouvelle colonne
surveys_df[###] = surveys_df[###] ###
surveys_df.###

## Types de données
### Vérifier le type de données pour chaque colonne

In [None]:
surveys_df###

In [None]:
surveys_df['month']###

Types Python | Types Pandas | Description
:-----------:|:------------:|:-----------
`str`        | `object`    | Le type le plus générique, utilisé si une colonne a un mélange de types
`int`        | `int64`     | Entiers de 64 bits
`float`      | `float64`   | Valeurs numériques avec décimales, ou avec des NaN
 N/A         | `datetime64`| Valeurs de temps ou de dates

### Impacts sur les statistiques descriptives

In [None]:
# Sommaire des statistiques descriptives
surveys_df###

In [None]:
surveys_df['month'] = surveys_df['month'].###('###')
surveys_df['month'].###

In [None]:
surveys_df['month'].###

In [None]:
surveys_df['month'].###

In [None]:
surveys_df[###].unique()

### Exercices - Types et statistiques descriptives

`1`. Convertir `weight` en entiers `int64` produira une erreur. Pourquoi?

In [None]:
surveys_df['weight'].###('int64')

`2`. Essayez de convertir la colonne `plot_id` au type Python `float`.

In [None]:
surveys_df['plot_id'] ### surveys_df['###'].###("###")
surveys_df['plot_id'].dtype

`3`. Créer une liste des différents identifiants de site (`plot_id`) que l'on peut trouver dans `surveys_df`. Sauvegarder le résultat dans `numeros_site`. Combien y a-t-il de sites différents dans les données?

In [None]:
numeros_site = surveys_df[###]###
numeros_site.###

`4`. Quelle est la différence entre `len(numeros_site)` et `surveys_df['plot_id'].nunique()`?

In [None]:
# print(len(numeros_site))
# print(surveys_df['plot_id'].nunique())

## Grouper des données

In [None]:
# Grouper les données par sexe
### = surveys_df.###('###')

In [None]:
# Obtenir des statistiques pour toutes les variables numériques
par_sex.###

In [None]:
# Obtenir uniquement la moyenne de chaque colonne
par_sex.###

### Exercice - Grouper des données
`1`. Combien d'individus de sexe féminin `F`, et combien d'individus de sexe masculin `M`?

In [None]:
par_sex###

`2`. Qu'arrive-t-il si on groupe par deux colonnes et si on recalcule les moyennes?

In [None]:
par_site_sex = surveys_df.groupby(['plot_id','sex'])
par_site_sex.###()

`3`. Faites calculer un sommaire des statistiques descriptives des poids (`weight`) pour chaque site (`plot_id`). Indice : c'est possible de sélectionner une seule colonne après avoir groupé les données.

In [None]:
par_site = surveys_df.###(['###'])
par_site['###'].###

### Obtenir la taille de population d'une seule espèce

In [None]:
surveys_df['species_id'].###

In [None]:
surveys_df.###('species_id')['record_id']#.count()###

## Créer des graphiques à partir de Pandas

In [None]:
par_site['record_id'].###().###(kind='bar')

### Exercice - Créer un graphique
Créer un graphique de type `line` montrant la médiane de `weight` par mois.

In [None]:
# Pourquoi la ligne suivante sera nécessaire?
# surveys_df['month'] = surveys_df['month'].astype('int64')
surveys_df.###('###')['###'].###().plot(kind='###')

## Exemple résumé

In [None]:
site_sex_poidsTotal = par_site_sex['weight'].###()
site_sex_poidsTotal###

In [None]:
# Convertir les valeurs de la catégorie la plus à droite en colonnes
sspt = site_sex_poidsTotal.unstack()
sspt

In [None]:
s_plot = sspt.plot(kind='bar', ###,
                   title="Poids total par site et sex")
s_plot.set_xlabel("Site")
s_plot.set_ylabel("Poids (g)")