# Analyse et visualisation de données avec Python
## Démarrer avec des données

Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame et une série.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques avec un DataFrame.
* Effectuer une première visualisation des données.

## Utiliser les DataFrames Pandas dans Python

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

In [None]:
# Importer la bibliothèque "pandas"
import pandas as pd

## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

In [None]:
# Chargement des données du fichier surveys.csv
pd.read_csv('../data/surveys.csv')

In [None]:
# Afficher les quelques première lignes
surveys_df.head()

In [None]:
# Accéder aux dimensions du DataFrame
surveys_df.shape

In [None]:
# Accéder à la liste des noms de colonnes
surveys_df.columns

In [None]:
# Une colonne est un objet de type Series
surveys_df['weight'].describe()

In [None]:
# Calculer des statistiques descriptives par colonne
print("Valeurs non nulles:  ", surveys_df['weight'].count())
print("Moyenne des valeurs: ", surveys_df['weight'].mean())
print("Deviation standard:  ", surveys_df['weight'].std())
print("Valeur minimale:     ", surveys_df['weight'].min())
print("Valeur médiane:      ", surveys_df['weight'].median())
print("Valeur maximale:     ", surveys_df['weight'].max())

In [None]:
# Créer une nouvelle colonne
surveys_df['poids_kg'] = surveys_df['weight'] / 1000

# Afficher les dernières lignes
surveys_df.tail()

### Exercice - DataFrame et Series

1. Chargez la table des espèces animales du fichier
   `species.csv` et assignez le résultat à `especes_df`. (3 min.)

2. Utilisez la méthode `.unique()` pour obtenir la
   liste des différents taxons (colonne `taxa`). (2 min.)

In [None]:
especes_df###

3. Utilisez la méthode `.nunique()` pour obtenir
   le nombre de différents taxons. (1 min.)

In [None]:
especes_df###

## Grouper des données

In [None]:
# Grouper les données par sexe
surveys_df.groupby('sex')

In [None]:
# Obtenir des statistiques pour toutes les variables numériques
par_sex.describe()

In [None]:
# Obtenir uniquement la moyenne de chaque colonne
par_sex.mean(numeric_only=True)

In [None]:
# Obtenir le nombre d'enregistrements par code d'espèce
surveys_df.groupby('species_id').count()#['record_id']

### Exercice - Grouper des données
`1`. Combien de femelles `F` et combien de mâles `M`?
Indice : c'est possible de sélectionner une
seule colonne après avoir groupé les données. (2 min.)

In [None]:
par_sex###

`2`. Qu'arrive-t-il si on groupe par deux colonnes
et si on recalcule les moyennes? (2 min.)

In [None]:
surveys_df.groupby(['plot_id', 'sex'])###

`3`. Faites calculer un sommaire des statistiques descriptives
des poids (`weight`) pour chaque site (`plot_id`). (3 min.)

In [None]:
surveys_df###

## Créer des graphiques à partir de Pandas

In [None]:
surveys_df.groupby('species_id')['record_id'].count().plot(kind='bar')

### Exercice - Créer un graphique
Créez un graphique de type `line` montrant
[la médiane](https://pandas.pydata.org/docs/reference/api/pandas.Series.median.html)
des poids `weight` pour chaque mois. (3 min.)

In [None]:
surveys_df###

## Exemple résumé

In [None]:
par_espece_sex = surveys_df.groupby(['species_id', 'sex'])
espece_sex_poids_moyen = par_espece_sex['weight'].mean()
espece_sex_poids_moyen.head(15)

In [None]:
# Convertir les valeurs de la catégorie la plus à droite en colonnes
espm = espece_sex_poids_moyen.unstack()
espm

In [None]:
# Ajouter le titre et le nom des axes
e_plot = espm.plot(kind='bar', title='Poids moyen par espèce et sexe')
e_plot.set_xlabel('Espèce (identifiant)')
e_plot.set_ylabel('Poids moyen (g)')

## Résumé technique
* **Importer le module Pandas** : `import pandas as pd`
* **Chargement des données** : `pd.read_csv()`
  * Argument obligatoire : le **nom du fichier**
  * `index_col` : pour spécifier la colonne qui sera l'index
* Pour un **DataFrame** :
  * **Attributs** : `shape`, `index`, `columns`
  * **Méthodes** : `head()`, `tail()`, `describe()`
* Pour une **colonne** :
  * **Sélection** : `df['nom_colonne']`
  * **Méthodes** :
    * Statistiques descriptives :
      `count()`, `mean()`, `median()`, `min()`, `max()`
    * Autres : `describe()`, `nunique()`, `unique()`
* **Grouper selon les valeurs** d'une ou plusieurs colonnes :
  * `groupby(nom_col)`
  * `groupby([nom_col1, nom_col2])`
* **Transformer le DataFrame** : `unstack()`
* **Créer un graphique à partir d'un DataFrame** :
  * `df.plot()`, où `df` contient une ou plusieurs colonnes
    * `kind='bar'` (défaut: linéaire)
    * `stacked=True`
    * `title=''`
  * `objet_plot.set_xlabel('')`
  * `objet_plot.set_ylabel('')`