# Analyse et visualisation de données avec Python
## Démarrer avec des données

Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame et une série.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques avec un DataFrame.
* Effectuer une première visualisation des données.

## Utiliser les DataFrames Pandas dans Python

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

In [None]:
# Importer la bibliothèque "pandas"
import pandas as pd

## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

In [None]:
# Chargement des données du fichier "data/surveys.csv"
pd.read_csv('data/surveys.csv')

In [None]:
# Afficher les quelques premiers enregistrements
surveys_df.head()

In [None]:
# Obtenir les dimensions du DataFrame
surveys_df.shape

In [None]:
# Obtenir la liste des noms de colonnes
surveys_df.columns

In [None]:
# Une colonne est un objet de type Series
surveys_df['weight'].describe()

In [None]:
# Calculer des statistiques descriptives par colonne
print("Valeurs non nulles:  ", surveys_df['weight'].count())
print("Moyenne des valeurs: ", surveys_df['weight'].mean())
print("Deviation standard:  ", surveys_df['weight'].std())
print("Valeur minimale:     ", surveys_df['weight'].min())
print("Valeur maximale:     ", surveys_df['weight'].max())

In [None]:
# Créer une nouvelle colonne
surveys_df['poids_kg'] = surveys_df['weight'] / 1000

# Afficher les dernières lignes
surveys_df.tail()

### Exercice - DataFrame et Series

1. Chargez la table des espèces animales du fichier
   `data/species.csv` et assignez le résultat à `especes_df`.

2. Utilisez la méthode `.unique()` pour obtenir
   la liste des différents taxons (colonne `taxa`).

In [None]:
especes_df

3. Utilisez la méthode `.nunique()` pour obtenir
   le nombre de différents taxons.
   Note : `nan` ne sera pas compté.

In [None]:
especes_df

## Grouper des données

In [None]:
# Grouper les données par sexe
surveys_df.groupby('sex')

In [None]:
# Obtenir des statistiques pour toutes les variables numériques
par_sex.describe()

In [None]:
# Obtenir uniquement la moyenne de chaque colonne
par_sex.mean(numeric_only=True)

In [None]:
# Obtenir la taille de population de l'espèce 'AB'
par_espece = surveys_df.groupby('species_id')
par_espece['record_id'].count()['AB']

### Exercice - Grouper des données
`1`. Combien de femelles `F` et combien de mâles `M`?
Indice : c'est possible de sélectionner une
seule colonne après avoir groupé les données.

In [None]:
par_sex

`2`. Qu'arrive-t-il si on groupe par deux colonnes et si on recalcule les moyennes?

In [None]:
par_site_sex = surveys_df.groupby(['plot_id', 'sex'])
par_site_sex

`3`. Faites calculer un sommaire des statistiques descriptives
des poids (`weight`) pour chaque site (`plot_id`).

In [None]:
par_site = surveys_df
par_site

## Créer des graphiques à partir de Pandas

In [None]:
par_site = surveys_df.groupby(['plot_id'])
par_site['record_id'].count().plot(kind='bar')

### Exercice - Créer un graphique
Créez un graphique de type `line` montrant la médiane des poids`weight` pour chaque mois.

In [None]:
par_mois = surveys_df
medianes = par_mois
medianes

## Exemple résumé

In [None]:
par_site_sex = surveys_df.groupby(['plot_id', 'sex'])
site_sex_poidsTotal = par_site_sex['weight'].sum()
site_sex_poidsTotal.head(15)

In [None]:
# Convertir les valeurs de la catégorie la plus à droite en colonnes
sspt = site_sex_poidsTotal.unstack()
sspt

In [None]:
# Empiler les barres, ajouter le titre et le nom des axes
s_plot = sspt.plot(kind='bar', stacked=True,
                   title="Poids total par site et sex")
s_plot.set_xlabel("Site")
s_plot.set_ylabel("Poids (g)")

## Résumé technique
* **Importer le module Pandas** : `import pandas as pd`
* **Chargement des données** : `pd.read_csv()`
  * Argument obligatoire : le **nom du fichier**
  * `index_col` : pour spécifier la colonne qui sera l'index
* Pour un **DataFrame** :
  * **Attributs** : `shape`, `index`, `columns`
  * **Méthodes** : `head()`, `tail()`, `describe()`
* Pour une **colonne** :
  * **Sélection** : `df['nom_colonne']`
  * **Méthodes** :
    * Statistiques descriptives :
      `count()`, `mean()`, `median()`, `min()`, `max()`
    * Autres : `describe()`, `nunique()`, `unique()`
* **Grouper selon les valeurs** d'une ou plusieurs colonnes :
  * `groupby(nom_col)`
  * `groupby([nom_col1, nom_col2])`
* **Réinitialiser l'index** : `reset_index()`
  * Si `drop=True`, l'index actuel n'est pas converti en colonne(s)
* **Transformer le DataFrame** : `unstack()`
* **Créer un graphique à partir d'un DataFrame** :
  * `df.plot()`, où `df` contient une ou plusieurs colonnes
    * `kind='bar'` (défaut: linéaire)
    * `stacked=True`
    * `title=""`
  * `objet_plot.set_xlabel("")`
  * `objet_plot.set_ylabel("")`