# Analyse et visualisation de données avec Python
## Démarrer avec des données

Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame et une série.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques sur des
  données dans un DataFrame.

## Utiliser les DataFrames Pandas dans Python

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

In [None]:
# Importer la bibliothèque "pandas"
import pandas as pd

## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

In [None]:
# Chargement des données du fichier surveys.csv
surveys_df = pd.read_csv('../data/surveys.csv')

In [None]:
# Afficher les quelques première lignes
surveys_df.head()

In [None]:
# Accéder aux dimensions du DataFrame
surveys_df.shape

In [None]:
# Accéder à la liste des noms de colonnes
surveys_df.columns

In [None]:
# Une colonne est un objet de type Series
surveys_df['weight'].describe()

In [None]:
# Calculer des statistiques descriptives par colonne
print("Valeurs non nulles:  ", surveys_df['weight'].count())
print("Moyenne des valeurs: ", surveys_df['weight'].mean())
print("Deviation standard:  ", surveys_df['weight'].std())
print("Valeur minimale:     ", surveys_df['weight'].min())
print("Valeur médiane:      ", surveys_df['weight'].median())
print("Valeur maximale:     ", surveys_df['weight'].max())

In [None]:
# Créer une nouvelle colonne
surveys_df['poids_kg'] = surveys_df['weight'] / 1000

# Afficher les dernières lignes
surveys_df.tail()

### Exercices - DataFrame et Series

1. Chargez la table des espèces animales du fichier
   `species.csv` et assignez le résultat à `especes_df`. (3 min.)

In [None]:
especes_df = pd.read_csv('../data/species.csv')

2. Utilisez la méthode `.unique()` pour obtenir la
   liste des différents taxons (colonne `taxa`). (2 min.)

In [None]:
especes_df['taxa'].unique()

3. Utilisez la méthode `.nunique()` pour obtenir
   le nombre de différents taxons. (1 min.)

In [None]:
especes_df['taxa'].nunique()

## Grouper des données

In [None]:
# Grouper les données par sexe
surveys_df.groupby('sex')

In [None]:
# Nombre de valeurs dans chaque colonne par sexe
surveys_df.groupby('sex').count()

In [None]:
# Moyenne de chaque colonne à valeurs numériques par sexe
surveys_df.groupby('sex').mean(numeric_only=True)

In [None]:
# Obtenir le nombre d'enregistrements par code d'espèce
surveys_df.groupby('species_id')['record_id'].count()

In [None]:
# Moyennes et déviations standards des poids par code d'espèce
surveys_df.groupby('species_id')['weight'].aggregate(['mean', 'std'])

### Exercices - Grouper des données
1. Faites calculer un sommaire des statistiques descriptives des
   poids (`weight`) pour chaque espèce (`species_id`). (4 min.)

In [None]:
surveys_df.groupby('species_id')['weight'].describe()

2. Qu'arrive-t-il si on groupe par deux colonnes
   et si on recalcule les moyennes? (2 min.)

In [None]:
surveys_df.groupby(['species_id', 'sex']).mean(numeric_only=True)

## Résumé technique
* **Importer le module Pandas** : `import pandas as pd`
* **Chargement des données** : `pd.read_csv()`
  * Argument obligatoire : le **nom du fichier**
  * `index_col` : pour spécifier la colonne qui sera l'index
* Pour un **DataFrame** :
  * **Attributs** : `shape`, `index`, `columns`
  * **Méthodes** : `head()`, `tail()`, `describe()`
* Pour une **colonne** :
  * **Sélection** : `df['nom_colonne']`
  * **Méthodes** :
    * Statistiques descriptives :
      `count()`, `mean()`, `median()`, `min()`, `max()`
    * Autres : `describe()`, `nunique()`, `unique()`
* **Grouper selon les valeurs** d'une ou plusieurs colonnes :
  * `groupby(nom_col)`
  * `groupby([nom_col1, nom_col2])`
* **Transformer le DataFrame** : `unstack()`