# Analyse et visualisation de données avec Python
## Démarrer avec des données

Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame dans Python.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques avec un DataFrame.
* Effectuer une première visualisation des données.

## Utiliser les DataFrames Pandas dans Python

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

In [None]:
# Importer la bibliothèque "pandas"


## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

In [None]:
# Chargement des données du fichier "data/surveys.csv"


In [None]:
# Afficher les quelques premiers enregistrements
surveys_df

In [None]:
# Obtenir les dimensions du DataFrame
surveys_df

In [None]:
# Obtenir la liste des noms de colonnes
surveys_df

In [None]:
# Calculer des statistiques descriptives par colonne
print("Valeurs non nulles:  ", surveys_df['weight'].count())
print("Moyenne des valeurs: ", surveys_df['weight'].mean())
print("Deviation standard:  ", surveys_df['weight'].std())
print("Valeur minimale:     ", surveys_df['weight'].min())
print("Valeur maximale:     ", surveys_df['weight'].max())

In [None]:
# Créer une nouvelle colonne
surveys_df = surveys_df

# Afficher les dernières lignes
surveys_df

## Types de données
### Vérifier le type de données pour chaque colonne

In [None]:
# Obtenir le type de données pour chaque colonne
surveys_df

In [None]:
# Le type de données pour la colonne des mois
surveys_df['month']

Types Python | Types Pandas | Description
:-----------:|:------------:|:-----------
`str`        | `object`     | Type générique, aussi utilisé en cas de multiples types
`int`        | `int64`      | Nombres entiers représentés avec 64 bits
`float`      | `float64`    | Nombres réels représentés avec 64 bits, ou non-définis (NaN)
 N/A         | `datetime64` | Dates et heures, avec une précision allant jusqu'à la nanoseconde

### Impacts sur les statistiques descriptives

In [None]:
# Statistiques descriptives sur les valeurs numériques
surveys_df

In [None]:
# Convertir les numéros de mois en catégories
surveys_df['month'] = surveys_df['month']
surveys_df['month'].dtype

In [None]:
# Statistiques descriptives sur des catégories
surveys_df['month']

In [None]:
# Lister les différents mois
surveys_df['month']

In [None]:
# Lister les différentes années
surveys_df['year']

### Exercices - Types et statistiques descriptives

`1`. Convertir les valeurs de `weight` en entiers `int64` produira une erreur. Pourquoi?

In [None]:
try:
    surveys_df['weight'].astype('int64')
except BaseException as erreur:
    print(f'La raison : {erreur}')

`2`. Essayez de convertir la colonne `plot_id` au type Python `float`.

In [None]:
surveys_df['plot_id']
surveys_df['plot_id'].dtype

`3`. Créez une liste des différents identifiants de site (`plot_id`) que l'on peut trouver dans `surveys_df`.
* Sauvegardez le résultat dans `numeros_site`.
* Combien y a-t-il de sites différents dans les données?

In [None]:
numeros_site = surveys_df
numeros_site

`4`. Quelle est la différence entre `len(numeros_site)` et `surveys_df['plot_id'].nunique()`?

In [None]:
# print(len(numeros_site))
# print(surveys_df['plot_id'].nunique())

## Grouper des données

In [None]:
# Grouper les données par sexe
surveys_df

In [None]:
# Obtenir des statistiques pour toutes les variables numériques
par_sex

In [None]:
# Obtenir uniquement la moyenne de chaque colonne
par_sex

### Exercice - Grouper des données
`1`. Combien de femelles `F` et combien de mâles `M`?

In [None]:
par_sex

`2`. Qu'arrive-t-il si on groupe par deux colonnes et si on recalcule les moyennes?

In [None]:
par_site_sex = surveys_df.groupby(['plot_id', 'sex'])
par_site_sex

`3`. Faites calculer un sommaire des statistiques descriptives des poids (`weight`) pour chaque site (`plot_id`). Indice : c'est possible de sélectionner une seule colonne après avoir groupé les données.

In [None]:
par_site = surveys_df
par_site

### Obtenir la taille de population d'une seule espèce

In [None]:
# Les différents codes d'espèces
surveys_df['species_id']

In [None]:
# Population de l'espèce 'AB'
par_espece = surveys_df.groupby('species_id')
par_espece

## Créer des graphiques à partir de Pandas

In [None]:
par_site['record_id'].count()

### Exercice - Créer un graphique
Créez un graphique de type `line` montrant la médiane des poids`weight` pour chaque mois.

In [None]:
# Pourquoi la ligne suivante sera nécessaire?
# surveys_df['month'] = surveys_df['month'].astype('int64')
par_mois = surveys_df
medianes = par_mois
medianes

## Exemple résumé

In [None]:
site_sex_poidsTotal = par_site_sex['weight']
site_sex_poidsTotal.head(15)

In [None]:
# Convertir les valeurs de la catégorie la plus à droite en colonnes
sspt = site_sex_poidsTotal.unstack()
sspt

In [None]:
# Empiler les barres, ajouter le titre et le nom des axes
s_plot = sspt.plot(kind='bar',
                   title="Poids total par site et sex")
s_plot.set_xlabel("Site")
s_plot.set_ylabel("Poids (g)")