# Analyse et visualisation de données avec Python
## Sélectionner des rangées et des colonnes
Questions
* Comment accéder à des données spécifiques dans un dataframe?
* Comment gérer les valeurs non définies ou nulles?
* Comment sauvegarder un dataframe?

Objectives
* Utiliser les tranches pour sélectionner un intervalle de données.
* Utiliser les étiquettes de rangées et les noms de colonnes pour délimiter une tranche.
* Réassigner des valeurs à une sélection dans un dataframe.
* Créer une copie d'un dataframe.
* Effectuer une sélection en utilisant un critère contenant un opérateur : `=`, `!=`, `>`, `<`, `>=`, `<=`.
* Manipuler les données avec des masques de valeurs booléennes.
* Transformer ou éliminer les valeurs non définies ou nulles.
* Écrire les données manipulées dans un fichier CSV.

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("data/surveys.csv")

## *Indexing* et *Slicing* dans Python
### Sélectionner des données en utilisant des noms de colonne

In [None]:
# Assigner la colonne des identifiants d'espèces
surveys_df['species_id']

In [None]:
# Obtenir les dimensions de la colonne
id_especes.shape

In [None]:
# Sélectionner plusieurs colonnes à l'aide d'une liste
colonnes = ['year', 'month', 'day']
surveys_df[colonnes]

### Faire une sélection selon des rangées et des colonnes
On peut sélectionner un sous-ensemble de rangées et de colonnes avec l'attribut `loc` : c'est principalement basé sur les index de rangée et de colonne.

In [None]:
# Qu'est-ce que cela donne?
surveys_df.loc[0, ['species_id', 'plot_id', 'weight']]

In [None]:
# Sélectionner toutes les colonnes pour les rangées 0 et 10
surveys_df.loc[[0, 10], :]

In [None]:
# Qu'arrive-t-il si on exécute le code ci-dessous?
try:
    print(surveys_df.loc[[0, 10, 35549], :])
except BaseException as erreur:
    print(f'Le problème : {erreur}')

### Exercice - Un intervalle
Qu'est-ce qui arrive si on exécute :

In [None]:
try:
    print(surveys_df.loc[0:4, 1:4])  # 'month':'plot_id'
except BaseException as erreur:
    print(f'Le problème : {erreur}')

## Sélection par des critères

In [None]:
# Sélectionner les enregistrements pour l'année 2002
surveys_df['year'] == 2002

In [None]:
# Sélectionner les enregistrements des autres années
surveys_df[surveys_df['year'] != 2002]

In [None]:
# Avec deux critères
cond_annees = (surveys_df['year'] >= 2001)
cond_poids = (surveys_df['weight'] <= 8)
surveys_df[cond_annees & cond_poids]

Voici les opérateurs de condition les plus courants :

* Égal, pas égal : `==`, `!=`
* Plus grand que, plus petit que : `>`, `<`
* Plus grand ou égal, plus petit ou égal : `>=`, `<=`
* Opérateurs par élément ET et OU : `&` et `|`

### Exercices - Sélections par la présence
`1`. Vous pouvez utiliser la méthode `isin()` pour aller chercher les enregistrements dont les valeurs d'une colonne correspondent à l'une des valeurs fournies dans une liste. Par exemple :
```
surveys_df[surveys_df['nom_colonne'].isin([valeur1, valeur2, ...])]
```
Utilisez la méthode `isin()` pour trouver tous les différents sites (`plot_id`) ayant certaines espèces (`AS`, `CQ`, `OX` et `UL`) dans le DataFrame.

In [None]:
# Masque booléen selon le code de l'espèce
cond_especes = surveys_df['species_id']

# Lister les différents sites
surveys_df[cond_especes]['plot_id']

`2`. Créez un graphique de barres empilées (ou *stacked bar-plot*)
montrant la moyenne des poids selon le site (`plot_id`),
mais avec les résultats des femelles et des mâles superposés.
Pour la préparation initiale des données :
* Créez une sélection contenant seulement les enregistrements
ayant une valeur de `sex` (soit `F` ou `M`) et ayant un poids supérieur à 0
* Pour le graphique final, vous devez limiter les données
aux colonnes de poids, de site et de sexe

In [None]:
# Sélection des enregistrements et des colonnes nécessaires
cond_sexe = surveys_df['sex']
cond_poids = (surveys_df['weight'] )
colonnes = ['weight', 'plot_id', 'sex']

selection = surveys_df
selection.tail()

In [None]:
# Grouper selon les sites et les sexes, calculer les moyennes
colonnes = ['plot_id', 'sex']
moy_par_site_sexe = selection
moy_par_site_sexe.tail()

In [None]:
# Transformer les catégories de sexe en noms de colonne
table_site_sexe = moy_par_site_sexe.unstack()
# table_site_sexe.columns = table_site_sexe.columns.droplevel()
table_site_sexe.tail()

In [None]:
# Créer le stacked bar plot
table_site_sexe

`3`. L'opérateur `~` peut être utilisé pour retourner l'opposé d'une sélection. C'est l'équivalent de **n'est pas**. Écrivez une requête sélectionnant tous les enregistrements ne contenant ni `F`, ni `M`.

In [None]:
surveys_df

## Sélection et nettoyage des valeurs non définies

In [None]:
# Pour chaque valeur, déterminer si non définie
surveys_df.isnull()

In [None]:
# Sélectionner les enregistrements ayant au moins une valeur NaN
masque_nan = surveys_df.isnull().any(axis=1)
surveys_df[masque_nan]

In [None]:
# Qu'est-ce que le code suivant va retourner?
masque_nan = surveys_df['weight'].isnull()
une_selection = surveys_df[masque_nan]
une_selection.groupby('species_id')['record_id'].count()

### Recréer des données manquantes

In [None]:
# Le "avant" - nombre et moyenne
print(surveys_df['weight'].count(), surveys_df['weight'].mean())

In [None]:
# Créer une copie pour ne pas modifier l'objet original
copie_surveys = surveys_df.copy()

In [None]:
# Pour une valeur moyenne stable
moyennePoids = copie_surveys['weight'].mean()
copie_surveys['weight'] = copie_surveys['weight'].fillna(moyennePoids)

In [None]:
# Le "après" - nombre et moyenne
print(copie_surveys['weight'].count(), copie_surveys['weight'].mean())

### Sauvegarde après nettoyage

In [None]:
# Ne garder que les lignes sans aucun NA
df_sans_na = surveys_df.dropna()
df_sans_na

In [None]:
# Sauvegarder le dataframe filtré
fichier_csv = 'surveys_sans_NA.csv'
df_sans_na.to_csv(fichier_csv, index=False)

## Résumé technique
* **Sélection**
  * `df[]` :
    * Avec une liste : sélection de colonnes
    * Avec un vecteur de valeurs booléennes : sélection de rangées
  * `df.loc[rangees, colonnes]` :
    * Avec une liste : pour des rangées ou colonnes
    * Intervalle avec `:` : pour des rangées ou colonnes
      * Les deux limites sont incluses
    * Avec un vecteur de valeurs booléennes : sélection de rangées
    * Permet l'assignation d'une valeur selon la sélection
  * `colonne.isin([valeur1, valeur2, ...])`
* **Opérateurs** sur les valeurs d'une colonne :
  * De comparaison : `<`, `<=`, `==`, `!=`, `>=`, `>`
  * Booléens : `~`, `|`, `&`
* **Nettoyage**
  * `df.copy()`
  * `isna()`, `isnull()` (le second est un alias du premier)
  * `notna()`, `notnull()`  (le second est un alias du premier)
  * `colonne.fillna(valeur, inplace=True)`
* **Sauvegarde**
  * `df.to_csv(nom_csv, index=False)`