# Analyse et visualisation de données avec Python
## Accéder à un sous-ensemble d'un DataFrames
Questions
* Comment accéder à des données spécifiques dans un dataframe?

Objectives
* Utiliser les tranches pour sélectionner un intervalle de données.
* Utiliser les étiquettes de rangées et les noms de colonnes pour délimiter une tranche.
* Réassigner des valeurs à une sélection dans un dataframe.
* Créer une copie d'un dataframe.
* Effectuer une sélection en utilisant un critère contenant un opérateur : `=`, `!=`, `>`, `<`, `>=`, `<=`.
* Manipuler les données avec des masques de valeurs booléennes.

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("../data/surveys.csv")

## *Indexing* et *Slicing* dans Python
### Sélectionner des données en utilisant des noms de colonne

In [None]:
surveys_df['species_id']

In [None]:
surveys_species = surveys_df['species_id']

In [None]:
# Sélectionner deux colonnes à l'aide d'une liste
surveys_df[['species_id', 'plot_id']]

### Copier et référencer des objets dans Python

In [None]:
# Créer une copie du dataframe avec les mêmes valeurs
true_copy_surveys_df = surveys_df.copy()

# Garder une référence vers le dataframe original
ref_surveys_df = surveys_df

In [None]:
# Écraser toute la colonne avec la valeur 42
ref_surveys_df['weight'] = 42

In [None]:
surveys_df.head()

In [None]:
true_copy_surveys_df.head()

In [None]:
# Recharger les données à partir du fichier CSV
surveys_df = pd.read_csv("../data/surveys.csv")
surveys_df.head()

### Faire une sélection selon des rangées et des colonnes
On peut sélectionner un sous-ensemble de rangées et de colonnes avec l'attribut `loc` : c'est principalement basé sur les index de rangée et de colonne.

In [None]:
# Qu'est-ce que cela donne?
surveys_df.loc[0, ['species_id', 'plot_id', 'weight']]

In [None]:
# Sélectionner toutes les colonnes pour les rangées 0 et 10
surveys_df.loc[[0, 10], :]

In [None]:
# Qu'arrive-t-il si on exécute le code ci-dessous?
surveys_df.loc[[0, 10, 35549], :]

### Exercice - Un intervalle
Qu'est-ce qui arrive si on exécute :

In [None]:
surveys_df.loc[0:4, 1:4] # 'month':'plot_id'

## Sélection par des critères

In [None]:
surveys_df[surveys_df['year'] == 2002]

In [None]:
surveys_df[surveys_df['year'] != 2002]

In [None]:
surveys_df[(surveys_df['year'] >= 2001) & (surveys_df['weight'] <= 8)]

Voici quelques opérateurs de comparaison que vous pouvez essayer :

* Égal : `==`
* Pas égal : `!=`
* Plus grand que, plus petit que : `>` or `<`
* Plus grand ou égal à : `>=`
* Plus petit ou égal à : `<=`

### Exercices - Sélections avancées
`1`. Vous pouvez utiliser la méthode `isin()` pour aller chercher les enregistrements dont les valeurs d'une colonne correspondent à l'une des valeurs fournies dans une liste. Par exemple :
```
surveys_df[surveys_df['column_name'].isin([value1, value2, ...])]
```
Utilisez la méthode `isin()` pour trouver tous les différents sites (`plot_id`) ayant certaines espèces (`AS`, `CQ`, `OX` et `UL`) dans le DataFrame.

In [None]:
surveys_df[surveys_df['species_id'].isin(['AS', 'CQ', 'OX', 'UL'])]['plot_id'].unique()

`2`. Le symbole `~` peut être utilisé pour retourner l'opposé d'une sélection. C'est l'équivalent de **n'est pas**. Écrivez une requête sélectionnant tous les enregistrements ne contenant ni `M`, ni `F`.

In [None]:
surveys_df[~surveys_df['sex'].isin(["M", "F"])]

### Sélection selon les valeurs non définies

In [None]:
pd.isnull(surveys_df)

In [None]:
# Pour sélectionner les enregistrements ayant au moins une valeur NaN
surveys_df[pd.isnull(surveys_df).any(axis=1)]

In [None]:
# Qu'est-ce que le code suivant va retourner?
one_selection = surveys_df[pd.isnull(surveys_df['weight'])]
one_selection.groupby('species_id')['record_id'].count()

### Exercice - Enlever les NaN

Créez une sélection contenant seulement les enregistrements ayant une valeur de `sex` (soit `F` ou `M`) et ayant poids supérieur à 0. Créez un graphique de barres empilées (ou *stacked bar-plot*) montrant la moyenne des poids selon le site (`plot_id`), mais avec les résultats des femelles et des mâles superposés.

In [None]:
# Sélection des enregistrements et des colonnes nécessaires
stack_selection = surveys_df[(surveys_df['sex'].isin(["M", "F"])) & 
                             (surveys_df['weight'] > 0)][['weight', 'plot_id', 'sex']]
stack_selection.head()

In [None]:
# Grouper selon les sites et les sexes, calculer les moyennes
stack_selection = stack_selection.groupby(['plot_id', 'sex']).mean().unstack()
stack_selection.head()

In [None]:
# Simplification du nom des colonnes dans la légende
stack_selection.columns = stack_selection.columns.droplevel()
stack_selection.head()

In [None]:
# Créer le stacked bar plot
stack_selection.plot(kind='bar', stacked=True)