# Analyse de données avec Python
## Sélectionner des lignes et des colonnes de données
Questions
* Comment accéder à des données spécifiques dans un dataframe?

Objectives
* Utiliser les tranches pour sélectionner un intervalle de données.
* Utiliser les étiquettes de lignes de données et
  les noms de colonnes pour délimiter une tranche.
* Réassigner des valeurs à une sélection dans un dataframe.
* Effectuer une sélection en utilisant un critère contenant
  un opérateur : `=`, `!=`, `>`, `<`, `>=`, `<=`.
* Manipuler les données avec des masques de valeurs booléennes.

# Data Analysis with Python
## Indexing, Slicing and Subsetting DataFrames
Questions
* How can I access specific data within my data set?

Objectives
* Employ slicing to select sets of data from a DataFrame.
* Employ label and integer-based indexing
  to select ranges of data in a dataframe.
* Reassign values within subsets of a DataFrame.
* Query/select a subset of data using a set of criteria using
  the following operators: `=`, `!=`, `>`, `<`, `>=`, `<=`.
* Manipulate data using boolean masks.

## Charger nos données

## Loading our data

In [None]:
# Charger le module pandas
import pandas

# Charger les données
surveys_df = pandas.read_csv('../data/surveys.csv')

In [None]:
# First make sure pandas is loaded
import pandas

# Read in the survey csv
surveys_df = pandas.read_csv('../data/surveys.csv')

## Les tranches de données
### Sélectionner des données en utilisant des noms de colonne

## Indexing & Slicing in Python
### Selecting Data Using Labels (Column Headings)

In [None]:
# Sélectionner la colonne des identifiants d'espèces
surveys_df['species_id']

In [None]:
# Select the column of species IDs
surveys_df['species_id']

In [None]:
# Sélectionner plusieurs colonnes à l'aide d'une liste
colonnes = ['year', 'month', 'day']
surveys_df[colonnes]

In [None]:
# Select many columns with a list of column names
columns = ['year', 'month', 'day']
surveys_df[columns]

### Faire une sélection selon des lignes et des colonnes de données
On peut sélectionner un sous-ensemble de lignes
et de colonnes de données avec l'attribut `loc` :
c'est basé sur les index de ligne et de colonne.

### Slicing Subsets of Rows and Columns in Python
We can select specific ranges of our data in both the row and
column directions using `loc`: primarily label based indexing.
Integers may be used but they are interpreted as a label.

In [None]:
# Qu'est-ce que cela donne?
surveys_df.loc[0, ['species_id', 'plot_id', 'weight']]

In [None]:
# What does this do?
surveys_df.loc[0, ['species_id', 'plot_id', 'weight']]

In [None]:
# Sélectionner toutes les colonnes pour les lignes 0 et 10
surveys_df.loc[[0, 10], :]

In [None]:
# Select all columns for rows of index values 0 and 10
surveys_df.loc[[0, 10], :]

In [None]:
# 1) Qu'arrive-t-il si on exécute le code ci-dessous?
try:
    print(surveys_df.loc[[0, 10, 35548], :])
except BaseException as erreur:
    print(f'Le problème : {erreur}')

In [None]:
# 1) Qu'arrive-t-il si on exécute le code ci-dessous?
try:
    print(surveys_df.loc[[0, 10, 35549], :])
except BaseException as erreur:
    print(f'Le problème : {erreur}')

In [None]:
# 1) What happens when you type the code below?
try:
    print(surveys_df.loc[[0, 10, 35548], :])
except BaseException as error:
    print(f'The problem: {error}')

In [None]:
# 1) What happens when you type the code below?
try:
    print(surveys_df.loc[[0, 10, 35549], :])
except BaseException as error:
    print(f'The problem: {error}')

In [None]:
# 2) Qu'arrive-t-il si on exécute le code ci-dessous?
try:
    print(surveys_df.loc[0:4, 'month':'plot_id'])
except BaseException as erreur:
    print(f'Le problème : {erreur}')

In [None]:
# 2) Qu'arrive-t-il si on exécute le code ci-dessous?
try:
    print(surveys_df.loc[0:4, 1:4])  # 'month':'plot_id'
except BaseException as erreur:
    print(f'Le problème : {erreur}')

In [None]:
# 2) What happens when you type the code below?
try:
    print(surveys_df.loc[0:4, 'month':'plot_id'])
except BaseException as error:
    print(f'The problem: {error}')

In [None]:
# 2) What happens when you type the code below?
try:
    print(surveys_df.loc[0:4, 1:4])  # 'month':'plot_id'
except BaseException as error:
    print(f'The problem: {error}')

### Exercice - Une sélection de données
Obtenez la moyenne des **longueurs d'arrière-pieds** et
des **poids** de chaque **espèce** de `'NL'` à `'PB'` :

1. Commencez par sélectionner uniquement les colonnes requises.
2. À la fin, sélectionnez les lignes de `'NL'` à `'PB'`.

(3 min.)

### Exercise - Selecting data
Get the average **hindfoot lengths** and
**weights** of each **species** from `'NL'` to `'PB'`:

1. Start by selecting only the required columns.
2. At the end, select the rows from `'NL'` to `'PB'`.

(3 min.)

In [None]:
colonnes = ['species_id', 'hindfoot_length', 'weight']
surveys_df[colonnes].groupby('species_id').mean().loc['NL':'PB', :]

In [None]:
colonnes = ['species_id', 'hindfoot_length', 'weight']
surveys_df###.groupby('species_id').mean()###

In [None]:
columns = ['species_id', 'hindfoot_length', 'weight']
surveys_df[columns].groupby('species_id').mean().loc['NL':'PB', :]

In [None]:
columns = ['species_id', 'hindfoot_length', 'weight']
surveys_df###.groupby('species_id').mean()###

## Sélection par des critères

## Subsetting Data Using Criteria

In [None]:
# Sélectionner les enregistrements pour l'année 2002
surveys_df[surveys_df['year'] == 2002]

In [None]:
# Sélectionner les enregistrements pour l'année 2002
surveys_df['year'] == 2002

In [None]:
# Select records for the year 2002
surveys_df[surveys_df['year'] == 2002]

In [None]:
# Select records for the year 2002
surveys_df['year'] == 2002

In [None]:
# Sélectionner les enregistrements des autres années
surveys_df[surveys_df['year'] != 2002]

In [None]:
# Select records for the other years
surveys_df[surveys_df['year'] != 2002]

In [None]:
# Avec deux critères
surveys_df[(surveys_df['year'] >= 2001) & (surveys_df['weight'] <= 8)]

In [None]:
# With two conditions
surveys_df[(surveys_df['year'] >= 2001) & (surveys_df['weight'] <= 8)]

Voici les opérateurs de condition les plus courants :

* Égal, pas égal : `==`, `!=`
* Plus grand que, plus petit que : `>`, `<`
* Plus grand ou égal, plus petit ou égal : `>=`, `<=`
* Opérateurs par élément ET et OU : `&` et `|`
* Opérateur d'inversion : `~`

Here are the most common operators for conditions:

* Equal, not equal: `==`, `!=`
* Greater than, less than: `>`, `<`
* Greater than or equal to, less than or equal to: `>=`, `<=`
* Element-wise AND and OR operators: `&` and `|`
* Invert operator: `~`

In [None]:
# Sélection de trois années
surveys_df[
    (surveys_df['year'] == 1991) |
    (surveys_df['year'] == 1996) |
    (surveys_df['year'] == 2001)
].shape

In [None]:
# Selection of three years
surveys_df[
    (surveys_df['year'] == 1991) |
    (surveys_df['year'] == 1996) |
    (surveys_df['year'] == 2001)
].shape

In [None]:
# Sélection de trois années avec isin()
surveys_df[
    surveys_df['year'].isin([1991, 1996, 2001])
].shape

In [None]:
# Selection of three years with isin()
surveys_df[
    surveys_df['year'].isin([1991, 1996, 2001])
].shape

In [None]:
# Sélection des poids sur trois années avec .loc[]
surveys_df.loc[surveys_df['year'].isin([1991, 1996, 2001]), 'weight']

In [None]:
# Selection of the weights for three years with .loc[]
surveys_df.loc[surveys_df['year'].isin([1991, 1996, 2001]), 'weight']

In [None]:
# Chercher des données manquantes ou erronées
surveys_df.loc[~surveys_df['sex'].isin(['F', 'M']), 'sex']

In [None]:
# Search for missing or incorrect data
surveys_df.loc[~surveys_df['sex'].isin(['F', 'M']), 'sex']

### Exercices - Sélections par la présence
`1`. Utilisez la méthode `isin()` pour trouver tous les
différents sites (`plot_id`) ayant certaines espèces
(`AS`, `CQ`, `OX` et `UL`) dans le DataFrame. (4 min.)

### Exercises - Selection by presence
`1`. Use the `isin()` method to find all different
sites (`plot_id`) that contain particular species
(`AS`, `CQ`, `OX` and `UL`) in the surveys DataFrame. (4 min.)

In [None]:
# Masque booléen selon le code de l'espèce
cond_especes = surveys_df['species_id'].isin(['AS', 'CQ', 'OX', 'UL'])

# Lister les différents sites
surveys_df.loc[cond_especes, 'plot_id'].unique()

In [None]:
# Masque booléen selon le code de l'espèce
cond_especes = ###(['AS', 'CQ', 'OX', 'UL'])

# Lister les différents sites
surveys_df.###[###].unique()

In [None]:
# Boolean mask of valid species IDs
species_mask = surveys_df['species_id'].isin(['AS', 'CQ', 'OX', 'UL'])

# List all different sites
surveys_df.loc[species_mask, 'plot_id'].unique()

In [None]:
# Boolean mask of valid species IDs
species_mask = ###(['AS', 'CQ', 'OX', 'UL'])

# List all different sites
surveys_df.###[###].unique()

`2`. Calculez la moyenne des poids
selon le site (`plot_id`) et le sexe :
* Créez une sélection contenant seulement :
  * Les observations ayant une valeur de sexe `F` ou `M`
    et ayant un poids supérieur à `0`;
  * Les colonnes de poids, de site et de sexe.
* Groupez les données et calculez les moyennes de poids.

(5 min.)

`2`. Get the average weight by site (`plot_id`) and sex:
* Create a selection that contains only:
  * The observations that are of sex `F` or `M`
    and where weight values are greater than `0`;
  * The weight, the site and the sex columns.
* Group the data and compute the average weights.

(5 min.)

In [None]:
# Sélection des enregistrements et des colonnes nécessaires
cond_sexe = surveys_df['sex'].isin(['F', 'M'])
cond_poids = surveys_df['weight'] > 0
colonnes = ['weight', 'plot_id', 'sex']

selection = surveys_df.loc[cond_sexe & cond_poids, colonnes]
selection.tail()

In [None]:
# Sélection des enregistrements et des colonnes nécessaires
cond_sexe = surveys_df['sex'].isin(['F', 'M'])
cond_poids = surveys_df['weight'] ###
colonnes = ['weight', 'plot_id', 'sex']

selection = surveys_df###
selection.tail()

In [None]:
# Selection of the data with isin()
sex_mask = surveys_df['sex'].isin(['F', 'M'])
weight_mask = surveys_df['weight'] > 0
columns = ['weight', 'plot_id', 'sex']

selection = surveys_df.loc[sex_mask & weight_mask, columns]
selection.tail()

In [None]:
# Selection of the data with isin()
sex_mask = surveys_df['sex'].isin(['F', 'M'])
weight_mask = surveys_df['weight'] ###
columns = ['weight', 'plot_id', 'sex']

selection = surveys_df###
selection.tail()

In [None]:
# Grouper selon les sites et les sexes, calculer les moyennes
moy_par_site_sexe = selection.groupby(['plot_id', 'sex']).mean()
moy_par_site_sexe.tail()

In [None]:
# Grouper selon les sites et les sexes, calculer les moyennes
moy_par_site_sexe = selection###
moy_par_site_sexe.tail()

In [None]:
# Calculate the mean weight for each plot_id and sex combination: 
avg_by_site_sex = selection.groupby(['plot_id', 'sex']).mean()
avg_by_site_sex.tail()

In [None]:
# Calculate the mean weight for each plot_id and sex combination: 
avg_by_site_sex = selection###
avg_by_site_sex.tail()

## Résumé technique
* **Sélection**
  * `df[]` :
    * Avec une liste : sélection de colonnes
    * Avec un vecteur de valeurs booléennes : sélection de lignes
  * `df.loc[lignes, colonnes]` :
    * Avec une liste : pour des lignes ou colonnes de données
    * Intervalle avec `:` : pour des lignes ou colonnes de données
      * Les deux limites sont incluses
    * Avec un vecteur de valeurs booléennes :
      sélection de lignes de données
    * Permet l'assignation d'une valeur selon la sélection
  * `colonne.isin([valeur1, valeur2, ...])`
* **Opérateurs** sur les valeurs d'une ou de deux colonnes :
  * De comparaison : `<`, `<=`, `==`, `!=`, `>=`, `>`
  * Booléens : `~`, `|`, `&`

## Technical Summary
* **Selection**
  * `df[]` :
    * With a list: selection of columns
    * With a vector of boolean values: selection of rows
  * `df.loc[rows, columns]` :
    * With a list: for rows and columns
    * With a range with the `:` notation: for rows and columns
      * Both limits in the range are included
    * With a vector of boolean values: selection of rows
    * Allows overwriting the selection with new values
  * `column.isin([value1, value2, ...])`
* **Operators** on values of one or two columns:
  * Comparison: `<`, `<=`, `==`, `!=`, `>=`, `>`
  * Boolean: `~`, `|`, `&`