# Analyse de données avec Python
## Combiner des DataFrames avec Pandas
Questions
* Comment travailler avec plusieurs sources de données?
* Comment combiner les données de deux DataFrames?

Objectifs
* Combiner les données de plusieurs fichiers en utilisant `concat` et `merge`.
* Combiner deux DataFrames utilisant un identifiant commun.

# Data Analysis with Python
## Combining DataFrames with pandas
Questions
* Can I work with data from multiple sources?
* How can I combine data from different data sets?

Objectives
* Combine data from multiple files into a single DataFrame using `concat` and `merge`.
* Combine two DataFrames using a unique ID found in both DataFrames.

## Lister des fichiers de données

## List data files

In [None]:
# Fonction de "globbing" (recherche par modèle de nom de fichier)
from glob import glob

# Lister une collection de fichiers CSV
fichiers_csv = glob('../data/by_year/*.csv')
fichiers_csv[-5:]

In [None]:
# Function for "globbing" (searching by file name pattern)
from glob import glob

# List a collection of CSV files
csv_files = glob('../data/by_year/*.csv')
csv_files[-5:]

## Concaténer des DataFrames

## Concatenating DataFrames

In [None]:
import pandas

annee2001 = pandas.read_csv('../data/by_year/surveys_2001.csv')
annee2002 = pandas.read_csv('../data/by_year/surveys_2002.csv')

print(annee2001.shape, annee2002.shape)

In [None]:
import pandas

year2001 = pandas.read_csv('../data/by_year/surveys_2001.csv')
year2002 = pandas.read_csv('../data/by_year/surveys_2002.csv')

print(year2001.shape, year2002.shape)

In [None]:
# Concaténer les dataframes verticalement
vertical = pandas.concat([annee2001, annee2002], axis='index')
vertical

In [None]:
# Stack the DataFrames on top of each other
vertical = pandas.concat([year2001, year2002], axis='index')
vertical

In [None]:
# Réinitaliser l'index du dataframe
# L'option drop=True évite l'ajout d'une colonne avec l'ancien index
vertical = vertical.reset_index(drop=True)
vertical

In [None]:
# Reset index values of the dataframe
# The drop=True option avoids adding new index column with old index values
vertical = vertical.reset_index(drop=True)
vertical

In [None]:
# Accumuler les données de tous les fichiers de la collection
liste_df = []

for nom_fichier in glob('../data/by_year/*.csv'):
    df_par_annee = pandas.read_csv(nom_fichier)
    liste_df.append(df_par_annee)

surveys_df = pandas.concat(liste_df, axis='index')
surveys_df = surveys_df.reset_index(drop=True)
surveys_df

In [None]:
# Accumulate data from all files in the collection
df_list = []

for filename in glob('../data/by_year/*.csv'):
    df_by_year = pandas.read_csv(filename)
    df_list.append(df_by_year)

surveys_df = pandas.concat(df_list, axis='index')
surveys_df = surveys_df.reset_index(drop=True)
surveys_df

## Exercice - Concaténer des DataFrames
* Chargez les données de tous les fichiers CSV du répertoire
  `../data/by_species_id/` et accumulez-les dans une liste.
* Concaténez les DataFrames de cette liste.
* Réinitialisez l'index sans le préserver.

(4 min.)

## Exercise - Concatenating DataFrames
* Load the data from all CSV files in the directory
  `../data/by_species_id/` and accumulate them in a list.
* Concatenate the DataFrames of that list.
* Reset the index without preserving it.

(4 min.)

In [None]:
liste_df = []

for nom_fichier in glob('../data/by_species_id/*.csv'):
    liste_df.append(pandas.read_csv(nom_fichier))

surveys_sp = pandas.concat(liste_df, axis='index').reset_index(drop=True)
surveys_sp

In [None]:
liste_df = []

for nom_fichier in ###('../data/by_species_id/*.csv'):
    liste_df.###(pandas.read_csv(nom_fichier))

surveys_sp = pandas.###(###, ###='index').###(drop=###)
surveys_sp

In [None]:
df_list = []

for filename in glob('../data/by_species_id/*.csv'):
    df_list.append(pandas.read_csv(filename))

surveys_sp = pandas.concat(df_list, axis='index').reset_index(drop=True)
surveys_sp

In [None]:
df_list = []

for filename in ###('../data/by_species_id/*.csv'):
    df_list.###(pandas.read_csv(filename))

surveys_sp = pandas.###(###, ###='index').###(drop=###)
surveys_sp

* Calculez le poids moyen selon l'espèce et le sexe (1 min.)

* Compute the average weight by sex for each species. (1 min.)

In [None]:
# Calculer le poids moyen par espèce et par sexe
poids_espece = surveys_sp.groupby(
    ['species_id', 'sex'])['weight'].mean().unstack()
poids_espece

In [None]:
# Calculer le poids moyen par espèce et par sexe
poids_espece = surveys_sp.groupby(
    ['species_id', 'sex'])###.unstack()
poids_espece

In [None]:
# Get the average weight by sex for each species
weight_species = surveys_sp.groupby(
    ['species_id', 'sex'])['weight'].mean().unstack()
weight_species

In [None]:
# Get the average weight by sex for each species
weight_species = surveys_sp.groupby(
    ['species_id', 'sex'])###.unstack()
weight_species

* Sauvegardez `poids_espece` dans un fichier CSV en préservant
  l'index. Ensuite, rechargez le DataFrame en spécifiant le
  nom de la colonne de l'index (`'species_id'`). (3 min.)

* Export `weight_species` and its index as a CSV file.
  Then, read it back into Python by specifying the
  name of the index column (`'species_id'`). (3 min.)

In [None]:
# Écrire dans un fichier - garder l'index cette fois-ci
fichier_csv = 'poids_par_espece.csv'
poids_espece.to_csv(fichier_csv, index=True)

# Relire les données, fournir le nom de l'index
pandas.read_csv(fichier_csv, index_col='species_id')

In [None]:
# Écrire dans un fichier - garder l'index cette fois-ci
fichier_csv = 'poids_par_espece.csv'
poids_espece###

# Relire les données, fournir le nom de l'index
pandas.read_csv(fichier_csv, index_col=###)

In [None]:
# Writing to file while keeping the index
csv_file = 'weight_by_species.csv'
weight_species.to_csv(csv_file, index=True)

# Reading it back in with a specified index column
pandas.read_csv(csv_file, index_col='species_id')

In [None]:
# Writing to file while keeping the index
csv_file = 'weight_by_species.csv'
weight_species###

# Reading it back in with a specified index column
pandas.read_csv(csv_file, index_col=###)

## Joindre deux DataFrames

## Joining Two DataFrames

In [None]:
# Importer un sous-ensemble des espèces pour cet exemple
trois_especes = pandas.read_csv('../data/speciesSubset.csv')
trois_especes

In [None]:
# Import a small subset of the species data designed for this part of the lesson
species_sub = pandas.read_csv('../data/speciesSubset.csv')
species_sub

In [None]:
# Un sous-ensemble des observations
premiers10 = surveys_df.head(10)
premiers10

In [None]:
# The first ten records
head10 = surveys_df.head(10)
head10

### Identifier les clés de jonction

### Identifying join keys

In [None]:
premiers10.columns

In [None]:
head10.columns

In [None]:
trois_especes.columns

In [None]:
species_sub.columns

### Une intersection ou "inner join"

### Inner joins

![Inner join of tables A and B](https://datacarpentry.org/python-ecology-lesson/fig/inner-join.png)

In [None]:
# Calculer l'intersection de premiers10 et trois_especes
cle = 'species_id'
intersection = pandas.merge(
    left=premiers10,
    right=trois_especes,
    left_on=cle,
    right_on=cle
)
# Quelle est la taille de la jonction?
intersection.shape

In [None]:
# Computing the inner join of head10 and species_sub
key = 'species_id'
merged_inner = pandas.merge(
    left=head10,
    right=species_sub,
    left_on=key,
    right_on=key
)
# What's the size of the output data?
merged_inner.shape

In [None]:
intersection

In [None]:
merged_inner

### Jonction de gauche

### Left joins

![Left join of tables A and B](https://datacarpentry.org/python-ecology-lesson/fig/left-join.png)

In [None]:
jonc_gauche = pandas.merge(
    left=premiers10,
    right=trois_especes,
    how='left',
    on=cle
)
# Quelle est la taille de la jonction?
jonc_gauche.shape

In [None]:
merged_left = pandas.merge(
    left=head10,
    right=species_sub,
    how='left',
    on=key
)
# What's the size of the output data?
merged_left.shape

In [None]:
jonc_gauche

In [None]:
merged_left

### Les autres types de jonction
* `how='right'` : toutes les lignes du second DataFrame sont gardées
* `how='outer'` : équivalent d'une union, toutes les lignes sont gardées

### Other join types
* `how='right'` : all rows from the right DataFrame are kept
* `how='outer'` : all pairwise combinations of rows from both DataFrames

## Exercice - Joindre toutes les données
`1`. Créez un nouveau DataFrame tel que tous les
enregistrements de `surveys_df` sont gardés dans une jonction
impliquant les informations correspondantes de `species.csv`.
(3 min.)

## Exercise - Joining all data
`1`. Create a new DataFrame by joining the contents of the
`surveys_df` and `species.csv` tables. Keep all survey records.
(3 min.)

In [None]:
species_df = pandas.read_csv('../data/species.csv')

jonc_gauche = pandas.merge(
    left=surveys_df,
    right=species_df,
    how='left',
    on='species_id'
)
jonc_gauche.shape

In [None]:
species_df = pandas.read_csv('../data/species.csv')

jonc_gauche = pandas.merge(
    left=surveys_df,
    right=###,
    how=###,
    on=###
)
jonc_gauche.shape

In [None]:
species_df = pandas.read_csv('../data/species.csv')

merged_left = pandas.merge(
    left=surveys_df,
    right=species_df,
    how='left',
    on='species_id'
)
merged_left.shape

In [None]:
species_df = pandas.read_csv('../data/species.csv')

merged_left = pandas.merge(
    left=surveys_df,
    right=###,
    how=###,
    on=###
)
merged_left.shape

`2`. Calculez la longueur moyenne des
arrière-pieds (`'hindfoot_length'`) pour chaque genre
d'espèce (`'genus'`) d'une année à l'autre. Transformez le
résultat pour avoir une colonne par genre d'espèce. (4 min.)

`2`. Calculate the average hindfoot
length for each genus from year to year. Transform the
result such that each genus gets its own column. (4 min.)

In [None]:
longueurs_moyennes = jonc_gauche.groupby(
    ['year', 'genus'])['hindfoot_length'].mean().unstack()
longueurs_moyennes.tail()

In [None]:
longueurs_moyennes = jonc_gauche.###(
    ###)['hindfoot_length']###
longueurs_moyennes.tail()

In [None]:
average_lengths = merged_left.groupby(
    ['year', 'genus'])['hindfoot_length'].mean().unstack()
average_lengths.tail()

In [None]:
average_lengths = merged_left.###(
    ###)['hindfoot_length']###
average_lengths.tail()

`3`. Calculez le poids moyen selon le sexe pour chaque
genre d'espèce. Pour cet exercice, nous allons utiliser un
tableau croisé dynamique à la place de `unstack()`. (3 min.)

`3`. Calculate the average weight per sex for each genus. For this
exercise, we will use a pivot table instead of `unstack()`. (3 min.)

In [None]:
# Utiliser pivot_table() au lieu de groupby() + unstack()
jonc_gauche.pivot_table(
    values='weight',
    index='genus',
    columns='sex',
    aggfunc='mean'
)

In [None]:
# Utiliser pivot_table() au lieu de groupby() + unstack()
jonc_gauche.###(
    values=###,
    index=###,
    columns=###,
    aggfunc=###
)

In [None]:
# Use pivot_table() instead of groupby() + unstack()
merged_left.pivot_table(
    values='weight',
    index='genus',
    columns='sex',
    aggfunc='mean'
)

In [None]:
# Use pivot_table() instead of groupby() + unstack()
merged_left.###(
    values=###,
    index=###,
    columns=###,
    aggfunc=###
)

## Résumé technique
* **Concaténer** des DataFrames avec `pandas.concat()`
  * Requiert une liste de DataFrames
  * Verticalement si `axis='index'` (par défaut)
  * Horizontalement si `axis='columns'`
  * Réinitialiser l'index au besoin : `reset_index(drop=True)`
* **Joindre** des DataFrames avec `pandas.merge()`
  * `left=`, `right=` : les deux DataFrames à joindre
  * `how=` : `'inner'` (défaut), `'left'`, `'right'`, `'outer'`
  * `left_on=`, `right_on=` : les clés de jonction de chaque DataFrame
  * `on=` : clés de jonction communes aux deux DataFrames

## Technical Summary
* **Concatenate** DataFrames with `pandas.concat()`
  * Requires a list of DataFrames
  * Vertically if `axis='index'` (by default)
  * Horizontally if `axis='columns'`
  * Resetting the index: `reset_index(drop=True)`
* **Joining** DataFrames with `pandas.merge()`
  * `left=`, `right=`: both DataFrames to join
  * `how=`: `'inner'` (default), `'left'`, `'right'`, `'outer'`
  * `left_on=`, `right_on=`: join key for each DataFrame
  * `on=`: join key for both DataFrames