# Analyse et visualisation de données avec Python
## Combiner des DataFrame avec Pandas
Questions
* Peut-on travaillers avec plusieurs sources de données?
* Comment combiner les données de deux DataFrames?

Objectifs
* Combiner les données de plusieurs fichiers en utilisant `concat` et `merge`.
* Combiner deux DataFrames utilisant un identifiant commun.

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("../data/surveys.csv")

## Concaténer des DataFrames

In [None]:
# Sélectionner les 10 premiers enregistrements
premiers10 = surveys_df.###(###)
premiers10

In [None]:
# Sélectionner les 10 derniers enregistrements
derniers10 = surveys_df.###(###)
derniers10

In [None]:
# Concaténer les dataframes verticalement
vertical = pd.###([premiers10, derniers10], axis=###)
vertical

In [None]:
# Réinitaliser l'index du dataframe
# L'option drop=True évite l'ajout d'une colonne avec l'ancien index
vertical = vertical.reset_index(###)
vertical

### Écrire le résultat dans un fichier CSV

In [None]:
# Omettre l'index
vertical.###('surveys_debut_fin.csv', ###)

In [None]:
# Charger le nouveau fichier CSV
debut_fin = pd.###('surveys_debut_fin.csv')
debut_fin

## Exercice - Concaténer des DataFrames
Dans `surveys_df`, sélectionnez individuellement les enregistrements des années 2001 et 2002. Concaténez les deux dataframes verticalement. Sauvegardez le tableau des moyennes dans un CSV et le recharger.

In [None]:
# Obtenir les données pour chaque année
annee2001 = surveys_df[###]
annee2002 = surveys_df[surveys_df['year'] ###]

# Concaténer verticalement
deux_annees = pd.###([annee2001, annee2002], axis=###)

In [None]:
# Calculer la moyenne par année et par sexe
poids_annee = deux_annees.groupby(['year', '###'])['###'].mean().unstack()
poids_annee

In [None]:
# Écrire dans un fichier - garder l'index "year" cette fois-ci
poids_annee.###("poids_par_annee.csv", ###)

# Relire les données, fournir le nom de l'index
pd.read_csv("poids_par_annee.csv", index_col='###')

## Joindre deux DataFrames

In [None]:
# Importer un sous-ensemble des espèces pour cet exemple
###_especes = pd.read_csv('../data/species###.csv')
trois_especes

### Identifier les clés de jonction

In [None]:
premiers10.###

In [None]:
###_especes.columns

### Une intersection ou "inner join"

![Inner join of tables A and B](https://datacarpentry.org/python-ecology-lesson/fig/inner-join.png)

In [None]:
intersection = pd.###(###=premiers10, ###=trois_especes,
                        ###='species_id', ###='species_id')
# Quelle est la taille de la jonction?
intersection.shape

In [None]:
intersection

### Jonction de gauche

![Left join of tables A and B](https://datacarpentry.org/python-ecology-lesson/fig/left-join.png)

In [None]:
jonc_gauche = pd.###(left=premiers10, right=trois_especes,
                       ###='###', on='species_id')
# Quelle est la taille de la jonction?
jonc_gauche.shape

In [None]:
jonc_gauche

### Les autres types de jonction
* `how='right'` : toutes les rangées du second DataFrame sont gardées
* `how='outer'` : équivalent d'une union, toutes les rangées sont gardées

## Exercice - Joindre toutes les données
`1`. Créez un nouveau DataFrame tel que tous les enregistrements de `surveys.csv` seront gardés, mais certains enregistrement seront joints aux informations correspondantes de `species.csv` (soit le fichier complet à charger).

In [None]:
species_df = pd.read_csv("../data/species.csv")
jonc_gauche = pd.merge(left=surveys_df, right=###, ###='left', ###='species_id')
jonc_gauche.shape

`2`. Calculez et créez un graphique (*bar-plot*) montrant le nombre d'enregistrements (soit le nombre de `record_id`) par type de `taxa` pour chaque site (`plot_id`).

In [None]:
taxa_site = jonc_gauche.groupby(['plot_id', 'taxa'])['###'].###().un###()
taxa_site.head()

In [None]:
taxa_site.plot(kind="###", stacked=True)

`3`. Calculez et créez un graphique (bar-plot) montrant le nombre de différents `taxa` par type de sexe pour chaque site (`plot_id`).

In [None]:
# Nettoyage des données
jonc_gauche.loc[jonc_gauche['sex'].isnull(), 'sex'] = "F|M"
jonc_gauche.loc[~jonc_gauche['sex'].isin(["F", "F|M", "M"]), 'sex'] = "F|M"

In [None]:
ntaxa_sex_site = jonc_gauche.groupby(['plot_id',
                                      '###'])['###'].nunique().reset_index(level=1)
ntaxa_sex_site.head()

In [None]:
# Utiliser pivot_table() au lieu de unstack()
ntaxa_sex_site = ntaxa_sex_site.###(values='taxa', columns='sex',
                                            index=ntaxa_sex_site.index)
ntaxa_sex_site.head()

In [None]:
ntaxa_sex_site.plot(kind="bar", stacked=True, legend=False)