# Analyse et visualisation de données avec Python
## Combiner des DataFrame avec Pandas
Questions
* Peut-on travaillers avec plusieurs sources de données?
* Comment combiner les données de deux DataFrames?

Objectifs
* Combiner les données de plusieurs fichiers en utilisant `concat` et `merge`.
* Combiner deux DataFrames utilisant un identifiant commun.

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
valeurs = pd.read_csv("../data/valeurs.csv")

## Concaténer des DataFrames

In [None]:
# Sélectionner les 10 premiers enregistrements
valeurs_head = valeurs.###
valeurs_head

In [None]:
# Sélectionner les 10 derniers enregistrements
valeurs_tail = valeurs.###
valeurs_tail

In [None]:
# Réinitaliser l'index du second dataframe
# L'option drop=True évite l'ajout d'une colonne avec l'ancien index
valeurs_tail = valeurs_tail.###(###)
valeurs_tail

In [None]:
# Concaténer les dataframes verticalement
vertical = pd.#([valeurs_head, valeurs_tail###, ###)
vertical

In [None]:
# Concaténer les dataframes horizontalement
horizontal = pd.###([valeurs_head, valeurs_tail], axis=###)
horizontal

### Écrire le résultat dans un fichier CSV

In [None]:
# Omettre l'index
vertical.###('vertical.csv', index=###)

In [None]:
# Charger le nouveau fichier CSV
vertical### = pd.###('vertical.###')
vertical2

## Exercice - Concatener des DataFrames
Dans `valeurs`, sélectionnez les enregistrements des années 2016 et 2017. Concaténez les deux dataframes verticalement. Créez un "line-plot" montrant la moyenne des `Market_Cap_USD` par mois pour chaque année (soit une ligne par année). Sauvegardez le tableau des moyennes dans un CSV et le recharger.

In [None]:
# Obtenir les données pour chaque année
valeurs2016 = valeurs[valeurs['###'] == ###]
valeurs2017 = valeurs[valeurs['year'] == 2017]

# Concatener verticalement
valeurs16_17 = pd.###([valeurs2016, valeurs2017], ###)

In [None]:
# Calculer la moyenne par année et par mois
moyennes16_17 = valeurs16_17.groupby(['###', '###'])['Market_Cap_USD'].###().unstack()
moyennes16_17

In [None]:
# Créer le graphique
moyennes16_17.###(kind="###")

In [None]:
# Écrire dans un fichier - garder l'index "month" cette fois-ci
moyennes16_17.###("moyennes16_17.csv")

# Relire les données, fournir le nom de l'index
pd.read_csv("moyennes16_17.csv", index_col='###')

## Joindre des DataFrames
### Joindre deux DataFrames

In [None]:
# Nous allons utiliser les enregistrements de décembre 2015
# pour lesquels le Market_Cap_USD est d'au moins 250 K$
valeurs_250k = valeurs[ (valeurs['year'] == 2015) ###
                        (valeurs['month'] ###) ###
                        (valeurs['Market_Cap_USD'] ###) ]

# Garder seulement quelques colonnes
valeurs_250k = valeurs_250k[['company_ID',
                             'Market_Cap_USD',
                             'Total_Return_USD',
                             'Assets_to_Equity', 
                             'leverage_category']]
valeurs_250k

In [None]:
# Importons les informations des compagnies
compagnies = pd.read_csv('../data/###.csv')
compagnies

### Identifier les clés de jonction

In [None]:
valeurs_250k.columns

In [None]:
compagnies.columns

### Une intersection ou "inner join"

![Inner join of tables A and B](https://datacarpentry.org/python-ecology-lesson/fig/inner-join.png)

In [None]:
intersection = ###(###
                        ###)
# Quelle est la taille de la jonction?
intersection.shape

In [None]:
intersection

### Jonction de gauche

![Left join of tables A and B](https://datacarpentry.org/python-ecology-lesson/fig/left-join.png)

In [None]:
jonc_gauche = pd.merge(left=compagnies, right=valeurs_250k, ###,
                       left_on='company_ID', right_on='company_ID')
# Quelle est la taille de la jonction?
jonc_gauche.shape

In [None]:
jonc_gauche

### Les autres types de jonction
* `how='right'` : toutes les rangées du second DataFrame sont gardées
* `how='outer'` : équivalent d'une union, toutes les rangées sont gardées

## Exercice - Joindre toutes les données
`1`. Créez un nouveau DataFrame tel que tous les enregistrements de `valeurs.csv` aient leurs informations de compagnie au début de la jonction.

In [None]:
valeurs_cie = pd.###(left=###, right=###, how='###', on='###')
valeurs_cie

`2`. Calculez et créez un graphique ("bar-plot") montrant la moyenne de `Market_Cap_USD` pour chaque `sector_GICS_name`.

In [None]:
valeurs_cie.groupby(['###'])['###'].###().plot(kind='###')

`3`. Calculez le nombre d'enregistrements selon le pays et selon la catégorie de "leverage". Créez un bar-plot montrant le nombre d'enregistrements par pays, avec une couleur différente par catégorie.

In [None]:
pays_lev = valeurs_cie.groupby(['###',
                                '###'])["record_id"].###().unstack()
pays_lev

In [None]:
pays_lev.plot(kind='###', stacked=True, logy=True)