# Analyse et visualisation de données avec Python
## Démarrer avec des données
Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame dans Python.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques avec un DataFrame.
* Effectuer une première visualisation des données.

## Utiliser les DataFrames Pandas dans Python
### Nos données
Pour le présent cours, nous utiliserons des données de marchés boursiers. Une première table contient des valeurs de marché à différentes dates. Une seconde table présentée dans un autre chapitre contient de l'information sur les compagnies étudiées.

Dans la présente section, nous allons utiliser le fichier **`../data/valeurs.csv`**. Il s'agit d'un fichier CSV (de valeurs séparées par des virgules) contenant les colonnes suivantes :

 Colonne                 | Description
-----------------------: | :-------------------------------------
`record_id`              | Identifiant unique de l'enregistrement
`year`                   | Année de l'enregistrement
`month`                  | Mois de l'enregistrement
`day`                    | Jour de l'enregistrement
`company_ID`             | Identifiant de la compagnie
`Market_Cap_USD`         | Capitalisation boursière (en dollars US)
`Total_Return_USD`       | Rendement total (en dollars US)
`BETA_60M_ACWI`          | Indice ACWI (sur 5 ans)
`volatility_60_days`     | Volatilité (sur 2 mois)
`Assets_to_Equity`       | Actifs par équité
`Net_debt_to_EBITDA`     | Dette nette par bénéfices avant intérêts et amortissement
`Fixed_Assets_to_Assets` | Actifs fixes par tous les actifs
`Cash_to_assets`         | Argent par actifs
`ROA_2y`                 | Rentabilité des actifs (sur deux ans)
`ROE_2y`                 | Retour sur l'équité (sur deux ans)
`2y_avg_12M_earnings`    | Bénéfices moyens
`FX_RATE_TO_USD`         | Taux fixe
`leverage_category`      | Catégorie d'efficacité ou d'influence

Les premiers enregistrements dans le fichiers ressemblent à :
```
record_id,year,month,day,company_ID,Market_Cap_USD,Total_Return_USD,...
0,2015,4,30,1078,70046.75876000001,0.007122814590977855,...
1,2015,5,31,1078,72353.5902,0.04696251615682878,...
2,2015,6,30,1078,73068.19356,0.009876543209876408,...
3,2015,7,31,1078,75465.09233,0.03769356153219229,...
4,2015,8,31,1078,67502.07289,-0.10652988755178516,...
5,2015,9,30,1078,59945.53702,-0.11194524177522636,0.6485284008925059,...
6,2015,10,31,1078,66771.7568,0.11984087518647435,0.7120141025614667,...
```

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

In [None]:
###

## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

In [None]:
# On utilise ici l'alias "pd" pour accéder aux ressources de Pandas
###

In [None]:
### pd.read_csv("../data/valeurs.csv")

In [None]:
###

In [None]:
valeurs### # Affiche les quelques premiers enregistrements

### Démo - L'objet DataFrame
Essayez les codes ci-dessous pour voir ce qu'ils retournent.

In [None]:
valeurs.columns

In [None]:
valeurs.dtypes

In [None]:
valeurs.shape
# Dans quel format est retourné la taille du DataFrame?

## Calculer des statistiques

In [None]:
pd.###(valeurs###)

In [None]:
pd.unique(valeurs[###])

### Exercice - Calculer des statistiques
`1`. Créer une liste des différents identifiants de compagnie (`company_ID`) que l'on peut trouver dans `valeurs`. Sauvegarder le résultat dans `id_cie`. Combien y a-t-il de compagnies différentes?

In [None]:
###
###

`2`. Quelle est la différence entre `len(id_cie)` et `valeurs['company_ID'].nunique()`?

In [None]:
print(len(id_cie))
print(valeurs['company_ID'].###())

## Grouper des données

In [None]:
valeurs###

In [None]:
print("Count:    ", valeurs['Market_Cap_USD']###)
print("Mean:     ", valeurs['Market_Cap_USD'].###())
print("Std Dev.: ", valeurs['Market_Cap_USD'].###())
print("Min:      ", valeurs['Market_Cap_USD'].###())
print("Max:      ", valeurs['Market_Cap_USD'].###())

In [None]:
# Grouper les données par compagnie
### = valeurs###

In [None]:
# Obtenir des statistiques pour toutes les variables numériques
par_cie.###()

In [None]:
# Obtenir uniquement la moyenne de chaque colonne
par_cie.###()

### Exercice - Grouper des données
`1`. Combien de valeurs boursières sont `low_leverage` et combien sont `high_leverage`?

In [None]:
par_leverage = valeurs.###(###)
par_leverage.###()

`2`. Qu'arrive-t-il si on groupe par deux colonnes et si on recalcule les moyennes?

In [None]:
par_cie_lev = valeurs.###([###'leverage_category'])
par_cie_lev.###()

`3`. Faites calculer un résumé statistique de `Assets_to_Equity` pour chaque compagnie. Indice : c'est possible de sélectionner une seule colonne après avoir groupé les données.

In [None]:
###

### Obtenir la moyenne d'une seule compagnie

In [None]:
par_cie['Assets_to_Equity']###

### Opérations mathématiques de base sur les colonnes

In [None]:
# Calculer tous les Market_Cap_USD en CAD
valeurs['Market_Cap_USD'] ###

## Créer des graphiques à partir de Pandas

In [None]:
# Créer un graphe de courbes
valeurs.groupby(###)['Market_Cap_USD'].mean()###

### Exercice - Créer un graphique
Créer un graphique de type `'bar'` montrant la médiane de `Cash_to_assets` pour chaque compagnie. Note: pour améliorer la visibilité des données, il faut ajouter l'argument `figsize=(16, 4)` à la méthode générant le graphique.

In [None]:
###

## Exemple résumé

In [None]:
### = valeurs.###(['company_ID','leverage_category'])
cie_lev_totalc = par_cie_lev[###]###
cie_lev_totalc

In [None]:
cie_lev_totalc###

In [None]:
clt = cie_lev_totalc.###()
s_plot = clt.###(kind=###, stacked=###, figsize=(16, 4),
                  ###="Total de Cash_to_assets par compagnie et leverage")
s_plot.set_###("Numéro de compagnie")
s_plot.set_ylabel("Cash to assets")