# Analyse et visualisation de données avec Python
## Démarrer avec des données
Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame dans Python.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques avec un DataFrame.
* Effectuer une première visualisation des données.

## Utiliser les DataFrames Pandas dans Python
### Nos données
Pour le présent cours, nous utiliserons des données de marchés boursiers. Une première table contient des valeurs de marché à différentes dates. Une seconde table présentée dans un autre chapitre contient de l'information sur les compagnies étudiées.

Dans la présente section, nous allons utiliser le fichier **`../data/valeurs.csv`**. Il s'agit d'un fichier CSV (de valeurs séparées par des virgules) contenant les colonnes suivantes :

 Colonne                 | Description
-----------------------: | :-------------------------------------
`record_id`              | Identifiant unique de l'enregistrement
`year`                   | Année de l'enregistrement
`month`                  | Mois de l'enregistrement
`day`                    | Jour de l'enregistrement
`company_ID`             | Identifiant de la compagnie
`Market_Cap_USD`         | Capitalisation boursière (en dollars US)
`Total_Return_USD`       | Rendement total (en dollars US)
`BETA_60M_ACWI`          | Indice ACWI (sur 5 ans)
`volatility_60_days`     | Volatilité (sur 2 mois)
`Assets_to_Equity`       | Actifs par équité
`Net_debt_to_EBITDA`     | Dette nette par bénéfices avant intérêts et amortissement
`Fixed_Assets_to_Assets` | Actifs fixes par tous les actifs
`Cash_to_assets`         | Argent par actifs
`ROA_2y`                 | Rentabilité des actifs (sur deux ans)
`ROE_2y`                 | Retour sur l'équité (sur deux ans)
`2y_avg_12M_earnings`    | Bénéfices moyens
`FX_RATE_TO_USD`         | Taux fixe
`leverage_category`      | Catégorie d'efficacité ou d'influence

Les premiers enregistrements dans le fichiers ressemblent à :
```
record_id,year,month,day,company_ID,Market_Cap_USD,Total_Return_USD,...
0,2015,4,30,1078,70046.75876000001,0.007122814590977855,...
1,2015,5,31,1078,72353.5902,0.04696251615682878,...
2,2015,6,30,1078,73068.19356,0.009876543209876408,...
3,2015,7,31,1078,75465.09233,0.03769356153219229,...
4,2015,8,31,1078,67502.07289,-0.10652988755178516,...
5,2015,9,30,1078,59945.53702,-0.11194524177522636,0.6485284008925059,...
6,2015,10,31,1078,66771.7568,0.11984087518647435,0.7120141025614667,...
```

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

In [None]:
import pandas as pd

## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

In [None]:
# On utilise ici l'alias "pd" pour accéder aux ressources de Pandas
pd.read_csv("../data/valeurs.csv")

In [None]:
valeurs = pd.read_csv("../data/valeurs.csv")

In [None]:
valeurs

In [None]:
valeurs.head() # Affiche les quelques premiers enregistrements

In [None]:
valeurs.head(15)

### Exercice - L'objet DataFrame
Essayez les codes ci-dessous pour voir ce qu'ils retournent.

In [None]:
valeurs.columns

In [None]:
valeurs.shape
# Dans quel format est retourné la taille du DataFrame?

In [None]:
valeurs.tail()

### Calculating Statistics From Data In A Pandas DataFrame

In [None]:
# Look at the column names
surveys_df.columns

In [None]:
pd.unique(surveys_df['species_id'])

### Exercise - Calculating Statistics
`1`. Create a list of unique site ID’s (`plot_id`) found in the surveys data. Call it `site_names`. How many unique sites are there in the data? How many unique species are in the data?

In [None]:
site_names = pd.unique(surveys_df["plot_id"])
site_names.shape[0] # Can also use: len()

`2`. What is the difference between `len(site_names)` and `surveys_df['plot_id'].nunique()`?

In [None]:
print(len(site_names))
print(surveys_df['plot_id'].nunique())

## Groups in Pandas

In [None]:
surveys_df['weight'].describe()

In [None]:
print("Count:    ", surveys_df['weight'].count())
print("Mean:     ", surveys_df['weight'].mean())
print("Std Dev.: ", surveys_df['weight'].std())
print("Min:      ", surveys_df['weight'].min())
print("Max:      ", surveys_df['weight'].max())

In [None]:
# Group data by sex
grouped_data = surveys_df.groupby('sex')

In [None]:
# summary statistics for all numeric columns by sex
grouped_data.describe()

In [None]:
# provide the mean for each numeric column by sex
grouped_data.mean()

### Exercise - Grouping
`1`. How many recorded individuals are female `F` and how many male `M`

In [None]:
grouped_data.count()

`2`. What happens when you group by two columns using the following syntax and then grab mean values:

In [None]:
grouped_data2 = surveys_df.groupby(['plot_id','sex'])
grouped_data2.mean()

`3`. Summarize weight values for each site in your data. HINT: you can use the following syntax to only create summary statistics for one column in your data `by_site['weight'].describe()`

In [None]:
surveys_df.groupby(['plot_id'])['weight'].describe()

### Quickly Creating Summary Counts in Pandas

In [None]:
# count the number of samples by species
species_counts = surveys_df.groupby('species_id')['record_id'].count()
print(species_counts)

In [None]:
surveys_df.groupby('species_id')['record_id'].count()['DO']

### Basic Math Functions

In [None]:
# Convert all weights in Kg
surveys_df['weight'] / 2.2

## Quick & Easy Plotting Data Using Pandas

In [None]:
# make sure figures appear inline in Ipython Notebook
%matplotlib inline

In [None]:
# create a quick bar chart
species_counts.plot(kind='bar');

In [None]:
total_count = surveys_df.groupby('plot_id')['record_id'].nunique()

# let's plot that too
total_count.plot(kind='bar');

### Exercise - Plotting Challenges
Create a plot of the average weight across all species per site.

In [None]:
surveys_df.groupby('plot_id')["weight"].mean().plot(kind='bar')

Create a plot of total males versus total females for the entire datase.

In [None]:
surveys_df.groupby('sex')["record_id"].count().plot(kind='bar')

## Summary Example

In [None]:
by_site_sex = surveys_df.groupby(['plot_id','sex'])
site_sex_totalw = by_site_sex['weight'].sum()
site_sex_totalw

In [None]:
site_sex_totalw.unstack()

In [None]:
spc = site_sex_totalw.unstack()
s_plot = spc.plot(kind='bar',stacked=True,title="Total weight by site and sex")
s_plot.set_ylabel("Weight")
s_plot.set_xlabel("Site")