# Visualisation de données en Python
## Visualisation avec Pandas et Matplotlib

Questions
* Quels sont les différents types de données dans Pandas?
* Quel est l'impact des types sur les statistiques descriptives?
* Comment visualiser les données d'un DataFrame Pandas?
* Comment personnaliser un graphique?

Objectifs
* Manipuler les types de données.
* Créer des graphiques simples à partir d'un DataFrame.
* Personnaliser un graphique avec les méthodes d'objets Matplotlib.

# Data Visualization in Python
## Visualization with Pandas and Matplotlib

Questions
* What are the different data types in Pandas?
* What impacts have data types on descriptive statistics?
* How to visualize data from a Pandas DataFrame?
* How to customize a plot?

Objectives
* Manipulate the data types.
* Create simple plots from a DataFrame.
* Customize a plot with the methods of Matplotlib objects.

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv('../data/surveys.csv')

In [None]:
# First make sure pandas is loaded
import pandas as pd

# Read in the survey csv
surveys_df = pd.read_csv('../data/surveys.csv')

## Types de données
Puisque le type des données peut avoir un impact sur
l'apparence d'un graphique, il est nécessaire de valider
au préalable le type de données de chaque colonne de
DataFrame que nous allons utiliser dans notre analyse.

## Types of Data
Since the data types can impact the appearance of a chart,
it is necessary to first validate the data type of each
column in the DataFrame that we will use in our analysis.

Types Python | Types Pandas | Description
:-----------:|:------------:|:-----------
`str`        | `object`     | Type générique, aussi utilisé en cas de multiples types
`int`        | `int64`      | Nombres entiers représentés avec 64 bits
`float`      | `float64`    | Nombres réels représentés avec 64 bits, ou non-définis (NaN)
 N/A         | `datetime64` | Dates et heures, avec une précision allant jusqu'à la nanoseconde

Native Python Type | Pandas Type | Description
:-----------------:|:-----------:|:-----------
`str`              | `object`    | The most general dtype. Will be assigned to your column if column has mixed types (numbers and strings).
`int`              | `int64`     | 64 bits integer
`float`            | `float64`   | Numeric characters with decimals. If a column contains numbers and NaNs(see below), pandas will default to float64.
 N/A               | `datetime64`| Values meant to hold time data.

In [None]:
# Le type de données pour les identifiants d'espèces
surveys_df['species_id'].dtype

In [None]:
# Getting the data type of species identifiers
surveys_df['species_id'].dtype

In [None]:
# Le type de données pour la colonne des mois
surveys_df['month'].dtype

In [None]:
# Getting the data type of month values
surveys_df['month'].dtype

In [None]:
# Obtenir le type de données pour chaque colonne
surveys_df.dtypes

In [None]:
# Getting the data types of all columns
surveys_df.dtypes

### Impacts sur les statistiques descriptives

### Working With Our Survey Data

In [None]:
# Statistiques descriptives sur les valeurs numériques
surveys_df.describe()

In [None]:
# Summary of descriptive statistics
surveys_df.describe()

In [None]:
# Convertir les numéros de mois en valeurs nominales
surveys_df['month'] = surveys_df['month'].astype('str')
surveys_df['month'].dtype

In [None]:
# Convert month numbers to nominal values
surveys_df['month'] = surveys_df['month'].astype('str')
surveys_df['month'].dtype

In [None]:
# Statistiques descriptives sur une variable qualitative
surveys_df['month'].describe()

In [None]:
# Descriptive statistics on a categorical variable
surveys_df['month'].describe()

In [None]:
# Lister les différents mois
surveys_df['month'].unique()

In [None]:
# Listing all different months
surveys_df['month'].unique()

In [None]:
# Lister les différentes années
surveys_df['year'].unique()

In [None]:
# Listing all different years
surveys_df['year'].unique()

## Créer des graphiques à partir de Pandas
Par défaut :
* La méthode `.plot()` retourne un
  [objet Axes](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.html)
  de [Matplotlib](https://matplotlib.org/stable/gallery/index.html).
* Les valeurs de l'index du DataFrame seront en axe des X.

## Quick & Easy Plotting Data Using Pandas
By default:
* The `.plot()` method returns an
  [Axes object](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.html)
  from [Matplotlib](https://matplotlib.org/stable/gallery/index.html).
* The values in the index of the DataFrame will be along the X axis.

In [None]:
#surveys_df['month'] = surveys_df['month'].astype('int64')
med = surveys_df.groupby('month')['weight'].median()
print(med.index)

med.plot(kind='line')

In [None]:
surveys_df['month'] = surveys_df['month'].astype('int64')
med = surveys_df.groupby('month')['weight'].median()
print(med.index)

med.plot(kind='line')

In [None]:
sites = surveys_df.groupby('plot_id')['record_id'].count()
print(sites.index)

sites.plot(kind='bar')

Autres particularités de `.plot()` et Matplotlib :
* Chaque colonne d'un DataFrame obtient une couleur différente.
* Divers arguments et méthodes pour configurer
  le titre du graphique et le nom des axes.

Other features of `.plot()` and Matplotlib:
* Each column of the DataFrame will have a different color.
* Various arguments and methods to configure
  the plot title and the names of the axes.

In [None]:
espece_sex_poids_moyen = surveys_df.groupby(
    ['species_id', 'sex'])['weight'].mean().unstack()
espece_sex_poids_moyen.head(10)

In [None]:
species_sex_avg_weight = surveys_df.groupby(
    ['species_id', 'sex'])['weight'].mean().unstack()
species_sex_avg_weight.head(10)

In [None]:
# Ajouter le titre et le nom des axes
e_plot = espece_sex_poids_moyen.plot(
    kind='bar', title='Poids moyen par espèce et sexe')
e_plot.set_xlabel('Espèce (identifiant)')
e_plot.set_ylabel('Poids moyen (g)')

In [None]:
# Add a title and the axis labels
s_plot = species_sex_avg_weight.plot(
    kind='bar', title='Average weight by species and sex')
s_plot.set_xlabel('Species (Identifier)')
s_plot.set_ylabel('Average weight (g)')

### Exercices - Créer un graphique
`1`. Générez un graphique de courbes montrant le
`hindfoot_length` moyen de chaque espèce d'une année à l'autre.
Note : les enregistrements sans `hindfoot_length` sont écartés.
(4 min.)

### Exercises - Create a plot
`1`. Generate a line-plot showing the average
`hindfoot_length` of each species from one year to the next.
Note: records without an `hindfoot_length` are discarded.
(4 min.)

In [None]:
selection = surveys_df[surveys_df['hindfoot_length'].notna()]

selection.groupby(
    ['year', 'species_id']
)['hindfoot_length'].mean().unstack().plot(kind='line')

In [None]:
selection = surveys_df[surveys_df['hindfoot_length'].notna()]

selection.groupby(
    ###
)['hindfoot_length'].mean()###

`2`. Générez un graphique de barres montrant le poids moyen des femelles et des mâles pour chaque genre d'espèce (`genus`). (3 min.)

`2`. Generate a bar-plot showing the average weight of females and males for each type of genus. (3 min.)

In [None]:
# Intersection avec les détails des espèces
especes_df = pd.read_csv('../data/species.csv')
jonction = pd.merge(
    left=surveys_df,
    right=especes_df,
    on='species_id'
)

In [None]:
# Inner join with the details about the species
species_df = pd.read_csv('../data/species.csv')
merged = pd.merge(
    left=surveys_df,
    right=species_df,
    on='species_id'
)

In [None]:
# Calcul des moyennes et visualisation
jonction.pivot_table(
    aggfunc='mean',
    values='weight',
    index='genus',
    columns='sex'
).plot(kind='bar')

In [None]:
# Calcul des moyennes et visualisation
jonction.pivot_table(
    aggfunc='mean',
    values='weight',
    index=###,
    columns=###
)#.plot(kind=###)

In [None]:
# Compute mean values and visualize
merged.pivot_table(
    aggfunc='mean',
    values='weight',
    index='genus',
    columns='sex'
).plot(kind='bar')

In [None]:
# Compute mean values and visualize
merged.pivot_table(
    aggfunc='mean',
    values='weight',
    index=###,
    columns=###
)#.plot(kind=###)

## Résumé technique
* **Gestion des types**
    * Pour un **DataFrame** :
        * Attributs : `dtypes`
    * Pour une **série** (colonne) :
        * Attributs : `dtype`
        * Méthodes : `astype()`
* **Créer un graphique à partir d'un DataFrame** :
    * `df.plot()`, où `df` contient une ou plusieurs colonnes
        * `kind='bar'` (défaut: `'line'`)
        * `stacked=True`
        * `title=''`
    * `objet_plot.set_xlabel('')`
    * `objet_plot.set_ylabel('')`

## Technical Summary
* **Managing data types**
    * For a **DataFrame**:
        * Attribute: `dtypes`
    * For a **Series** (column):
        * Attribute: `dtype`
        * Method: `astype()`
* **Making a plot from a DataFrame**:
    * `df.plot()`, where `df` has one or many columns
        * `kind='bar'` (`'line'` plot by default)
        * `stacked=True`
        * `title=''`
    * `plot_object.set_xlabel('')`
    * `plot_object.set_ylabel('')`