# Visualisation de données en Python
## Visualiser des séries temporelles

Question
* Comment visualiser des données sous forme de courbes temporelles?

Objectif
* Créer différents types de graphiques.

# Data Visualization in Python
## Plotting time series data

Question
* How to visualize time series data with line plots?

Objective
* Create different types of plots.

In [None]:
import pandas as pd

# Charger les données nettoyées
surveys_complet = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complet

In [None]:
import pandas as pd

# Load the cleaned data
surveys_complete = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complete

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

## Visualiser des données selon le temps
* Nombre d'enregistrements par type d'espèce pour chaque année :

## Plotting time series data
* Let’s visualize the number of records per year for each species

In [None]:
alt.Chart(surveys_complet).mark_line().encode(
    x=alt.X('year').type('ordinal'),
    y=alt.Y('count()').scale(type='log', base=2),
    color=alt.Color('species_id'),
)

In [None]:
alt.Chart(surveys_complete).mark_line().encode(
    x=alt.X('year').type('ordinal'),
    y=alt.Y('count()').scale(type='log', base=2),
    color=alt.Color('species_id'),
)

* Poids médian par type d'espèce pour chaque mois :

* And now, the median weight per month for each species

In [None]:
alt.Chart(surveys_complet).mark_line().encode(
    x=alt.X('month').type('ordinal'),
    y=alt.Y('weight').aggregate('median'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
)

In [None]:
alt.Chart(surveys_complete).mark_line().encode(
    x=alt.X('month').type('ordinal'),
    y=alt.Y('weight').aggregate('median'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
)

### Exercice - Visualisation selon le temps
`1`. Utilisez la fonction `pd.to_datetime()` pour générer une colonne
     de dates à partir des colonnes `year`, `month` et `day`. (3 min.)

### Exercise - Plotting time series data
`1`. Use the `pd.to_datetime()` function to generate a new
`date` column from the columns `year`, `month` and `day`. (3 min.)

In [None]:
# Décennie 1990 - pour éviter les 31 avril et 31 septembre 2000
dec_1990 = surveys_complet[
    surveys_complet['year'].isin(range(1990, 2000))].copy()

dec_1990['date'] = pd.to_datetime(dec_1990[['year', 'month', 'day']])
dec_1990['date']

In [None]:
# Décennie 1990 - pour éviter les 31 avril et 31 septembre 2000
dec_1990 = surveys_complet[
    surveys_complet['year'].isin(range(1990, 2000))].copy()

dec_1990['date'] = ###['year', 'month', 'day']###
dec_1990['date']

In [None]:
# Decade 1990 - avoid invalid dates April 31 and September 31, 2000
dec_1990 = surveys_complete[
    surveys_complete['year'].isin(range(1990, 2000))].copy()

dec_1990['date'] = pd.to_datetime(dec_1990[['year', 'month', 'day']])
dec_1990['date']

In [None]:
# Decade 1990 - avoid invalid dates April 31 and September 31, 2000
dec_1990 = surveys_complete[
    surveys_complete['year'].isin(range(1990, 2000))].copy()

dec_1990['date'] = ###['year', 'month', 'day']###
dec_1990['date']

`2`. Affichez le poids médian de chaque espèce selon la `date`.
(3 min.)

`2`. Visualize the median weight of each species by the `date`.
(3 min.)

In [None]:
alt.Chart(dec_1990).mark_line().encode(
    x=alt.X('date'),
    y=alt.Y('weight').aggregate('median'),
    color=alt.Color('species_id'),
    tooltip=['species_id', 'date'],
)

In [None]:
alt.Chart(###).mark_line().encode(
    x=alt.X(###),
    y=alt.Y('weight').###('median'),
    color=alt.Color('species_id'),
    tooltip=['species_id', 'date'],
)

## Résumé technique
* **Création d'une colonne de dates**
  * `df['date'] = pd.to_datetime(df[['year', 'month', 'day']])`
* **Choix du type de marqueurs** à afficher
  * `graphique.mark_line()`
* **Assigner des variables** à des canaux du graphique
  * `graphique.encode(...)`
  * Différents canaux :
    * `y=alt.Y('count()')`
    * `y=alt.Y('varY').aggregate('stat')`,
      avec les statistiques `'mean'`, `'median'`, etc.

## Key points
* **Creating a column of dates**
  * `df['date'] = pd.to_datetime(df[['year', 'month', 'day']])`
* **Choosing a type of chart**
  * `chart.mark_line()`
* **Assigning data fields to encoding channels**:
  * `chart.encode(...)`
  * Encoding channels:
    * `y=alt.Y('count()')`
    * `y=alt.Y('field_for_Y').aggregate(...)`,
      with either `'mean'`, `'median'`, etc.