# Les postimpressionnistes aiment les galettes et la pluie

Pour s’établir dans la petite commune bretonne de Pont-Aven, Paul Gauguin devait beaucoup aimer les galettes et la pluie. Dans ce petit exercice, vous manipulerez des objets en vue d’afficher un graphique des précipitations sur l’année 2023 et de calculer l’écart avec les normales climatiques grâce à une métrique très connue, la RMSE (*root mean square error* ou racine de l’erreur quadratique moyenne).

Commencez par charger les librairies nécessaires :

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

Puis les données de départ :

In [None]:
months = ["Jan", "Feb", "March", "April", "May", "Jun", "Jul", "Aug", "Sept", "Oct", "Nov", "Dec"]
rainfall = [73, 10.6, 160.8, 99, 48.8, 13.4, 139.8, 36.8, 18.4, 73]
normals = [98, 76, 67, 70, 67, 50, 42, 43, 49, 90, 85, 100]

## Charger les données dans une structure adaptée

Au terme de cette première étape, vous serez amené·e à charger les données dans un *dataframe*, une structure de données tabulaire mise à disposition par la librairie *Pandas* et compatible avec d’autres librairies fréquemment utilisées en analyse des données : *Numpy*, *Matplotlib* et *Seaborn*.

Instanciez une variable `series`, de type dictionnaire, qui contienne trois clés : `months`, `rainfall` et `normals`. Attribuez-leur comme valeurs les listes correspondantes en veillant à ce que leurs longueurs soient similaires. Si la stratégie que vous adoptez implique de combler des valeurs manquantes à une liste, utilisez la syntaxe `np.nan`.

In [None]:
# your code here

Vérifions si votre structure `series` respecte la contrainte de longueur :

In [None]:
flag = False

for k, v in series.items():
    if len(v) != 12:
        flag = True
        print(f"La clé '{k}' n’est pas de longueur 12.")

if not flag:
    print("Toutes les clés sont de longueur 12.")

Chargez maintenant votre dictionnaire dans un *dataframe* :

In [None]:
df = pd.DataFrame(data=series)

Et jetez un coup d’œil à vos données :

In [None]:
display(df)

Exécutez à présent le code ci-dessous afin d’afficher un graphique des précipitations et des normales climatiques :

In [None]:
data = pd.melt(
    df,
    id_vars="months",
    var_name="Measure",
    value_name="mm")

_ = sns.lineplot(data=data, x="months", y="mm", hue="Measure", marker="o")
sns.despine()

## Évaluer un écart grâce à une métrique

Vous le constatez immédiatement grâce au graphique, il existe un écart entre les valeurs normales et les valeurs observées pour la période. Si maintenant nous estimons (à tort) que les normales correspondent à des prévisions, l’écart devient une erreur quantifiable grâce à des métriques bien connues des analystes de données.

L’une d’elles, la RMSE, a l’avantage de s’exprimer dans l’unité de la variable à prédire en extrayant la racine de l’erreur quadratique moyenne. La formule vaut :

$$
\text{RMSE} = \sqrt{ \frac{1}{k}\sum_{i=0}^{k-1}(y_i - \hat{y}_i)^2 }
$$

Dans cette formule, $k$ représente le nombre d’observations, $i$ le numéro d’indice d’une observation, $y$ une valeur observée et $\hat{y}$ la valeur prédite.

Le calcul à la main peut se décomposer ainsi :

$$
\begin{align}
    \text{SE} &= (73 - 98)^2 + (10.6 - 76)^2 + (160.8 - 67)^2 + (99 - 70)^2 + (48.8 - 67)^2 + (13.4 - 50)^2 + (139.8 - 42)^2 + (36.8 - 43)^2 + (18.4 - 49)^2 + (73 - 90)^2 \\
    \text{SE} &= 27041 \\
    \text{RMSE} &= \sqrt{\frac{1}{10} \cdot 27041}\\
    \text{RMSE} &= 52 \text{ mm}
\end{align}
$$

Programmez plutôt une fonction appelée `rmse()` qui prenne en entrée une liste de tuples dont le premier élément sera la valeur observée et le second la valeur prédite, et qui retourne en sortie la métrique calculée.

In [None]:
# your code here

Créez une variable `measures` qui réunisse les observations et les prévisions. **Attention !** Vous devez obtenir une liste de tuples sans oublier que vous ne disposez d’observations que pour les dix premiers mois.

In [None]:
# your code here

Exécutez à présent votre fonction et sauvegardez son résultat dans une variable `error` :

In [None]:
# your code here

## Un graphique amélioré

Au premier graphique affiché, il est désormais possible d’ajouter la valeur de la RMSE calculée. Au passage, vous pouvez améliorer la présentation avec des titres mieux définis :

In [None]:
_ = sns.lineplot(data=data, x="months", y="mm", hue="Measure", marker="o")

plt.title("Indicateur de pluviométrie au-dessus de Pont-Aven (29)")
plt.xlabel("Année 2023")
plt.ylabel("Précipitations (en mm)")
plt.legend(["Observées", "Prédites"], loc="upper right", title="Mesures")
plt.text(8, 125, f"RMSE : {error:.2f}")

sns.despine()