# Analyse de la température moyenne en Europe

Au cours de cet exercice, vous serez amené·es à manipuler certains des concepts essentiels du langage Python en vue d’effectuer des calculs statistiques pour analyser des relevés de température en Europe, de 1950 à 2020. Notons tout de suite que ces données sont **factices**.

## Préparation du programme

Commencez par réfléchir à la structuration de votre programme, puis mettez en place les premières structures dans votre script. L’objectif est, au terme, d’obtenir un fichier Python exécutable.

Importez les bibliothèques logicielles nécessaires et préparez une fonction `read_data()` pour acquérir les données qui se trouvent dans un fichier [*european_temperatures.tsv*](../data/european_temperatures.tsv) stocké dans le répertoire *data*. Prenez le temps d’appréhender la structure du fichier :

```csv
country  year  jan  feb  …
France  1950  4.0  …
France  1951  1.8  …
…
France  2020  -0.2  …
Allemagne  1950  4.4  …
…
```

On recense, pour chaque année entre 1950 et 2020 comprises, les températures moyennes dans les pays européens pour les mois de janvier à décembre. Essayez de produire une structure de données sous forme de dictionnaire :

```python
data = {
    'France': {
        '1950': [4.0,…],
        '1951': [1.8,…]
    },
    'Allemagne': {
        '1950': [4.4]
    }
}
```

In [None]:
# your code here

## Analyse descriptive des données

Préparez à présent une fonction `average_temperature()` qui prenne en entrée votre structure de données et renvoie la température moyenne par pays et par année :

In [None]:
# your code here

Récoltons les températures moyennes dans une variable `averages` :

In [None]:
# call function
averages = average_temperature(data)

Il est temps maintenant d’avoir un aperçu des données récoltées. Concevez une fonction `plot_temperature_evolution()` qui affiche un graphique pour représenter l’évolution des températures pour un pays donné :

In [None]:
import matplotlib.pyplot as plt

def plot_temperature_evolution(data, country):
    """Displays a graph showing the change in
    average temperature per year for a given country.

    Arguments:
    data -- dctionary containing average temperatures by country and year.
    country -- the name of the country.
    """

    # extract years and average temperatures to plot in the axis
    years = sorted([ int(year) for year in data[country].keys() ])
    avg_temperatures = [ data[country][str(year)] for year in years ]

    # conceive the graph
    plt.figure(figsize=(10, 5))
    plt.plot(years, avg_temperatures, marker='o', linestyle='-', color='m', label=f'Average temperature for {country}')

    # some labels
    plt.xlabel('Year')
    plt.ylabel('Average temperature (°C)')
    plt.title(f"Evolution of the temperature between 1950 and 2020 - {country}")
    plt.grid(True)
    plt.legend()
    plt.ylim(5, 20)

    # display the graph
    plt.show()

Vérifions que votre fonction renvoie bien un graphique :

In [None]:
# call function
plot_temperature_evolution(averages, 'Estonie')

## Établir une tendance centrale

Les températures moyennes varient assez fortement d’une année sur l’autre sans dessiner forcément de tendance soit à la hausse, soit à la baisse. Afin d’en juger, vous aurez besoin d’un indicateur. Pourquoi ne pas utiliser la régression linéaire ?

En vous aidant de la méthode des moindres carrés, établissez deux fonctions `slope()` et `intercept()` pour déterminer le coefficient directeur et l’ordonnée à l’origine de la droite de régression :

In [None]:
# your code here

Concevez à présent une fonction `prediction()` pour résoudre l’équation réduite d’une droite. Elle acceptera en entrée une valeur de $x$, le coefficient directeur et l’ordonnée à l’origine :

In [None]:
# your code here

L’objectif est maintenant d’obtenir les coordonnées $x$ et $y$ d’un relevé de températures. Créez une fonction `get_coords()` qui renvoie deux objets de type `np.array` pour les années et les températures :

In [None]:
# your code here

Récupérez les coordonnées d’un pays européen dans deux variables `X` et `Y` :

In [None]:
# your code here

Calculez dans deux variables `m` et `b` le coefficient directeur et l’ordonnée à l’origine de la droite de régression linéaire en utilisant les fonctions que vous avez définies plus haut :

In [None]:
# your code here

Effectuez des prédictions pour toutes les années de `X` :

In [None]:
# your code here

Exécutez le code ci-dessous pour afficher le graphique :

In [None]:
ax = plt.subplots(figsize=(10,5))

ax = plt.plot(X, Y_pred, color='c')
ax = plt.scatter(X, Y, marker='x', color='m',)

plt.xlabel('Year')
plt.ylabel('Average temperature (°C)')
# plt.ylim(5, 20)

plt.show()

Afin de le rendre plus lisible, décommentez la ligne qui réajuste l’échelle sur l’axe des ordonnées.

## Analyser la variabilité des données

Si l’étude de la température moyenne par année dans les pays européens nous donne un bon aperçu d’une tendance qui se dégage – et, à toutes fins utiles, rappelons que nos données sont générées aléatoirement et qu’elles ne représentent pas une situation réelle –, on ne peut pas juger de la stabilité de la situation.

Pour cela, nous allons faire appel à une autre mesure statistique : l’écart-type ou *standard deviation*, qui rend compte de la dispersion des données autour de leur moyenne. La formule vaut :

$$
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
$$

Où :

- $x_i$ représente chaque température individuellement ;
- $\mu$ est la moyenne des valeurs ;
- $n$ est le nombre des observations.

Écrivez une fonction `std_deviation()` qui, à partir d’une liste de températures, détermine pour une série de données, c’est-à-dire pour un pays, l’écart-type de ses moyennes de température :

In [None]:
# your code here

Vérifiez avec les valeurs de l’Italie :

In [None]:
temperatures = list(averages['Italie'].values())

print(std_deviation(temperatures))

Il devient ainsi possible de calculer l’écart-type pour les moyennes de tous les pays européens :

In [None]:
std_deviations = [
    (country, std_deviation(list(years.values())))
    for country, years in averages.items()
]

Et de les trier par ordre croissant afin de révéler les pays dont le climat est le plus stable :

In [None]:
std_deviations.sort(key=lambda x: x[1])

## Un système d’alerte

La finalité de ces traitements serait de créer un système d’alerte pour détecter des valeurs anormales.

Supposons que la moyenne des températures relevées en Allemagne entre 1950 et 2020 soit établie à 11,20°C pour un écart-type de 0,80. De nouvelles données sont disponibles : la moyenne pour 2021 est de 12,25°C. L’écart entre le relevé de 2021 et la moyenne observée jusqu’à maintenant est de $12,25 - 11,20 = 1,05$, soit 0,35 au-dessus de l’écart-type.

Pour autant, est-ce alarmant ? En statistiques, on considère que, pour une distribution normale, 95,45 % des observations se situent à $\pm 2 \sigma$. Dans le cas de l’Allemagne, on devrait considérer une situation climatique anormale à partir du moment où la moyenne annuelle se situerait dans un intervalle de $[11,20 - 2 \times 0,80;11,20 + 2 \times 0,80]$

Voici le relevé des températures moyennes pour 2021 :

In [None]:
deutschland_year_2021 = {
    'january': 7.8,
    'february': 5.8,
    'march': 9.6,
    'april': 13.3,
    'may': 18.4,
    'june': 19.6,
    'july': 24.8,
    'august': 21.7,
    'september': 16.5,
    'october': 13.3,
    'november': 9.8,
    'december': 7.7
}

L’année a-t-elle été plus chaude ou plus fraîche que d’habitude en Allemagne ? Concevez une procédure qui, à l’aide de conditions, permette de le déterminer :

In [None]:
# your code here