***Chargement et affichage de donnée***

Charge le fichier CSV de données météo fusionnées et affiche les premières lignes pour vérifier que les données sont bien lues.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("data/processed/merged_weather.csv", parse_dates=["date"])
df.head()

Explorer rapidement le contenu du tableau de données météo pour mieux le comprendre.

In [None]:
df.info()
df.describe()
df['city'].value_counts()

Vérifie la qualité des données en montrant combien de valeurs sont absentes dans chaque colonne.

In [None]:
df.isna().sum()

Affiche un graphique de température moyenne dans le temps, avec une ligne pour chaque ville sur 5 ans.

In [None]:
plt.figure(figsize=(12, 6))
sns.lineplot(data=df, x="date", y="tavg", hue="city")
plt.title("Température moyenne par ville (sur 5 ans)")
plt.xlabel("Date")
plt.ylabel("Température moyenne (°C)")
plt.grid(True)
plt.tight_layout()
plt.show()

Compte le nombre de jours où il a plu dans chaque ville.

In [None]:
df["rainy_day"] = df["prcp"] > 0
rain_stats = df.groupby("city")["rainy_day"].sum().reset_index()
rain_stats.columns = ["Ville", "Nombre de jours pluvieux"]
rain_stats

Mesure à quel point les températures varient dans chaque ville (plus le chiffre est grand, plus les températures sont instables ou changent fortement).

In [None]:
df.groupby("city")["tavg"].std().reset_index(name="variabilité_temp_moy")

Analyse la température moyenne pour chaque ville et comparer les différences de climat entre les villes.

In [None]:
stats = df.groupby("city")["tavg"].agg(["mean", "std", "min", "max"]).reset_index()
stats["amplitude"] = stats["max"] - stats["min"]
stats.sort_values("std", ascending=False)