In [None]:
1. Préparation de l’environnement

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# Configuration graphique
sns.set(style="whitegrid")
%matplotlib inline

In [None]:
2. Chargement des jeux de données

In [None]:
# Chemins de tes fichiers générés par le pipeline Airflow
fact_path = "fact_weather.csv"
indicateur_path = "indicateurs_ville.csv"
historique_path = "historical_all.csv"

# Chargement
df_fact = pd.read_csv(fact_path)
df_indicateurs = pd.read_csv(indicateur_path)
df_histo = pd.read_csv(historique_path)

In [None]:
# Affichage des premières lignes
df_fact.head()
df_indicateurs.head()
df_histo.head()

# Info générales
df_fact.info()
df_indicateurs.info()
df_histo.info()

In [None]:
# Nettoyage
df_histo = df_histo.replace([np.inf, -np.inf], np.nan)

# Supprimer les lignes critiques
df_histo = df_histo.dropna(subset=['temp_moyenne'])

# Remplissage partiel
df_histo['precipitation_totale'] = df_histo['precipitation_totale'].fillna(0)
df_histo['vent_moyen'] = df_histo['vent_moyen'].ffill()

# Vérification finale
print(df_histo.isnull().sum())

In [None]:
plt.figure(figsize=(10, 5))
sns.boxplot(x='ville', y='temp_moyenne', data=df_histo)
plt.title("Distribution des températures moyennes par ville (Historique)")
plt.show()

In [None]:
plt.figure(figsize=(12, 5))
for city in df_histo['ville'].unique():
    subset = df_histo[df_histo['ville'] == city]
    sns.lineplot(data=subset, x='date', y='temp_moyenne', label=city)

plt.title("Température moyenne dans le temps (Historique)")
plt.legend()
plt.show()

In [None]:
pluvieux = df_histo.groupby("ville")["jours_pluvieux"].sum().sort_values()
pluvieux.plot(kind="bar", title="Nombre de jours pluvieux par ville", figsize=(8,4))
plt.ylabel("Jours pluvieux")
plt.show()

In [None]:
sns.heatmap(df_histo[['temp_moyenne', 'precipitation_totale', 'vent_moyen']].corr(), annot=True)
plt.title("Corrélations entre variables météo")
plt.show()

In [None]:
plt.figure(figsize=(8,5))
sns.barplot(data=df_fact, x="ville_id", y="temperature")
plt.title("Températures actuelles par ville (ville_id)")
plt.show()

In [None]:
df_indicateurs.sort_values("temp_moyenne_moy", ascending=False).plot(
    x='ville', y='temp_moyenne_moy', kind='bar', title="Température moyenne sur 5 ans"
)