# üå¶Ô∏è Analyse M√©t√©o ‚Äì Pipeline API ‚Üí S3 ‚Üí DuckDB

Ce notebook analyse les donn√©es m√©t√©o issues de la mini-pipeline :

- Ingestion via **API Open-Meteo**
- Stockage dans **S3 (Landing ‚Üí Staging ‚Üí Refined / Parquet)**
- Chargement dans **DuckDB (warehouse/weather.duckdb)**
- Analyse et visualisation avec **Pandas / Matplotlib / Seaborn**

> Ce notebook se place **en bout de cha√Æne**, en lisant directement la table `weather` dans DuckDB.


In [None]:
import duckdb
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Affichage inline pour Jupyter
%matplotlib inline

plt.style.use("default")

In [None]:
# üìÅ Connexion au warehouse DuckDB
DB_PATH = Path("warehouse/weather.duckdb")

if not DB_PATH.exists():
    raise FileNotFoundError(f"Base DuckDB introuvable : {DB_PATH}.\n"
                            "Assure-toi d'avoir lanc√© la pipeline compl√®te avant (run_pipeline.py).")

con = duckdb.connect(str(DB_PATH))
con

In [None]:
# üîç Aper√ßu de la table weather
df = con.execute("SELECT * FROM weather LIMIT 10").df()
df

In [None]:
# üìä Dimensions & types
print("Shape :", df.shape)

schema = con.execute("DESCRIBE weather").df()
schema

In [None]:
# ‚ö†Ô∏è Ici, on charge toutes les donn√©es en m√©moire.
# OK pour un petit dataset m√©t√©o comme le n√¥tre.
weather = con.execute("SELECT * FROM weather").df()

weather['date'] = pd.to_datetime(weather['date'])
weather.sort_values('date', inplace=True)

weather.head()

In [None]:
# üìà Statistiques descriptives globales
weather.describe(include='all')

In [None]:
# üåç Nombre de points par ville
city_counts = weather['city'].value_counts()
city_counts

In [None]:
plt.figure(figsize=(6,4))
city_counts.plot(kind='bar')
plt.title("Nombre de mesures par ville")
plt.xlabel("Ville")
plt.ylabel("Nombre de points")
plt.tight_layout()
plt.show()

In [None]:
# üìâ Temp√©rature au fil du temps par ville
plt.figure(figsize=(10,6))
for city, sub in weather.groupby('city'):
    plt.plot(sub['date'], sub['temperature_c'], label=city, alpha=0.7)

plt.title("√âvolution horaire de la temp√©rature par ville")
plt.xlabel("Date")
plt.ylabel("Temp√©rature (¬∞C)")
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(8,5))
sns.boxplot(data=weather, x='city', y='temperature_c')
plt.title("Distribution des temp√©ratures par ville")
plt.xlabel("Ville")
plt.ylabel("Temp√©rature (¬∞C)")
plt.tight_layout()
plt.show()

In [None]:
# üå©Ô∏è Analyse des √©pisodes de 'storm'
storm_rate = weather.groupby('city')['is_storm'].mean().sort_values(ascending=False)

print("Taux d'√©pisodes storm par ville :")
display(storm_rate)

plt.figure(figsize=(6,4))
storm_rate.plot(kind='bar')
plt.title("Taux d'√©pisodes venteux/pluvieux par ville")
plt.xlabel("Ville")
plt.ylabel("Proportion de lignes avec is_storm=1")
plt.tight_layout()
plt.show()

In [None]:
# üîó Corr√©lations entre variables num√©riques
numeric_cols = ['temperature_c', 'humidity', 'wind_kmh', 'precip_mm', 'is_storm']
corr = weather[numeric_cols].corr()

plt.figure(figsize=(6,5))
sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matrice de corr√©lation (variables m√©t√©o)")
plt.tight_layout()
plt.show()

## üß© Synth√®se & Pistes d'Insights

Quelques exemples de lecture m√©tier possibles :

- **Temp√©rature moyenne par ville** : permet de comparer les profils climatiques des diff√©rentes zones.
- **Taux d'√©pisodes `is_storm = 1`** par ville : int√©ressant pour rep√©rer les zones plus expos√©es √† des conditions m√©t√©o difficiles.
- **Corr√©lation humidit√© / pr√©cipitations / vents** : utile pour comprendre les patterns m√©t√©o qui peuvent impacter un service (pannes, incidents r√©seau, consommation).

Dans un contexte Orange, on pourrait par exemple :

- Croiser ces donn√©es m√©t√©o avec des indicateurs r√©seau (tickets, incidents, churn localis√©, etc.).
- Construire des features m√©t√©o pour enrichir un mod√®le de pr√©diction (pannes, trafic, consommation, churn).

Ce notebook reste volontairement simple, mais la structure (DuckDB + Pandas + Viz) est pr√™te pour √™tre √©tendue.
