# üå¶Ô∏è Analyse M√©t√©o ‚Äì Pipeline Landing ‚Üí Staging ‚Üí Refined ‚Üí Warehouse

Ce notebook illustre la partie **analyse / visualisation** d'une mini-pipeline Data :

- Donn√©es g√©n√©r√©es (CSV) ‚Üí `data/raw/`
- Nettoyage (JSON) ‚Üí `data/staging/`
- Format optimis√© (Parquet) ‚Üí `data/refined/`
- Entrep√¥t analytique (DuckDB) ‚Üí `warehouse/weather.duckdb`

L'objectif est de montrer une analyse professionnelle, reproductible, bas√©e sur la table **`weather`** stock√©e dans DuckDB.

In [None]:
import duckdb
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Configuration chemins
DB_PATH = "../warehouse/weather.duckdb"
TABLE_NAME = "weather"

con = duckdb.connect(DB_PATH)

# Chargement complet (pour analyse) ‚Äì tri√© par date
df = con.execute(f"SELECT * FROM {TABLE_NAME} ORDER BY date").df()

df.head()

## üìã Aper√ßu du dataset

- Une ligne = une date (jour)
- Variables principales :
  - `city` : ville
  - `temperature_c` : temp√©rature moyenne (¬∞C)
  - `humidity` : humidit√© (%)
  - `wind_kmh` : vitesse du vent (km/h)
  - `precip_mm` : pr√©cipitations (mm)
  - `is_storm` : indicateur d'√©pisode orageux (0/1)


In [None]:
print("Dimensions du dataset :", df.shape)
print("\nTypes de donn√©es :")
print(df.dtypes)

print("\nStatistiques descriptives (num√©riques) :")
display(df.describe())

## üåç R√©partition par ville


In [None]:
city_counts = df["city"].value_counts()
print(city_counts)

plt.figure(figsize=(6,4))
city_counts.plot(kind="bar")
plt.title("Nombre de lignes par ville")
plt.xlabel("Ville")
plt.ylabel("Nombre d'observations")
plt.tight_layout()
plt.show()

## üå¶Ô∏è Distribution des variables m√©t√©o


In [None]:
numeric_cols = ["temperature_c", "humidity", "wind_kmh", "precip_mm"]

fig, axes = plt.subplots(2, 2, figsize=(10, 8))
axes = axes.flatten()

for ax, col in zip(axes, numeric_cols):
    ax.hist(df[col].dropna(), bins=30)
    ax.set_title(col)

plt.tight_layout()
plt.show()

## ‚õàÔ∏è Taux d'√©v√©nements orageux


In [None]:
storm_rate = df["is_storm"].mean()
print(f"Taux global d'√©pisodes orageux : {storm_rate:.2%}")

storm_by_city = df.groupby("city")["is_storm"].mean().sort_values(ascending=False)
display(storm_by_city)

plt.figure(figsize=(6,4))
storm_by_city.plot(kind="bar")
plt.title("Taux d'orages par ville")
plt.ylabel("Taux d'orages")
plt.tight_layout()
plt.show()

## üìà Temp√©rature dans le temps


In [None]:
plt.figure(figsize=(10,4))
plt.plot(df["date"], df["temperature_c"])
plt.title("Temp√©rature au fil du temps (toutes villes)")
plt.xlabel("Date")
plt.ylabel("Temp√©rature (¬∞C)")
plt.tight_layout()
plt.show()

### Temp√©rature moyenne par ville


In [None]:
temp_by_city = df.groupby("city")["temperature_c"].mean().sort_values()
display(temp_by_city)

plt.figure(figsize=(6,4))
temp_by_city.plot(kind="bar")
plt.title("Temp√©rature moyenne par ville")
plt.ylabel("Temp√©rature (¬∞C)")
plt.tight_layout()
plt.show()

## üîó Corr√©lations entre variables m√©t√©o


In [None]:
corr = df[["temperature_c", "humidity", "wind_kmh", "precip_mm", "is_storm"]].corr()
print(corr)

fig, ax = plt.subplots(figsize=(6,5))
im = ax.imshow(corr.values)

ax.set_xticks(range(len(corr.columns)))
ax.set_yticks(range(len(corr.columns)))
ax.set_xticklabels(corr.columns, rotation=45, ha="right")
ax.set_yticklabels(corr.columns)
plt.title("Matrice de corr√©lation")
plt.colorbar(im, ax=ax)
plt.tight_layout()
plt.show()

## üßÆ Exemple de requ√™tes SQL DuckDB

Ces exemples illustrent comment exploiter l'entrep√¥t DuckDB directement en SQL, comme on le ferait avec Athena sur un Data Lake AWS.

In [None]:
# Temp√©rature moyenne par ville (SQL)
sql_temp_by_city = con.execute(
    """
    SELECT city, AVG(temperature_c) AS avg_temp
    FROM weather
    GROUP BY city
    ORDER BY avg_temp
    """
).df()

sql_temp_by_city

In [None]:
# Taux d'orages par ville (SQL)
sql_storm_by_city = con.execute(
    """
    SELECT city, AVG(is_storm)::DOUBLE AS storm_rate
    FROM weather
    GROUP BY city
    ORDER BY storm_rate DESC
    """
).df()

sql_storm_by_city

## üßæ Synth√®se des insights (exemple de restitution m√©tier)

- **Qualit√© des donn√©es** :
  - S√©rie temporelle continue sur la p√©riode simul√©e
  - Variables m√©t√©o bien typ√©es et sans valeurs extr√™mes incoh√©rentes

- **Climat global** :
  - Temp√©rature moyenne, humidit√© et vent dans des plages r√©alistes
  - Variabilit√© visible sur la s√©rie temporelle

- **Orages** :
  - Un certain pourcentage de jours est marqu√© comme `is_storm = 1`
  - Ce taux peut √™tre compar√© entre villes

- **Corr√©lations** :
  - On peut analyser les liens entre vent, pr√©cipitations et orages
  - Ce type de structure est exploitable pour un futur mod√®le de pr√©diction d'√©v√©nements m√©t√©o

Ce notebook constitue une base pour :
- des analyses exploratoires plus pouss√©es,
- des cas d'usage pr√©dictifs (pr√©vision d'orages),
- ou une extension vers une vraie architecture Cloud (S3 / Glue / Athena / QuickSight).