# Notebook 2 : Silver 1 - Nettoyage (Spark SQL)

**Dur√©e** : 15 minutes  
**Lakehouse** : Lakehouse_silver  
**Objectif** : Nettoyer les donn√©es et identifier les limites de SQL

## Cellule 1 : Chargement depuis Bronze

In [None]:
%%sql
SELECT * FROM bronze.consumption_raw LIMIT 10

## Cellule 2 : Suppression des doublons

In [None]:
%%sql
CREATE OR REPLACE TEMP VIEW consumption_dedup AS
SELECT DISTINCT * FROM bronze.consumption_raw

## Cellule 3 : Filtrage des codes erreur et NULL

In [None]:
%%sql
CREATE OR REPLACE TEMP VIEW consumption_clean AS
SELECT * FROM consumption_dedup
WHERE consumption_mw IS NOT NULL 
  AND consumption_mw >= 0
  AND consumption_mw < 10  -- Retirer valeurs aberrantes

## Cellule 4 : V√©rification du nettoyage

In [None]:
%%sql
SELECT 
    COUNT(*) as clean_rows,
    (SELECT COUNT(*) FROM bronze.consumption_raw) as original_rows,
    (SELECT COUNT(*) FROM bronze.consumption_raw) - COUNT(*) as removed_rows
FROM consumption_clean

## Cellule 5 : Normalisation des dates

In [None]:
%%sql
CREATE OR REPLACE TEMP VIEW consumption_dates_fixed AS
SELECT 
    site_id,
    consumption_mw,
    voltage_v,
    frequency_hz,
    status,
    COALESCE(
        TRY_CAST(timestamp AS TIMESTAMP),
        TO_TIMESTAMP(timestamp, 'dd/MM/yyyy HH:mm:ss'),
        TO_TIMESTAMP(timestamp, 'yyyy-MM-dd HH:mm:ss')
    ) as timestamp_clean
FROM consumption_clean

## Cellule 6 : Agr√©gation horaire

In [None]:
%%sql
CREATE OR REPLACE TEMP VIEW consumption_hourly AS
SELECT 
    DATE_TRUNC('hour', timestamp_clean) as hour,
    site_id,
    AVG(consumption_mw) as avg_consumption_mw,
    MAX(consumption_mw) as max_consumption_mw,
    MIN(consumption_mw) as min_consumption_mw,
    COUNT(*) as measurements
FROM consumption_dates_fixed
WHERE timestamp_clean IS NOT NULL
GROUP BY DATE_TRUNC('hour', timestamp_clean), site_id

## Cellule 7 : Jointure avec prix spot

In [None]:
%%sql
CREATE OR REPLACE TEMP VIEW consumption_with_prices AS
SELECT 
    c.*,
    p.price_eur_mwh,
    p.market
FROM consumption_hourly c
LEFT JOIN bronze.market_prices p
  ON DATE_TRUNC('hour', c.hour) = DATE_TRUNC('hour', CAST(p.timestamp AS TIMESTAMP))

## Cellule 8 : ‚ö†Ô∏è LIMITE SQL - Logique m√©tier complexe

### Probl√®me rencontr√©

**T√¢che** : Appliquer des r√®gles m√©tier complexes (calcul de baseline intelligente, z-score, interpolation)

**Limites de SQL** :
- ‚ùå Pas d'UDF (User Defined Functions) pour logique custom
- ‚ùå CASE WHEN devient illisible avec >10 r√®gles
- ‚ùå Impossible d'impl√©menter des algorithmes it√©ratifs
- ‚ùå Pas d'interpolation, pas de z-score simple

**üí° C'EST ICI QU'ON PASSE √Ä PYSPARK**

Avec PySpark :
- ‚úÖ UDF custom en Python (5 lignes)
- ‚úÖ Logique m√©tier lisible et maintenable
- ‚úÖ Fonctions math√©matiques avanc√©es
- ‚úÖ 10√ó plus rapide pour calculs complexes

‚Üí **Notebook 3 : PySpark d√©bloque tout √ßa**

## Cellule 9 : Sauvegarde partielle dans Silver

In [None]:
# Sauvegarder ce qu'on a nettoy√©
df = spark.sql("SELECT * FROM consumption_with_prices")
df.write.mode("overwrite").format("delta").saveAsTable("silver.consumption_clean")

print(f"‚úÖ Table silver.consumption_clean cr√©√©e : {df.count()} lignes")

## Cellule 10 : R√©sum√©

### ‚úÖ Nettoyage SQL termin√©

**Ce qu'on a fait avec SQL** :
- ‚úÖ Suppression doublons (~900 lignes)
- ‚úÖ Filtrage NULL et codes erreur (~900 lignes)
- ‚úÖ Normalisation formats de dates
- ‚úÖ Agr√©gation horaire
- ‚úÖ Jointure avec prix spot

**Ce qu'on NE PEUT PAS faire avec SQL** :
- ‚ùå Calcul baseline intelligente (exclure weekends + maintenance)
- ‚ùå D√©tection anomalies avec z-score
- ‚ùå Feature engineering pour ML
- ‚ùå UDF personnalis√©es

**R√©sultat** :
- ~16,300 lignes propres sauvegard√©es dans `silver.consumption_clean`

‚û°Ô∏è **Prochaine √©tape** : PySpark pour calculs avanc√©s (Notebook 3)