# Recommandations pour le pipeline Bronze → Silver → Gold

## 1. Bronze
- **Objectif** : stocker toutes les données brutes, telles qu’elles arrivent.
- **Contenu** : tous les CSV, toutes les colonnes, aucune transformation.
- **Remarque** : permet de conserver l’historique complet (raw data).

---

## 2. Silver
- **Objectif** : données nettoyées, typées et filtrées, source de vérité pour les transformations.
- **Contenu** :
  - Colonnes nettoyées (title, release_date, vote_average, genre, language, etc.)
  - Merge incrémental pour ajouter uniquement les nouvelles lignes
- **Bonnes pratiques** :
  - Créer des **tables de dimensions** si nécessaire, par exemple :
    - `dim_movie` : id, title, release_date, genre, language
    - `dim_genre` : genre_id, genre_name
    - `dim_language` : language_id, language_name
  - Créer éventuellement une **table fact** pour les votes et notes :
    - `fact_movie_rating` : id_movie, vote_average, vote_count, release_year

---

## 3. Gold
- **Objectif** : tables BI-ready pour dashboards et rapports.
- **Contenu** :
  - Tables fact et dimensions pour les KPIs et filtres
  - Tables agrégées par année, genre, etc. (ex: nombre de films, note moyenne)
  - Tables détaillées si besoin pour dashboards avec filtres multi-colonnes
- **Optimisation** :
  - `OPTIMIZE` → compresse et réorganise les fichiers Delta pour des requêtes rapides
  - `ZORDER BY release_year` → trie les données par année pour accélérer les filtres/aggregations

---

## 4. Recommandations générales
- **Bronze** = données brutes, jamais modifiées
- **Silver** = source de vérité nettoyée, idéal pour créer dimensions et faits
- **Gold** = tables BI-ready, optimisées, agrégées ou détaillées selon l’usage
- **Time Travel Delta** → permet de revenir en arrière si des erreurs se produisent
- **Merge incrémental** → conserver uniquement les nouvelles lignes pour Silver et Gold
