In [0]:
%load_ext autoreload
%autoreload 2

In [0]:
# Ajouter le repo au Python Path
import sys
sys.path.append("/Workspace/Users/mandu543@gmail.com/databricks-movies-analytics/Movies_Project")

from src.utils import *
from pyspark.sql.functions import col, concat_ws
from delta.tables import DeltaTable

# Create schema if not exists
spark.sql(
    f"CREATE SCHEMA IF NOT EXISTS {SILVER_TABLE.split('.')[1]}"
)

## Intégration des données dans la couche silver

**Harmonisation des données depuis la couche bronze**

In [0]:
# Lire les données Bronze

df_bronze = spark.table(BRONZE_TABLE)

display(df_bronze)


In [0]:
# Nettoyage
df_bronze_clean = typage_data(df_bronze)

# Supprime les colonnes multiples et non utilisées
col_delete = ['backdrop_path', 'tagline', 'homepage', 'imdb_id', 'poster_path', 'genres', 'production_companies', 'production_countries', 'spoken_languages', 'keywords']
silver_movies = drop_columns(df_bronze_clean,col_delete)

display(silver_movies)

**Alimentation de la table movies dans la couche silver**

In [0]:
# Vérifier si la colonne 'id' existe
if 'id' not in silver_movies.columns:
    # Créer un ID unique basé sur title + release_date
    silver_movies = silver_movies.withColumn("id", concat_ws("_", col("title"), col("release_date").cast("string")))
    print("⚠️ Colonne 'id' inexistante. Création de 'mon_id' unique automatiquement.")

# Merge incrémental dans Silver
try:
    delta_table = DeltaTable.forName(spark, SILVER_TABLE)

    # Compter lignes avant merge
    count_before = delta_table.toDF().count()

    # inserer les nouvelles lignes
    delta_table.alias("silver").merge(
        silver_movies.alias("bronze"),
        "silver.id = bronze.id"
    ).whenNotMatchedInsertAll().execute()

    print("✅ Merge incrémental terminé dans Silver")
    # Compter lignes après merge
    count_after = delta_table.toDF().count()
    print(f"Lignes insérées : {count_after - count_before}")
except:
    # Si la table n'existe pas encore, on la crée
    silver_movies.write.format("delta").mode("overwrite").saveAsTable(SILVER_TABLE)
    print("✅ Table Silver créée pour la première fois")

**Normalisation des tables relationnelles depuis le dataframe silver_films**

- Normalisation table par genres

In [0]:
# Normalisation et creation table silver_movies_genre

silver_movies_genre = create_silver_multivalue(df_bronze,"id","genres","genre")
display(silver_movies_genre)

In [0]:
# Insertion dans le catalog
try: 
    table_name = SILVER_ZONE + "." + "silver_tmdb_movies_genre"
    save_dataframe(silver_movies_genre, table_name)
    print("✅ Table " + table_name + " créée ")

except:
    print("Erreur : Alimentation de la table : " + table_name)


- Normalisation table par compagnie de production

In [0]:

# Normalisation et creation table silver_movies_production_companie

silver_movies_production_companie = create_silver_multivalue(df_bronze,"id", "production_companies","production_companie")
display(silver_movies_production_companie)

# Insertion dans le catalog
try: 
    table_name = SILVER_ZONE + "." + "silver_tmdb_movies_production_companie"
    save_dataframe(silver_movies_production_companie, table_name)
    
    print("✅ Table " + table_name + " créée ")

except:
   print("Erreur : Alimentation de la table " + table_name)

- Normalisation table par le pays de production

In [0]:
# Normalisation et creation table silver_tmdb_movies_production_country

silver_movies_production_country = create_silver_multivalue(df_bronze,"id", "production_countries","production_country")
display(silver_movies_production_country)
# Insertion dans le catalog
try: 
    table_name = SILVER_ZONE + "." + "silver_tmdb_movies_production_country"
    save_dataframe(silver_movies_production_country, table_name)
    
    print("✅ Table " + table_name + " créée ")
except:
      print("Erreur : Alimentation de la table " + table_name)

- Normalisation table par les différents langages parlés des films 

In [0]:
# Normalisation et creation table silver_tmdb_movies_spoken_language

silver_movies_spoken_language = create_silver_multivalue(df_bronze,"id", "spoken_languages","spoken_language")
display(silver_movies_spoken_language)
# Insertion dans le catalog
try: 
    table_name = SILVER_ZONE + "." + "silver_tmdb_movies_spoken_language"
    save_dataframe(silver_movies_spoken_language, table_name)
    
    print("✅ Table " + table_name + " créée ")
except:
    print("Erreur : Alimentation de la table " + table_name)