# Nettoyage des données
Ce notebook parcourt récursivement un namespace, lit chaque table, puis les supprimes.

In [None]:
from pyspark.sql import SparkSession

# Configuration Spark avec Iceberg et MinIO
from pyspark.sql import SparkSession
from pyspark import SparkConf
import os

# -----------------------------------------------------
# 1. Configuration MinIO + Spark S3A + Iceberg REST Catalog
# -----------------------------------------------------


spark = SparkSession.builder.appName("Cleaning Training Data").getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
print("Spark session initialisée avec Iceberg et MinIO.")

In [None]:
# ----------------------------
# 2️⃣ Définir le namespace
# ----------------------------
namespace = "raw"  # Remplace par ton namespace Iceberg si différent

# ----------------------------
# 3️⃣ Lister toutes les tables
# ----------------------------
tables = spark.sql(f"SHOW TABLES IN lakehouse.{namespace}").collect()

print(f"Tables dans le namespace '{namespace}':")
for t in tables:
    print(f"- {t.tableName}")

In [None]:

# ----------------------------
# 4️⃣ Supprimer les tables
# ----------------------------
for t in tables:
    table_name = t.tableName
    print(f"Suppression de la table: {table_name}")
    spark.sql(f"DROP TABLE IF EXISTS iceberg.{namespace}.{table_name}")

print("✅ Toutes les tables ont été supprimées.")

# ----------------------------
# 5️⃣ Vérification
# ----------------------------
remaining_tables = spark.sql(f"SHOW TABLES IN iceberg.{namespace}").collect()
if not remaining_tables:
    print("Aucune table restante dans le namespace.")
else:
    print("Tables restantes:")
    for t in remaining_tables:
        print(f"- {t.tableName}")