In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.clustering import KMeans
from pyspark.sql.functions import when





In [None]:

# Initialisation de la session Spark avec Hive
spark = SparkSession.builder \
    .appName("Analyse Immatriculations") \
    .config("spark.hadoop.hive.metastore.uris", "thrift://hive-metastore:9083") \
    .enableHiveSupport() \
    .getOrCreate()

# Utilisation de la base Hive
spark.sql("USE concessionnaire")

# Chargement des données d'immatriculations
immatriculation_df = spark.sql("SELECT * FROM immatriculations_data")

# Afficher un aperçu des données
immatriculation_df.show(10)


In [None]:

# Transformer 'Longueur' en données numériques
features_df = immatriculation_df.select(
    col("Puissance").cast("double"),
    col("Prix").cast("double"),
    col("NbPlaces").cast("double"),
    when(col("Longueur") == "courte", 1)
      .when(col("Longueur") == "moyenne", 2)
      .when(col("Longueur") == "longue", 3)
      .when(col("Longueur") == "très longue", 4).alias("Longueur_numeric")
)

# Afficher un aperçu des données transformées
features_df.show(10)


In [None]:

# Assembleur pour créer une colonne 'features' pour le clustering
assembler = VectorAssembler(inputCols=["Puissance", "Prix", "NbPlaces", "Longueur_numeric"], outputCol="features")
assembled_df = assembler.transform(features_df)

# Normalisation des données
scaler = StandardScaler(inputCol="features", outputCol="scaled_features")
scaler_model = scaler.fit(assembled_df)
scaled_df = scaler_model.transform(assembled_df)

# Afficher un aperçu des données normalisées
scaled_df.select("features", "scaled_features").show(10, truncate=False)


In [None]:

# Appliquer k-means avec 4 clusters
kmeans = KMeans(k=4, seed=42, featuresCol="scaled_features", predictionCol="Cluster")
kmeans_model = kmeans.fit(scaled_df)
clustered_df = kmeans_model.transform(scaled_df)

# Afficher un aperçu des données avec les clusters
clustered_df.select("Puissance", "Prix", "NbPlaces", "Longueur_numeric", "Cluster").show(10)


In [None]:

# Mapper les clusters à des catégories
clustered_df = clustered_df.withColumn(
    "Catégorie",
    when(col("Cluster") == 0, "Citadine")
    .when(col("Cluster") == 1, "Familiale")
    .when(col("Cluster") == 2, "Sportive")
    .when(col("Cluster") == 3, "Luxe")
)

# Afficher les données avec les catégories
clustered_df.select("Puissance", "Prix", "NbPlaces", "Longueur_numeric", "Cluster", "Catégorie").show(10)


In [None]:
# Sauvegarder dans une table Hive


print("Catégorisation sauvegardée dans la table 'vehicules_categorises'.")
