In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.clustering import KMeans
from pyspark.sql.functions import when

# Utilisation de la base de données Hive, et charge les données de la table

In [2]:
spark = SparkSession.builder \
    .appName("Categorie") \
    .config("spark.hadoop.hive.metastore.uris", "thrift://hive-metastore:9083") \
    .enableHiveSupport() \
    .getOrCreate()


In [3]:
spark.sql("USE concessionnaire")
client_immat_df = spark.sql("SELECT * FROM client_immatriculation_merged")

In [4]:
client_immat_df.show(10, truncate=False)

+---------------+---+-----+----+-------------------+---------------+---------------+--------+---------+-----------+--------+--------+-------+--------+-------+------+
|immatriculation|age|sexe |taux|situationfamilliale|nbenfantacharge|deuxiemevoiture|marque  |puissance|longueur   |nbplaces|nbportes|couleur|occasion|prix   |modele|
+---------------+---+-----+----+-------------------+---------------+---------------+--------+---------+-----------+--------+--------+-------+--------+-------+------+
|0 UI 76        |61 |Homme|419 |En Couple          |4              |true           |Mercedes|306      |très longue|5       |5       |rouge  |true    |70910.0|S500  |
|10 IM 37       |20 |Homme|1245|En Couple          |2              |false          |Jaguar  |197      |longue     |5       |5       |bleu   |false   |37100.0|X-Type|
|10 LB 49       |21 |Homme|502 |En Couple          |2              |false          |Volvo   |272      |très longue|5       |5       |rouge  |false   |50500.0|S80   |
|10 

# Définis les catégories.

In [5]:

client_immat_df = client_immat_df.withColumn(
    "categorie",
    when((col("puissance") <= 100) & (col("longueur") == "courte"), "citadine")
    .when((col("puissance") > 100) & (col("puissance") <= 200) & (col("longueur") == "courte") & (col("prix") < 30000), "citadine premium")
    .when((col("puissance") > 100) & (col("puissance") <= 200) & (col("longueur").isin("moyenne", "longue")), "familiale")
    .when((col("puissance") > 200) & (col("prix") > 30000), "sportive")
    .when((col("nbplaces") >= 7), "monospace")
    .when((col("prix") > 50000) & col("marque").isin("BMW", "Mercedes", "Jaguar", "Audi", "Porsche"), "luxe")
    .otherwise("autre")
)


# Affiche le resultat 

In [6]:
client_immat_df.select("marque","modele","categorie","prix","longueur","puissance").show(30, truncate=False)

+--------+-------+----------------+-------+-----------+---------+
|marque  |modele |categorie       |prix   |longueur   |puissance|
+--------+-------+----------------+-------+-----------+---------+
|Mercedes|S500   |sportive        |70910.0|très longue|306      |
|Jaguar  |X-Type |familiale       |37100.0|longue     |197      |
|Volvo   |S80    |sportive        |50500.0|très longue|272      |
|Audi    |A2     |citadine        |18310.0|courte     |75       |
|Ford    |Mondeo |familiale       |23900.0|longue     |125      |
|BMW     |M5     |sportive        |94800.0|très longue|507      |
|Renault |Vel    |sportive        |49200.0|très longue|245      |
|Ford    |Mondeo |familiale       |16730.0|longue     |125      |
|Volvo   |S80    |sportive        |50500.0|très longue|272      |
|Peugeot |1007   |citadine        |13750.0|courte     |75       |
|Audi    |A2     |citadine        |18310.0|courte     |75       |
|Audi    |A2     |citadine        |12817.0|courte     |75       |
|Audi    |

# Enregistre en base de données

In [7]:
client_immat_df.write.mode("overwrite").saveAsTable("client_immatriculation_categorie")