<span style="color:red; font-family:Helvetica Neue, Helvetica, Arial, sans-serif; font-size:2em;">An Exception was encountered at '<a href="#papermill-error-cell">In [1]</a>'.</span>

<span id="papermill-error-cell" style="color:red; font-family:Helvetica Neue, Helvetica, Arial, sans-serif; font-size:2em;">Execution using papermill encountered an exception here and stopped:</span>

In [1]:
from pyspark.sql import SparkSession
import matplotlib.pyplot as plt
from pyspark.sql import SparkSession
from pyspark.sql.functions import regexp_replace, col, when



ModuleNotFoundError: No module named 'pyspark'

In [None]:
spark = SparkSession.builder \
    .appName("DataCleaningWithHive") \
    .config("spark.hadoop.hive.metastore.uris", "thrift://hive-metastore:9083") \
    .enableHiveSupport() \
    .getOrCreate()


In [None]:
spark.sql("USE concessionnaire")
df_client = spark.sql("SELECT * FROM client_data")

In [None]:

# zipWithIndex pour ajouter un index à chaque ligne, puis filtrer la première ligne
df_client = df_client.rdd.zipWithIndex().filter(lambda row_index: row_index[1] > 0).map(lambda row_index: row_index[0]).toDF(df_client.schema)


# Affichage des colonnes du df Client

In [None]:

# truncate=False : Empêche les colonnes d’être coupées si leur contenu est trop long.
df_client.show(n=10, truncate=False)


# Traitement col age, taux, nbenfantacharge

In [None]:
# Remplace les valeurs nulles par la moyenne pour chaque colonne spécifiée
for col_name in ["age", "taux", "nbenfantacharge"]:
    mean_value = df_client.agg({col_name: "mean"}).first()[0] 
    df_client = df_client.na.fill({col_name: mean_value})

# Traitement col situationfamiliale

In [None]:

# Affiche les valeurs uniques dans la colonne 'situationfamiliale'
df_client.select("situationfamilliale").distinct().show(truncate=False)


In [None]:
# Remplace les caractères spéciaux par 'é' dans la colonne 'situationfamilliale'
df_client = df_client.withColumn("situationfamilliale", regexp_replace("situationfamilliale", "�", "é"))
df_client = df_client.withColumn("situationfamilliale", regexp_replace("situationfamilliale", "^(?i)seul(e)?$", "Célibataire"))
df_client = df_client.withColumn(
    "situationfamilliale",
    when((col("situationfamilliale").isin("N/D", "", " ","?")), "Inconnu")
    .otherwise(col("situationfamilliale")) 
)

In [None]:
df_client.select("situationfamilliale").distinct().show(truncate=False)


In [None]:
import matplotlib.pyplot as plt

# Étape 1 : Agréger les données et convertir en Pandas
situation_counts = df_client.groupBy("situationfamilliale").count()
situation_counts_pd = situation_counts.toPandas()

# Étape 2 : Calcul des pourcentages
total_count = situation_counts_pd["count"].sum()
situation_counts_pd["percentage"] = (situation_counts_pd["count"] / total_count) * 100

# Étape 3 : Création du diagramme circulaire
plt.figure(figsize=(6, 6))
wedges, texts, autotexts = plt.pie(
    situation_counts_pd["percentage"],
    labels=situation_counts_pd["situationfamilliale"],
    autopct='%1.1f%%',
    startangle=90,
    colors=plt.cm.Paired.colors,
    wedgeprops={'linewidth': 1, 'edgecolor': 'white'},
    pctdistance=0.85  # Ajuste la position des pourcentages
)

# Amélioration de la lisibilité
for text in texts:
    text.set_fontsize(12)
for autotext in autotexts:
    autotext.set_fontsize(10)
    autotext.set_color("black")

# Génération de labels avec pourcentages pour la légende
legend_labels = [f"{row['situationfamilliale']} ({row['percentage']:.1f}%)" for _, row in situation_counts_pd.iterrows()]

# Ajoute la légende avec les pourcentages
plt.legend(wedges, legend_labels, title="Situation Familiale", loc="center left", bbox_to_anchor=(1, 0, 0.5, 1))

# Ajoute un titre
plt.title("Répartition des clients par situation familiale (%)", fontsize=14)

# Affiche le graphique
plt.tight_layout()
plt.show()


# Traitement col deuxiemevoiture

In [None]:
df_client.select("deuxiemevoiture").distinct().show(truncate=False)

In [None]:
# Normaliser les valeurs de la colonne 'deuxiemevoiture' 
df_client = df_client.withColumn(
    "deuxiemevoiture",
    when((col("deuxiemevoiture") == "true"), "true") 
    .otherwise("false") # Si ce n'est pas "true", elle est définie comme "false".
)

In [None]:
import matplotlib.pyplot as plt

# Étape 1 : Agréger les données et convertir en Pandas
deuxiemevoiture_counts = df_client.groupBy("deuxiemevoiture").count()
deuxiemevoiture_counts_pd = deuxiemevoiture_counts.toPandas()

# Étape 2 : Calcul des pourcentages
total_count = deuxiemevoiture_counts_pd["count"].sum()
deuxiemevoiture_counts_pd["percentage"] = (deuxiemevoiture_counts_pd["count"] / total_count) * 100

# Étape 3 : Création du diagramme circulaire
plt.figure(figsize=(5, 5))
plt.pie(
    deuxiemevoiture_counts_pd["percentage"],
    labels=deuxiemevoiture_counts_pd["deuxiemevoiture"],
    autopct='%1.1f%%',
    startangle=90,
    colors=["#66c2a5", "#fc8d62"],  # Couleurs pour différencier "true" et "false"
    wedgeprops={'linewidth': 1, 'edgecolor': 'white'}  # Ligne blanche entre les sections
)

# Ajouter un titre
plt.title("Répartition des clients par possession d'une deuxième voiture", fontsize=14)

# Afficher le graphique
plt.tight_layout()
plt.show()


# Traitement col immatriculation

In [None]:
# Filtrer les lignes avec des valeurs manquantes dans la colonne 'immatriculation'
df_client = df_client.na.drop(subset=["immatriculation"])

# Traitement col sexe

In [None]:

# Compter les occurrences des valeurs dans la colonne sexe
sexe_distribution = df_client.groupBy("sexe").count()
sexe_distribution.show()


In [None]:

# Normaliser les valeurs de la colonne 'sexe'
df_client = df_client.withColumn(
    "sexe",
    when(col("sexe").isin("M", "Masculin", "Homme"), "Homme")  
    .when(col("sexe").isin("F", "Femme", "Féminin", "F�minin"), "Femme")  
    .otherwise("Inconnu")  
)

# Filtrer pour supprimer les clients avec sexe 'Inconnu'
df_client = df_client.filter(col("sexe") != "Inconnu")



In [None]:

# Étape 2 : Compter les occurrences des valeurs dans la colonne 'sexe'
sexe_distribution = df_client.groupBy("sexe").count()
sexe_distribution_pd = sexe_distribution.toPandas()

# Étape 3 : Calcul des pourcentages
total_count = sexe_distribution_pd["count"].sum()
sexe_distribution_pd["percentage"] = (sexe_distribution_pd["count"] / total_count) * 100

# Étape 4 : Création du diagramme circulaire
plt.figure(figsize=(8, 8))
plt.pie(
    sexe_distribution_pd["percentage"],
    labels=sexe_distribution_pd["sexe"],
    autopct='%1.1f%%',
    startangle=90,
    colors=["#66c2a5", "#fc8d62", "#8da0cb"],  # Couleurs pour "Homme", "Femme", et "Inconnu"
    wedgeprops={'linewidth': 1, 'edgecolor': 'white'}  # Bordure blanche pour séparer les sections
)

# Ajouter un titre
plt.title("Répartition des clients par sexe après normalisation (%)", fontsize=14)

# Afficher le graphique
plt.tight_layout()
plt.show()

In [None]:
df_client.show()

In [None]:
df_client.write.mode("overwrite").saveAsTable("client_processed")

In [None]:
print("Hello world")