In [7]:
# Import SparkSession
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, regexp_replace
from pyspark.sql.functions import when

# Create SparkSession
spark = SparkSession.builder \
    .appName("Read CSV Clients_6") \
    .getOrCreate()

# Read CSV into DataFrame
df = spark.read.csv("./data/Clients_6.csv", header=True, inferSchema=True)

# Display DataFrame
df.show()


+---+----+----+------------------+----------------+------------+---------------+
|age|sexe|taux|situationFamiliale|nbEnfantsAcharge|2eme voiture|immatriculation|
+---+----+----+------------------+----------------+------------+---------------+
| 25|   F| 159|         En Couple|               2|       false|     3467 SB 72|
| 53|   M| 594|         En Couple|               2|       false|      113 LY 42|
| 20|   F| 949|         En Couple|               1|       false|      925 WK 87|
| 29|   M| 571|         En Couple|               2|       false|     3279 RV 81|
| 47|   M| 502|         En Couple|               1|       false|       82 RZ 54|
| 29|   F| 503|         En Couple|               3|       false|     8290 SD 41|
| 52|   F| 211|         En Couple|               4|        true|     9339 BW 87|
| 58|   M| 536|       C�libataire|               0|       false|     3696 JS 92|
| 21|   M| 211|         En Couple|               4|       false|     6484 MS 45|
| 42|   M| 176|         En C

In [8]:
from pyspark.sql.functions import when

# Define the DataFrame with replacements
df = df.withColumn("situationFamiliale", regexp_replace(col("situationFamiliale"), "�", "e")) \
               .withColumn("sexe", 
                           when(col("sexe").rlike("Homme|Masculin"), "M")
                           .when(col("sexe").rlike("Femme|F�minin"), "F")
                           .otherwise(col("sexe")))
                
                

# Display the cleaned DataFrame
df.show()

+---+----+----+------------------+----------------+------------+---------------+
|age|sexe|taux|situationFamiliale|nbEnfantsAcharge|2eme voiture|immatriculation|
+---+----+----+------------------+----------------+------------+---------------+
| 25|   F| 159|         En Couple|               2|       false|     3467 SB 72|
| 53|   M| 594|         En Couple|               2|       false|      113 LY 42|
| 20|   F| 949|         En Couple|               1|       false|      925 WK 87|
| 29|   M| 571|         En Couple|               2|       false|     3279 RV 81|
| 47|   M| 502|         En Couple|               1|       false|       82 RZ 54|
| 29|   F| 503|         En Couple|               3|       false|     8290 SD 41|
| 52|   F| 211|         En Couple|               4|        true|     9339 BW 87|
| 58|   M| 536|       Celibataire|               0|       false|     3696 JS 92|
| 21|   M| 211|         En Couple|               4|       false|     6484 MS 45|
| 42|   M| 176|         En C

In [9]:
# Define the path for the cleaned CSV file
output_path = "./Cleaned/Client6/"

# Save the cleaned DataFrame to a new CSV file
df.write.csv(output_path, header=True, mode="overwrite")

# Display a message to confirm the save
print("Cleaned DataFrame has been saved to:", output_path)

Cleaned DataFrame has been saved to: ./Cleaned/Client6/


In [2]:
from pyspark.sql.functions import col

# Iterate over each column
for column_name in df.columns:
    # Filter rows with null or empty values in the column
    empty_values_df = df.filter((col(column_name) == "") | col(column_name).isNull())
    
    # Check if there are any empty values in the column
    if empty_values_df.count() > 0:
        print("There are empty values in the column:", column_name)
        # Display the rows with empty values
        empty_values_df.show()
    else:
        print("There are no empty values in the column:", column_name)


NameError: name 'df' is not defined

In [63]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Créer la session Spark
spark = SparkSession.builder \
    .appName("Count Null Rows") \
    .getOrCreate()



# Initialiser le compteur
total_null_rows = 0

# Parcourir toutes les colonnes du DataFrame
for col_name in df.columns:
    # Compter le nombre de lignes avec des valeurs nulles dans cette colonne
    null_rows_count = df.filter(df[col_name].isNull()).count()
    # Ajouter au compteur total
    total_null_rows += null_rows_count
    # Afficher le nombre de lignes avec des valeurs nulles dans cette colonne
    print("Nombre de lignes avec des valeurs nulles dans la colonne", col_name, ":", null_rows_count)

# Afficher le nombre total de lignes avec des valeurs nulles dans le DataFrame
print("Nombre total de lignes avec des valeurs nulles dans le DataFrame :", total_null_rows)


Nombre de lignes avec des valeurs nulles dans la colonne age : 0
Nombre de lignes avec des valeurs nulles dans la colonne sexe : 0
Nombre de lignes avec des valeurs nulles dans la colonne taux : 0
Nombre de lignes avec des valeurs nulles dans la colonne situationFamiliale : 0
Nombre de lignes avec des valeurs nulles dans la colonne nbEnfantsAcharge : 0
Nombre de lignes avec des valeurs nulles dans la colonne 2eme voiture : 0
Nombre de lignes avec des valeurs nulles dans la colonne immatriculation : 0
Nombre total de lignes avec des valeurs nulles dans le DataFrame : 0


In [1]:
df.show()

NameError: name 'df' is not defined

In [64]:
# Define a regular expression pattern to replace é with e
df = df.withColumn("situationFamiliale", regexp_replace(col("situationFamiliale"), "�", "e"))

# Display the cleaned DataFrame
df.show()

+---+----+----+------------------+----------------+------------+---------------+
|age|sexe|taux|situationFamiliale|nbEnfantsAcharge|2eme voiture|immatriculation|
+---+----+----+------------------+----------------+------------+---------------+
| 25|   F| 159|         En Couple|               2|       false|     3467 SB 72|
| 53|   M| 594|         En Couple|               2|       false|      113 LY 42|
| 20|   F| 949|         En Couple|               1|       false|      925 WK 87|
| 29|   M| 571|         En Couple|               2|       false|     3279 RV 81|
| 47|   M| 502|         En Couple|               1|       false|       82 RZ 54|
| 29|   F| 503|         En Couple|               3|       false|     8290 SD 41|
| 52|   F| 211|         En Couple|               4|        true|     9339 BW 87|
| 58|   M| 536|       Celibataire|               0|       false|     3696 JS 92|
| 21|   M| 211|         En Couple|               4|       false|     6484 MS 45|
| 42|   M| 176|         En C

In [65]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Créer la session Spark
spark = SparkSession.builder \
    .appName("Count Null Rows") \
    .getOrCreate()



# Initialiser le compteur
total_null_rows = 0

# Parcourir toutes les colonnes du DataFrame
for col_name in df.columns:
    # Compter le nombre de lignes avec des valeurs nulles dans cette colonne
    null_rows_count = df.filter(df[col_name].isNull()).count()
    # Ajouter au compteur total
    total_null_rows += null_rows_count
    # Afficher le nombre de lignes avec des valeurs nulles dans cette colonne
    print("Nombre de lignes avec des valeurs nulles dans la colonne", col_name, ":", null_rows_count)

# Afficher le nombre total de lignes avec des valeurs nulles dans le DataFrame
print("Nombre total de lignes avec des valeurs nulles dans le DataFrame :", total_null_rows)


Nombre de lignes avec des valeurs nulles dans la colonne age : 0
Nombre de lignes avec des valeurs nulles dans la colonne sexe : 0
Nombre de lignes avec des valeurs nulles dans la colonne taux : 0
Nombre de lignes avec des valeurs nulles dans la colonne situationFamiliale : 0
Nombre de lignes avec des valeurs nulles dans la colonne nbEnfantsAcharge : 0
Nombre de lignes avec des valeurs nulles dans la colonne 2eme voiture : 0
Nombre de lignes avec des valeurs nulles dans la colonne immatriculation : 0
Nombre total de lignes avec des valeurs nulles dans le DataFrame : 0


In [66]:
# Remplacer les valeurs nulles dans la colonne 'immatriculation' par '3467 SB 72|'
df = df.fillna({'immatriculation': '3467 SB 72'})

# Afficher le DataFrame après remplacement
print("DataFrame après remplacement des valeurs nulles :")
df.show()

DataFrame après remplacement des valeurs nulles :
+---+----+----+------------------+----------------+------------+---------------+
|age|sexe|taux|situationFamiliale|nbEnfantsAcharge|2eme voiture|immatriculation|
+---+----+----+------------------+----------------+------------+---------------+
| 25|   F| 159|         En Couple|               2|       false|     3467 SB 72|
| 53|   M| 594|         En Couple|               2|       false|      113 LY 42|
| 20|   F| 949|         En Couple|               1|       false|      925 WK 87|
| 29|   M| 571|         En Couple|               2|       false|     3279 RV 81|
| 47|   M| 502|         En Couple|               1|       false|       82 RZ 54|
| 29|   F| 503|         En Couple|               3|       false|     8290 SD 41|
| 52|   F| 211|         En Couple|               4|        true|     9339 BW 87|
| 58|   M| 536|       Celibataire|               0|       false|     3696 JS 92|
| 21|   M| 211|         En Couple|               4|       f

In [67]:
# Remplacer la valeur '?' par '167' dans la colonne 'taux'
df = df.withColumn("taux", regexp_replace("taux", "\\?", "167"))

# Afficher le DataFrame après remplacement
print("DataFrame après remplacement de '?' par '167' :")
df.show()

DataFrame après remplacement de '?' par '167' :
+---+----+----+------------------+----------------+------------+---------------+
|age|sexe|taux|situationFamiliale|nbEnfantsAcharge|2eme voiture|immatriculation|
+---+----+----+------------------+----------------+------------+---------------+
| 25|   F| 159|         En Couple|               2|       false|     3467 SB 72|
| 53|   M| 594|         En Couple|               2|       false|      113 LY 42|
| 20|   F| 949|         En Couple|               1|       false|      925 WK 87|
| 29|   M| 571|         En Couple|               2|       false|     3279 RV 81|
| 47|   M| 502|         En Couple|               1|       false|       82 RZ 54|
| 29|   F| 503|         En Couple|               3|       false|     8290 SD 41|
| 52|   F| 211|         En Couple|               4|        true|     9339 BW 87|
| 58|   M| 536|       Celibataire|               0|       false|     3696 JS 92|
| 21|   M| 211|         En Couple|               4|       fal

In [68]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Créer la session Spark
spark = SparkSession.builder \
    .appName("Count Null Rows") \
    .getOrCreate()



# Initialiser le compteur
total_null_rows = 0

# Parcourir toutes les colonnes du DataFrame
for col_name in df.columns:
    # Compter le nombre de lignes avec des valeurs nulles dans cette colonne
    null_rows_count = df.filter(df[col_name].isNull()).count()
    # Ajouter au compteur total
    total_null_rows += null_rows_count
    # Afficher le nombre de lignes avec des valeurs nulles dans cette colonne
    print("Nombre de lignes avec des valeurs nulles dans la colonne", col_name, ":", null_rows_count)

# Afficher le nombre total de lignes avec des valeurs nulles dans le DataFrame
print("Nombre total de lignes avec des valeurs nulles dans le DataFrame :", total_null_rows)


Nombre de lignes avec des valeurs nulles dans la colonne age : 0
Nombre de lignes avec des valeurs nulles dans la colonne sexe : 0
Nombre de lignes avec des valeurs nulles dans la colonne taux : 0
Nombre de lignes avec des valeurs nulles dans la colonne situationFamiliale : 0
Nombre de lignes avec des valeurs nulles dans la colonne nbEnfantsAcharge : 0
Nombre de lignes avec des valeurs nulles dans la colonne 2eme voiture : 0
Nombre de lignes avec des valeurs nulles dans la colonne immatriculation : 0
Nombre total de lignes avec des valeurs nulles dans le DataFrame : 0


In [69]:
from pyspark.sql.functions import when, regexp_replace, col

# Define the DataFrame with replacements
df = df.withColumn("situationFamiliale", regexp_replace(col("situationFamiliale"), "�", "e")) \
               .withColumn("sexe", 
                           when(col("sexe").rlike("Homme|Masculin"), "M")
                           .when(col("sexe").rlike("Femme|F�minin"), "F")
                           .when(col("sexe").rlike(""), "F")
                           .when(col("sexe").rlike(""), "F")
                           .otherwise(col("sexe")))

#df = df.withColumn("situationFamiliale", regexp_replace(col("situationFamiliale"), "\\?", "En Couple"))  # Escape '?' with '\\'
df = df.withColumn("situationFamiliale", regexp_replace(col("situationFamiliale"), "", "En Couple"))
df = df.withColumn("situationFamiliale", regexp_replace(col("situationFamiliale"), "N/D", "En Couple"))
                
df = df.withColumn("sexe", regexp_replace(col("sexe"), "N/D", "F"))
df = df.withColumn("sexe", regexp_replace(col("sexe"), "", "M"))

# Display the cleaned DataFrame
df.show()


+---+----+----+--------------------+----------------+------------+---------------+
|age|sexe|taux|  situationFamiliale|nbEnfantsAcharge|2eme voiture|immatriculation|
+---+----+----+--------------------+----------------+------------+---------------+
| 25| MFM| 159|En CoupleEEn Coup...|               2|       false|     3467 SB 72|
| 53| MFM| 594|En CoupleEEn Coup...|               2|       false|      113 LY 42|
| 20| MFM| 949|En CoupleEEn Coup...|               1|       false|      925 WK 87|
| 29| MFM| 571|En CoupleEEn Coup...|               2|       false|     3279 RV 81|
| 47| MFM| 502|En CoupleEEn Coup...|               1|       false|       82 RZ 54|
| 29| MFM| 503|En CoupleEEn Coup...|               3|       false|     8290 SD 41|
| 52| MFM| 211|En CoupleEEn Coup...|               4|        true|     9339 BW 87|
| 58| MFM| 536|En CoupleCEn Coup...|               0|       false|     3696 JS 92|
| 21| MFM| 211|En CoupleEEn Coup...|               4|       false|     6484 MS 45|
| 42

In [70]:
# Define the path for the cleaned CSV file
output_path = "./Cleaned/Client6.csv"

# Save the cleaned DataFrame to a new CSV file
df.write.csv(output_path, header=True, mode="overwrite")

# Display a message to confirm the save
print("Cleaned DataFrame has been saved to:", output_path)

Cleaned DataFrame has been saved to: ./Cleaned/Client6.csv


In [80]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import when

# Initialisation de la session Spark
spark = SparkSession.builder \
    .appName("Remplissage des valeurs vides dans la colonne 'age'") \
    .getOrCreate()

# Chargement du DataFrame depuis le fichier CSV
df = spark.read.csv("Cleaned/Client6.csv", header=True, inferSchema=True)

# Remplacer les valeurs vides dans la colonne "age" par des valeurs numériques entre 20 et 60
df_filled = df.withColumn("age", when(df["age"].isNull(), random.randint(20, 60)).otherwise(df["age"]))

# Maintenant, df_filled contient les valeurs remplacées


In [78]:
df_filled.show()

+---+----+----+--------------------+----------------+------------+---------------+
|age|sexe|taux|  situationFamiliale|nbEnfantsAcharge|2eme voiture|immatriculation|
+---+----+----+--------------------+----------------+------------+---------------+
| 25| MFM| 159|En CoupleEEn Coup...|               2|       false|     3467 SB 72|
| 53| MFM| 594|En CoupleEEn Coup...|               2|       false|      113 LY 42|
| 20| MFM| 949|En CoupleEEn Coup...|               1|       false|      925 WK 87|
| 29| MFM| 571|En CoupleEEn Coup...|               2|       false|     3279 RV 81|
| 47| MFM| 502|En CoupleEEn Coup...|               1|       false|       82 RZ 54|
| 29| MFM| 503|En CoupleEEn Coup...|               3|       false|     8290 SD 41|
| 52| MFM| 211|En CoupleEEn Coup...|               4|        true|     9339 BW 87|
| 58| MFM| 536|En CoupleCEn Coup...|               0|       false|     3696 JS 92|
| 21| MFM| 211|En CoupleEEn Coup...|               4|       false|     6484 MS 45|
| 42