In [1]:
# Import SparkSession
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, regexp_replace

# Create SparkSession
spark = SparkSession.builder \
    .appName("Read CSV Marketing") \
    .getOrCreate()

# Read CSV into DataFrame
df = spark.read.csv("./data/Marketing.csv", header=True, inferSchema=True)

# Display DataFrame
df.show()

+---+----+----+------------------+----------------+------------+
|age|sexe|taux|situationFamiliale|nbEnfantsAcharge|2eme voiture|
+---+----+----+------------------+----------------+------------+
| 21|   F|1396|       C�libataire|               0|       false|
| 35|   M| 223|       C�libataire|               0|       false|
| 48|   M| 401|       C�libataire|               0|       false|
| 26|   F| 420|         En Couple|               3|        true|
| 80|   M| 530|         En Couple|               3|       false|
| 27|   F| 153|         En Couple|               2|       false|
| 59|   F| 572|         En Couple|               2|       false|
| 43|   F| 431|       C�libataire|               0|       false|
| 64|   M| 559|       C�libataire|               0|       false|
| 22|   M| 154|         En Couple|               1|       false|
| 79|   F| 981|         En Couple|               2|       false|
| 55|   M| 588|       C�libataire|               0|       false|
| 19|   F| 212|       C�l

In [2]:


# Define a regular expression pattern to replace é with e
df = df.withColumn("situationFamiliale", regexp_replace(col("situationFamiliale"), "�", "e"))

# Display the cleaned DataFrame
df.show()

+---+----+----+------------------+----------------+------------+
|age|sexe|taux|situationFamiliale|nbEnfantsAcharge|2eme voiture|
+---+----+----+------------------+----------------+------------+
| 21|   F|1396|       Celibataire|               0|       false|
| 35|   M| 223|       Celibataire|               0|       false|
| 48|   M| 401|       Celibataire|               0|       false|
| 26|   F| 420|         En Couple|               3|        true|
| 80|   M| 530|         En Couple|               3|       false|
| 27|   F| 153|         En Couple|               2|       false|
| 59|   F| 572|         En Couple|               2|       false|
| 43|   F| 431|       Celibataire|               0|       false|
| 64|   M| 559|       Celibataire|               0|       false|
| 22|   M| 154|         En Couple|               1|       false|
| 79|   F| 981|         En Couple|               2|       false|
| 55|   M| 588|       Celibataire|               0|       false|
| 19|   F| 212|       Cel

In [4]:
# Define the path for the cleaned CSV file
output_path = "./Cleaned/Marketing"

# Save the cleaned DataFrame to a new CSV file
df.write.csv(output_path, header=True, mode="overwrite")

# Display a message to confirm the save
print("Cleaned DataFrame has been saved to:", output_path)

Cleaned DataFrame has been saved to: ./Cleaned/Marketing


In [42]:
import shutil

# Define the path to the cleaned CSV file
cleaned_file_path = "./Marketing"

if os.path.exists(cleaned_file_path):
    # Delete the file
    shutil.rmtree(cleaned_file_path)
    print("File deleted successfully:", cleaned_file_path)
else:
    print("File does not exist:", cleaned_file_path)


File does not exist: ./Marketing


In [43]:
from pyspark.sql.functions import col

# Iterate over each column
for column_name in df.columns:
    # Filter rows with null or empty values in the column
    empty_values_df = df.filter((col(column_name) == "") | col(column_name).isNull())
    
    # Check if there are any empty values in the column
    if empty_values_df.count() > 0:
        print("There are empty values in the column:", column_name)
        # Display the rows with empty values
        empty_values_df.show()
    else:
        print("There are no empty values in the column:", column_name)


There are no empty values in the column: age
There are no empty values in the column: sexe
There are no empty values in the column: taux
There are no empty values in the column: situationFamiliale
There are no empty values in the column: nbEnfantsAcharge
There are no empty values in the column: 2eme voiture


In [44]:
df.show()

+---+----+----+------------------+----------------+------------+
|age|sexe|taux|situationFamiliale|nbEnfantsAcharge|2eme voiture|
+---+----+----+------------------+----------------+------------+
| 21|   F|1396|       Celibataire|               0|       false|
| 35|   M| 223|       Celibataire|               0|       false|
| 48|   M| 401|       Celibataire|               0|       false|
| 26|   F| 420|         En Couple|               3|        true|
| 80|   M| 530|         En Couple|               3|       false|
| 27|   F| 153|         En Couple|               2|       false|
| 59|   F| 572|         En Couple|               2|       false|
| 43|   F| 431|       Celibataire|               0|       false|
| 64|   M| 559|       Celibataire|               0|       false|
| 22|   M| 154|         En Couple|               1|       false|
| 79|   F| 981|         En Couple|               2|       false|
| 55|   M| 588|       Celibataire|               0|       false|
| 19|   F| 212|       Cel

In [52]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Créer la session Spark
spark = SparkSession.builder \
    .appName("Count Null Rows") \
    .getOrCreate()



# Initialiser le compteur
total_null_rows = 0

# Parcourir toutes les colonnes du DataFrame
for col_name in df.columns:
    # Compter le nombre de lignes avec des valeurs nulles dans cette colonne
    null_rows_count = df.filter(df[col_name].isNull()).count()
    # Ajouter au compteur total
    total_null_rows += null_rows_count
    # Afficher le nombre de lignes avec des valeurs nulles dans cette colonne
    print("Nombre de lignes avec des valeurs nulles dans la colonne", col_name, ":", null_rows_count)

# Afficher le nombre total de lignes avec des valeurs nulles dans le DataFrame
print("Nombre total de lignes avec des valeurs nulles dans le DataFrame :", total_null_rows)


Nombre de lignes avec des valeurs nulles dans la colonne age : 0
Nombre de lignes avec des valeurs nulles dans la colonne sexe : 0
Nombre de lignes avec des valeurs nulles dans la colonne taux : 0
Nombre de lignes avec des valeurs nulles dans la colonne situationFamiliale : 0
Nombre de lignes avec des valeurs nulles dans la colonne nbEnfantsAcharge : 0
Nombre de lignes avec des valeurs nulles dans la colonne 2eme voiture : 0
Nombre total de lignes avec des valeurs nulles dans le DataFrame : 0
