In [1]:
# Import SparkSession
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, regexp_replace

# Create SparkSession
spark = SparkSession.builder \
    .appName("Read CSV Immatriculations") \
    .getOrCreate()

# Read CSV into DataFrame
df = spark.read.csv("./data/Immatriculations.csv", header=True, inferSchema=True)

# Display DataFrame
df.show()

+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|immatriculation|    marque|           nom|puissance|   longueur|nbPlaces|nbPortes|couleur|occasion| prix|
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|     3176 TS 67|   Renault|   Laguna 2.0T|      170|     longue|       5|       5|  blanc|   false|27300|
|     3721 QS 49|     Volvo|        S80 T6|      272|tr�s longue|       5|       5|   noir|   false|50500|
|     9099 UV 26|Volkswagen|  Golf 2.0 FSI|      150|    moyenne|       5|       5|   gris|    true|16029|
|     3563 LA 55|   Peugeot|      1007 1.4|       75|     courte|       5|       5|  blanc|    true| 9625|
|     6963 AX 34|      Audi|        A2 1.4|       75|     courte|       5|       5|   gris|   false|18310|
|     5592 HQ 89|     Skoda| Superb 2.8 V6|      193|tr�s longue|       5|       5|   bleu|   false|31790|
|      674 CE 26|   Renault|Megane 2.

In [2]:
# Define a regular expression pattern to replace é with e
df = df.withColumn("longueur", regexp_replace(col("longueur"), "�", "e"))

# Display the cleaned DataFrame
df.show()

+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|immatriculation|    marque|           nom|puissance|   longueur|nbPlaces|nbPortes|couleur|occasion| prix|
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|     3176 TS 67|   Renault|   Laguna 2.0T|      170|     longue|       5|       5|  blanc|   false|27300|
|     3721 QS 49|     Volvo|        S80 T6|      272|tres longue|       5|       5|   noir|   false|50500|
|     9099 UV 26|Volkswagen|  Golf 2.0 FSI|      150|    moyenne|       5|       5|   gris|    true|16029|
|     3563 LA 55|   Peugeot|      1007 1.4|       75|     courte|       5|       5|  blanc|    true| 9625|
|     6963 AX 34|      Audi|        A2 1.4|       75|     courte|       5|       5|   gris|   false|18310|
|     5592 HQ 89|     Skoda| Superb 2.8 V6|      193|tres longue|       5|       5|   bleu|   false|31790|
|      674 CE 26|   Renault|Megane 2.

In [4]:
# Define the path for the cleaned CSV file
output_path = "./Cleaned/Immatriculations"

# Save the cleaned DataFrame to a new CSV file
df.write.csv(output_path, header=True, mode="overwrite")

# Display a message to confirm the save
print("Cleaned DataFrame has been saved to:", output_path)

Cleaned DataFrame has been saved to: ./Cleaned/Immatriculations


In [5]:
from pyspark.sql.functions import col

# Define the column name you want to check for empty values
column_name = "nbPortes"

# Filter rows with null or empty values in the specified column
empty_values_df = df.filter((col(column_name) == "") | col(column_name).isNull())

# Check if there are any empty values in the specified column
if empty_values_df.count() > 0:
    print("There are empty values in the column:", column_name)
    # Display the rows with empty values
    empty_values_df.show()
else:
    print("There are no empty values in the column:", column_name)

There are no empty values in the column: nbPortes


In [43]:
from pyspark.sql.functions import col

# Iterate over each column
for column_name in df.columns:
    # Filter rows with null or empty values in the column
    empty_values_df = df.filter((col(column_name) == "") | col(column_name).isNull())
    
    # Check if there are any empty values in the column
    if empty_values_df.count() > 0:
        print("There are empty values in the column:", column_name)
        # Display the rows with empty values
        empty_values_df.show()
    else:
        print("There are no empty values in the column:", column_name)


There are no empty values in the column: immatriculation
There are no empty values in the column: marque
There are no empty values in the column: nom
There are no empty values in the column: puissance
There are no empty values in the column: longueur
There are no empty values in the column: nbPlaces
There are empty values in the column: nbPortes
+---------------+-------+--------+---------+--------+--------+--------+-------+--------+----+
|immatriculation| marque|     nom|puissance|longueur|nbPlaces|nbPortes|couleur|occasion|prix|
+---------------+-------+--------+---------+--------+--------+--------+-------+--------+----+
|     3235 YX 64|Peugeot|1007 1.4|       75|  courte|       5|    NULL|   NULL|    NULL|NULL|
+---------------+-------+--------+---------+--------+--------+--------+-------+--------+----+

There are empty values in the column: couleur
+---------------+-------+--------+---------+--------+--------+--------+-------+--------+----+
|immatriculation| marque|     nom|puissan

In [44]:
df.show()

+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|immatriculation|    marque|           nom|puissance|   longueur|nbPlaces|nbPortes|couleur|occasion| prix|
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|     3176 TS 67|   Renault|   Laguna 2.0T|      170|     longue|       5|       5|  blanc|   false|27300|
|     3721 QS 49|     Volvo|        S80 T6|      272|tres longue|       5|       5|   noir|   false|50500|
|     9099 UV 26|Volkswagen|  Golf 2.0 FSI|      150|    moyenne|       5|       5|   gris|    true|16029|
|     3563 LA 55|   Peugeot|      1007 1.4|       75|     courte|       5|       5|  blanc|    true| 9625|
|     6963 AX 34|      Audi|        A2 1.4|       75|     courte|       5|       5|   gris|   false|18310|
|     5592 HQ 89|     Skoda| Superb 2.8 V6|      193|tres longue|       5|       5|   bleu|   false|31790|
|      674 CE 26|   Renault|Megane 2.

In [6]:
from pyspark.sql.functions import col

# Iterate over each column
for column_name in df.columns:
    # Filter rows with null or empty values in the column
    empty_values_df = df.filter((col(column_name) == "") | col(column_name).isNull())
    
    # Check if there are any empty values in the column
    if empty_values_df.count() > 0:
        print("There are empty values in the column:", column_name)
        # Display the rows with empty values
        empty_values_df.show()
    else:
        print("There are no empty values in the column:", column_name)

There are no empty values in the column: immatriculation
There are no empty values in the column: marque
There are no empty values in the column: nom
There are no empty values in the column: puissance
There are no empty values in the column: longueur
There are no empty values in the column: nbPlaces
There are no empty values in the column: nbPortes
There are no empty values in the column: couleur
There are no empty values in the column: occasion
There are no empty values in the column: prix


In [5]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Créer la session Spark
spark = SparkSession.builder \
    .appName("Count Null Rows") \
    .getOrCreate()



# Initialiser le compteur
total_null_rows = 0

# Parcourir toutes les colonnes du DataFrame
for col_name in df.columns:
    # Compter le nombre de lignes avec des valeurs nulles dans cette colonne
    null_rows_count = df.filter(df[col_name].isNull()).count()
    # Ajouter au compteur total
    total_null_rows += null_rows_count
    # Afficher le nombre de lignes avec des valeurs nulles dans cette colonne
    print("Nombre de lignes avec des valeurs nulles dans la colonne", col_name, ":", null_rows_count)

# Afficher le nombre total de lignes avec des valeurs nulles dans le DataFrame
print("Nombre total de lignes avec des valeurs nulles dans le DataFrame :", total_null_rows)


Nombre de lignes avec des valeurs nulles dans la colonne immatriculation : 0
Nombre de lignes avec des valeurs nulles dans la colonne marque : 0
Nombre de lignes avec des valeurs nulles dans la colonne nom : 0
Nombre de lignes avec des valeurs nulles dans la colonne puissance : 0
Nombre de lignes avec des valeurs nulles dans la colonne longueur : 0
Nombre de lignes avec des valeurs nulles dans la colonne nbPlaces : 0
Nombre de lignes avec des valeurs nulles dans la colonne nbPortes : 0
Nombre de lignes avec des valeurs nulles dans la colonne couleur : 0
Nombre de lignes avec des valeurs nulles dans la colonne occasion : 0
Nombre de lignes avec des valeurs nulles dans la colonne prix : 0
Nombre total de lignes avec des valeurs nulles dans le DataFrame : 0


In [7]:
# Remplacer les valeurs nulles dans la colonne 'immatriculation' par '3467 SB 72|'
df = df.fillna({'nbPortes': '5'})

# Afficher le DataFrame après remplacement
print("DataFrame après remplacement des valeurs nulles :")
df.show()

DataFrame après remplacement des valeurs nulles :
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|immatriculation|    marque|           nom|puissance|   longueur|nbPlaces|nbPortes|couleur|occasion| prix|
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|     3176 TS 67|   Renault|   Laguna 2.0T|      170|     longue|       5|       5|  blanc|   false|27300|
|     3721 QS 49|     Volvo|        S80 T6|      272|tres longue|       5|       5|   noir|   false|50500|
|     9099 UV 26|Volkswagen|  Golf 2.0 FSI|      150|    moyenne|       5|       5|   gris|    true|16029|
|     3563 LA 55|   Peugeot|      1007 1.4|       75|     courte|       5|       5|  blanc|    true| 9625|
|     6963 AX 34|      Audi|        A2 1.4|       75|     courte|       5|       5|   gris|   false|18310|
|     5592 HQ 89|     Skoda| Superb 2.8 V6|      193|tres longue|       5|       5|   bleu|   

In [7]:
# Remplacer les valeurs nulles dans la colonne 'immatriculation' par '3467 SB 72|'
df = df.fillna({'couleur': 'blanc'})

# Afficher le DataFrame après remplacement
print("DataFrame après remplacement des valeurs nulles :")
df.show()

DataFrame après remplacement des valeurs nulles :
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|immatriculation|    marque|           nom|puissance|   longueur|nbPlaces|nbPortes|couleur|occasion| prix|
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|     3176 TS 67|   Renault|   Laguna 2.0T|      170|     longue|       5|       5|  blanc|   false|27300|
|     3721 QS 49|     Volvo|        S80 T6|      272|tres longue|       5|       5|   noir|   false|50500|
|     9099 UV 26|Volkswagen|  Golf 2.0 FSI|      150|    moyenne|       5|       5|   gris|    true|16029|
|     3563 LA 55|   Peugeot|      1007 1.4|       75|     courte|       5|       5|  blanc|    true| 9625|
|     6963 AX 34|      Audi|        A2 1.4|       75|     courte|       5|       5|   gris|   false|18310|
|     5592 HQ 89|     Skoda| Superb 2.8 V6|      193|tres longue|       5|       5|   bleu|   

In [8]:
# Remplacer les valeurs nulles dans la colonne 'immatriculation' par '3467 SB 72|'
df = df.fillna({'occasion': 'false'})

# Afficher le DataFrame après remplacement
print("DataFrame après remplacement des valeurs nulles :")
df.show()

DataFrame après remplacement des valeurs nulles :
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|immatriculation|    marque|           nom|puissance|   longueur|nbPlaces|nbPortes|couleur|occasion| prix|
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|     3176 TS 67|   Renault|   Laguna 2.0T|      170|     longue|       5|       5|  blanc|   false|27300|
|     3721 QS 49|     Volvo|        S80 T6|      272|tres longue|       5|       5|   noir|   false|50500|
|     9099 UV 26|Volkswagen|  Golf 2.0 FSI|      150|    moyenne|       5|       5|   gris|    true|16029|
|     3563 LA 55|   Peugeot|      1007 1.4|       75|     courte|       5|       5|  blanc|    true| 9625|
|     6963 AX 34|      Audi|        A2 1.4|       75|     courte|       5|       5|   gris|   false|18310|
|     5592 HQ 89|     Skoda| Superb 2.8 V6|      193|tres longue|       5|       5|   bleu|   

In [9]:
# Remplacer les valeurs nulles dans la colonne 'immatriculation' par '3467 SB 72|'
df = df.fillna({'prix': '27300'})

# Afficher le DataFrame après remplacement
print("DataFrame après remplacement des valeurs nulles :")
df.show()

DataFrame après remplacement des valeurs nulles :
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|immatriculation|    marque|           nom|puissance|   longueur|nbPlaces|nbPortes|couleur|occasion| prix|
+---------------+----------+--------------+---------+-----------+--------+--------+-------+--------+-----+
|     3176 TS 67|   Renault|   Laguna 2.0T|      170|     longue|       5|       5|  blanc|   false|27300|
|     3721 QS 49|     Volvo|        S80 T6|      272|tres longue|       5|       5|   noir|   false|50500|
|     9099 UV 26|Volkswagen|  Golf 2.0 FSI|      150|    moyenne|       5|       5|   gris|    true|16029|
|     3563 LA 55|   Peugeot|      1007 1.4|       75|     courte|       5|       5|  blanc|    true| 9625|
|     6963 AX 34|      Audi|        A2 1.4|       75|     courte|       5|       5|   gris|   false|18310|
|     5592 HQ 89|     Skoda| Superb 2.8 V6|      193|tres longue|       5|       5|   bleu|   

In [10]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Créer la session Spark
spark = SparkSession.builder \
    .appName("Count Null Rows") \
    .getOrCreate()



# Initialiser le compteur
total_null_rows = 0

# Parcourir toutes les colonnes du DataFrame
for col_name in df.columns:
    # Compter le nombre de lignes avec des valeurs nulles dans cette colonne
    null_rows_count = df.filter(df[col_name].isNull()).count()
    # Ajouter au compteur total
    total_null_rows += null_rows_count
    # Afficher le nombre de lignes avec des valeurs nulles dans cette colonne
    print("Nombre de lignes avec des valeurs nulles dans la colonne", col_name, ":", null_rows_count)

# Afficher le nombre total de lignes avec des valeurs nulles dans le DataFrame
print("Nombre total de lignes avec des valeurs nulles dans le DataFrame :", total_null_rows)


Nombre de lignes avec des valeurs nulles dans la colonne immatriculation : 0
Nombre de lignes avec des valeurs nulles dans la colonne marque : 0
Nombre de lignes avec des valeurs nulles dans la colonne nom : 0
Nombre de lignes avec des valeurs nulles dans la colonne puissance : 0
Nombre de lignes avec des valeurs nulles dans la colonne longueur : 0
Nombre de lignes avec des valeurs nulles dans la colonne nbPlaces : 0
Nombre de lignes avec des valeurs nulles dans la colonne nbPortes : 0
Nombre de lignes avec des valeurs nulles dans la colonne couleur : 0
Nombre de lignes avec des valeurs nulles dans la colonne occasion : 0
Nombre de lignes avec des valeurs nulles dans la colonne prix : 0
Nombre total de lignes avec des valeurs nulles dans le DataFrame : 0


In [12]:
# Define the path for the cleaned CSV file
output_path = "./Cleaned/Immatriculations"

# Save the cleaned DataFrame to a new CSV file
df.write.csv(output_path, header=True, mode="overwrite")

# Display a message to confirm the save
print("Cleaned DataFrame has been saved to:", output_path)

Cleaned DataFrame has been saved to: ./Cleaned/Immatriculations
