In [2]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import *
spark=SparkSession.builder.appName('data_processing').getOrCreate()

Tout comme dans une base de données, nous allons définir la structure de notre Dataframe grace à ***StructType().add(nom_colone, type_colone)***

In [11]:
schema = StructType().add("user_id","string").add("country","string").add("browser","string").add("os","string").add("age","integer") #permet de definir la structure des données
peopleDataframe = spark.createDataFrame([("A203",None,"Chrome","WIN",33),("A201",'China',None,"MacOS",35),("A205",'UK',"Mozilla","Linux",23)],schema=schema) #creer un dataframe avec des valeurs null

In [12]:
peopleDataframe.show() #permet d'afficher le contenu du dataframe

+-------+-------+-------+-----+---+
|user_id|country|browser|   os|age|
+-------+-------+-------+-----+---+
|   A203|   null| Chrome|  WIN| 33|
|   A201|  China|   null|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 23|
+-------+-------+-------+-----+---+



Pour remplacer les valeurs null nous allons utiliser la methode ***fillna()***.
Elle prend comme argument la valeur qui remplacera les élements null

In [13]:
# 1ere méthode
peopleDataframe.fillna('1').show()
print("################")
# 2eme methode avec specification des colones
peopleDataframe.fillna({'country':'SENEGAL','browser':'CHROME'}).show()

+-------+-------+-------+-----+---+
|user_id|country|browser|   os|age|
+-------+-------+-------+-----+---+
|   A203|      1| Chrome|  WIN| 33|
|   A201|  China|      1|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 23|
+-------+-------+-------+-----+---+

################
+-------+-------+-------+-----+---+
|user_id|country|browser|   os|age|
+-------+-------+-------+-----+---+
|   A203|SENEGAL| Chrome|  WIN| 33|
|   A201|  China| CHROME|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 23|
+-------+-------+-------+-----+---+



Nous avons aussi la possibilité de supprimer toutes les lignes ayant au moins une valeur null grace à ***na.drop()***

In [17]:
print("Avant traitement")
peopleDataframe.show()

print("DURANT LE PROCESS")
# 1ere methode: sans specifier de colone
peopleDataframe.na.drop().show()

print("#############")

#2eme méthode : en specifiant la colone à verifier
peopleDataframe.na.drop(subset='browser').show()

Avant traitement
+-------+-------+-------+-----+---+
|user_id|country|browser|   os|age|
+-------+-------+-------+-----+---+
|   A203|   null| Chrome|  WIN| 33|
|   A201|  China|   null|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 23|
+-------+-------+-------+-----+---+

DURANT LE PROCESS
+-------+-------+-------+-----+---+
|user_id|country|browser|   os|age|
+-------+-------+-------+-----+---+
|   A205|     UK|Mozilla|Linux| 23|
+-------+-------+-------+-----+---+

#############
+-------+-------+-------+-----+---+
|user_id|country|browser|   os|age|
+-------+-------+-------+-----+---+
|   A203|   null| Chrome|  WIN| 33|
|   A205|     UK|Mozilla|Linux| 23|
+-------+-------+-------+-----+---+



Il est aussi possible de remplacer une donnée par une autre bien spécifique grace à ***replace(p1,p2)*** qui prend comme argument p1= la valeur à remplacer et p2=la nouvelle valeur

In [18]:
peopleDataframe.replace("Chrome", "GOOGLE CHROME").show()

+-------+-------+-------------+-----+---+
|user_id|country|      browser|   os|age|
+-------+-------+-------------+-----+---+
|   A203|   null|GOOGLE CHROME|  WIN| 33|
|   A201|  China|         null|MacOS| 35|
|   A205|     UK|      Mozilla|Linux| 23|
+-------+-------+-------------+-----+---+



Nous pouvons aussi supprimer une colone entière avec l'ensemble de ces données grace à ***drop(nom_colone)***

In [19]:
peopleDataframe.drop('browser').show()

+-------+-------+-----+---+
|user_id|country|   os|age|
+-------+-------+-----+---+
|   A203|   null|  WIN| 33|
|   A201|  China|MacOS| 35|
|   A205|     UK|Linux| 23|
+-------+-------+-----+---+

