<a href="https://colab.research.google.com/github/djili/data-processing/blob/main/guideline/Filtre.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Filtrage
Le filtrage est une opération de transformation disponible dans Spark qui renvoie un nouveau RDD composé uniquement des éléments qui répondent à une condition spécifique. Il prend une fonction qui évalue une valeur booléenne et applique cette fonction à tous les éléments du RDD pour renvoyer uniquement les éléments pour lesquels la fonction produit true.

In [1]:
from pyspark import SparkContext, SparkConf

In [2]:
## Filtre simple
conf = SparkConf().setMaster("*").setAppName("Filtrage notebook")
sc = SparkContext.getOrCreate()
numbersRDD = sc.parallelize((1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
evenNumbersRDD = numbersRDD.filter(lambda n: n % 2 == 0)
evenNumbers = evenNumbersRDD.collect()
for number in evenNumbers:
    print(number)

2
4
6
8
10


## Filtre complexe
 Le filtrage peut également être appliqué à des conditions plus complexes. Supposons que vous ayez affaire à un ensemble de données de personnes et que vous souhaitiez filtrer toutes les personnes de moins de 18 ans et portant un nom spécifique. Tout d’abord, vous devez créer une classe de cas qui représente une personne.

In [3]:
from pyspark.sql import Row

In [4]:
# Creation d'une liste
peopleList = [
    Row(name="Alice", age=29), Row(name="Bob", age=20),
    Row(name="Charlie", age=17), Row(name="David", age=15),
    Row(name="Eve", age=38), Row(name="Frank", age=13)
]

In [5]:
# Parallelize pour creer le RDD
peopleRDD = sc.parallelize(peopleList)

In [6]:
# Filtrage
adultsNamedAliceRDD = peopleRDD.filter(lambda person: person.age >= 18 and person.name == "Alice")

In [7]:
# collect du RDD et affichage
display(adultsNamedAliceRDD.collect())

[Row(name='Alice', age=29)]

## Filtre enchaîner
Les filtres peuvent être chaînés pour appliquer une séquence de conditions. Chaque appel de filtre entraînera un nouveau RDD, et les conditions pourront être appliquées les unes après les autres.****


In [8]:
#adultsRDD = peopleRDD.filter(lambda age : age >= 18)
#adultsNamedAliceRDD = adultsRDD.filter(lambda name : name =="Alice")
adultsNamedAliceRDD = peopleRDD.filter(lambda person : person.age >= 18).filter(lambda person : person.name =="Alice")
display(adultsNamedAliceRDD.collect())

[Row(name='Alice', age=29)]

## Filtrage à l'aide de fonctions externes
Les conditions de filtre peuvent être extraites vers des fonctions externes pour une meilleure lisibilité, en particulier lorsqu'il s'agit de conditions complexes ou lorsque la même logique est réutilisée dans différentes parties de l'application.

In [9]:
def isAdult(person):
    return person.age >= 18
def isNamedAlice(person):
    return person.name == "Alice"

In [10]:
adultsRDD = peopleRDD.filter(isAdult)
adultsNamedAliceRDD = adultsRDD.filter(isNamedAlice)
display(adultsNamedAliceRDD.collect())

[Row(name='Alice', age=29)]