<a href="https://colab.research.google.com/github/Rachelllle/Spark-Core/blob/main/Session02ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install -q pyspark

In [3]:
from pyspark.sql import SparkSession

# Cr√©er une session Spark
spark = SparkSession.builder \
    .appName("Lazy-Example") \
    .master("local[*]") \
    .getOrCreate()

sc = spark.sparkContext

# Cr√©er un RDD avec les nombres de 1 √† 20
rdd = sc.parallelize(range(1, 21))

# Transformation map : multiplier par 2
rdd_doubled = rdd.map(lambda x: x*2)

# Transformation filter : garder les nombres > 10
rdd_filtered = rdd_doubled.filter(lambda x: x > 10)

# ‚ö†Ô∏è Observer le DAG avant action
print("=== DAG avant action ===")
print(rdd_filtered.toDebugString())

# 1Ô∏è‚É£ Action count() -> juste le nombre d'√©l√©ments
print("\n=== Action count() ===")
count_result = rdd_filtered.count()
print("Count:", count_result)

# Observer le DAG apr√®s count
print("=== DAG apr√®s count ===")
print(rdd_filtered.toDebugString())

# 2Ô∏è‚É£ Action collect() -> r√©cup√©rer tous les √©l√©ments
print("\n=== Action collect() ===")
collect_result = rdd_filtered.collect()
print("Collect:", collect_result)

# Observer le DAG apr√®s collect
print("=== DAG apr√®s collect ===")
print(rdd_filtered.toDebugString())

# Arr√™ter Spark
spark.stop()

=== DAG avant action ===
b'(2) PythonRDD[3] at RDD at PythonRDD.scala:56 []\n |  ParallelCollectionRDD[2] at readRDDFromFile at PythonRDD.scala:297 []'

=== Action count() ===
Count: 15
=== DAG apr√®s count ===
b'(2) PythonRDD[3] at RDD at PythonRDD.scala:56 []\n |  ParallelCollectionRDD[2] at readRDDFromFile at PythonRDD.scala:297 []'

=== Action collect() ===
Collect: [12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40]
=== DAG apr√®s collect ===
b'(2) PythonRDD[3] at RDD at PythonRDD.scala:56 []\n |  ParallelCollectionRDD[2] at readRDDFromFile at PythonRDD.scala:297 []'


In [4]:
from pyspark.sql import SparkSession

# Cr√©er une session Spark
spark = SparkSession.builder \
    .appName("Map vs FlatMap") \
    .master("local[*]") \
    .getOrCreate()

sc = spark.sparkContext

# Texte
text = ["Spark makes big data processing fast"]

# 1Ô∏è‚É£ Cr√©er un RDD √† partir du texte
rdd_text = sc.parallelize(text)
p(lambda line: line.split())
print("R√©sultat avec map :", rdd_map.collect())

# 3Ô∏è‚É£ Utiliser flatMap pour s√©parer les mots
rdd_flatmap = rdd_text.flatMap(lambda line: line.split())
print("R√©sultat avec flatMap :", rdd_flatmap.collect())

# Arr√™ter Spark
spark.stop()


R√©sultat avec map : [['Spark', 'makes', 'big', 'data', 'processing', 'fast']]
R√©sultat avec flatMap : ['Spark', 'makes', 'big', 'data', 'processing', 'fast']


In [5]:
from pyspark.sql import SparkSession

# 1Ô∏è‚É£ Cr√©er une session Spark
spark = SparkSession.builder \
    .appName("WordCount-Enhanced") \
    .master("local[*]") \
    .getOrCreate()

sc = spark.sparkContext

# 2Ô∏è‚É£ Exemple de texte
text = [
    "Spark est super",
    "PySpark est puissant",
    "Spark et PySpark sont utilis√©s pour le Big Data",
    "Spark Spark PySpark"
]

# 3Ô∏è‚É£ Cr√©er un RDD √† partir de la liste de phrases
rdd_text = sc.parallelize(text)

# 4Ô∏è‚É£ Split chaque phrase en mots, aplatir la liste et convertir en minuscules
words = rdd_text.flatMap(lambda line: line.split()) \
                .map(lambda word: word.lower())

# 5Ô∏è‚É£ Supprimer les doublons
unique_words = words.distinct()

# 6Ô∏è‚É£ Mapper chaque mot en (mot, 1) pour WordCount
word_pairs = words.map(lambda word: (word, 1))

# 7Ô∏è‚É£ Compter le nombre d'occurrences de chaque mot
word_count = word_pairs.reduceByKey(lambda a, b: a + b)

# 8Ô∏è‚É£ Afficher le r√©sultat
print("WordCount (ignore case) :", word_count.collect())

# 9Ô∏è‚É£ Afficher le nombre total de mots
total_words = words.count()
print("Nombre total de mots :", total_words)

# üîü Afficher le nombre de mots distincts
distinct_words_count = unique_words.count()
print("Nombre de mots distincts :", distinct_words_count)

# 1Ô∏è‚É£1Ô∏è‚É£ Arr√™ter Spark
spark.stop()


WordCount (ignore case) : [('est', 2), ('puissant', 1), ('et', 1), ('sont', 1), ('big', 1), ('spark', 4), ('super', 1), ('pyspark', 3), ('utilis√©s', 1), ('pour', 1), ('le', 1), ('data', 1)]
Nombre total de mots : 18
Nombre de mots distincts : 12
