![SPARK_PYSPARK](img/spark_pyspark.jpeg)

# üí´ Apache Spark : le moteur du Big Data moderne

Le **Big Data** d√©signe des volumes de donn√©es trop grands pour √™tre trait√©s sur une seule machine.
Historiquement, on utilisait **Hadoop MapReduce**, mais celui-ci lisait et √©crivait souvent sur disque ‚Üí lent.

**Apache Spark** est n√© pour r√©pondre √† ce probl√®me.
- **Traitement en m√©moire (RAM)** ‚Üí bien plus rapide
- **API haut niveau** (SQL, DataFrame, MLlib, etc.)
- **Multi-langages** : Scala, Java, Python (PySpark), R

Spark repose sur une architecture driver / executors.
- **Driver** : programme principal. G√®re le plan d‚Äôex√©cution et collecte les r√©sultats
- **Cluster Manager** : alloue les ressources (CPU, RAM) aux t√¢ches Spark (YARN, Kubernetes, Standalone‚Ä¶)
- **Executors** : ex√©cutent les t√¢ches sur les partitions de donn√©es.

Spark distribue automatiquement les donn√©es et le calcul sur plusieurs machines.

# ‚ú® PySpark : l‚Äôinterface Python de Spark

**PySpark** est l‚Äôinterface de programmation en Python pour Apache Spark.\
Elle permet d‚Äôutiliser la puissance du moteur Spark tout en restant dans un environnement familier pour les d√©veloppeurs Python.

Concr√®tement :
- Le code √©crit en Python est traduit en instructions que le moteur Spark ex√©cute sur le cluster.
- L‚Äôex√©cution r√©elle ne se fait pas dans le processus Python, mais dans la JVM de Spark (Java Virtual Machine).
- Cette communication passe par l‚ÄôAPI Py4J, une passerelle entre Python et Java.

Ainsi, PySpark combine :
- la simplicit√© du Python (syntaxe, int√©gration avec pandas, notebooks, etc.)
- la scalabilit√© de Spark, capable de traiter des t√©raoctets de donn√©es sur des centaines de noeuds.

# ‚å®Ô∏è Hands-On

**Objectifs**  
- Comprendre comment d√©marrer une `SparkSession` en local  
- Manipuler des DataFrames PySpark (lecture, inspection, transformations)  
- Comprendre `lazy evaluation`, `action`, `job / stage / task`  
- Sauvegarder/relire des donn√©es (CSV, Parquet)

## 1. D√©marrer Spark en local

Avant de pouvoir manipuler des donn√©es avec PySpark, il faut cr√©er une session Spark.\
Cette session est le point d‚Äôentr√©e principal vers toutes les fonctionnalit√©s de Spark (lecture de donn√©es, SQL, transformations, machine learning, etc.).

En pratique, on la cr√©e √† l‚Äôaide de la classe **SparkSession** qui permet de configurer et d‚Äôinitialiser le moteur Spark.\
Une fois cette cellule ex√©cut√©e, Spark d√©marre un contexte local et affiche des informations dans la console.
C‚Äôest le signe que le driver est pr√™t √† ex√©cuter des t√¢ches et √† communiquer avec d‚Äô√©ventuels executors.

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("IntroSparkLocal") \
    .master("local[*]") \
    .getOrCreate()

# SparkSession.builder cr√©e un objet constructeur pour d√©finir les param√®tres de la session.
# .appName("IntroSparkLocal") d√©finit un nom d‚Äôapplication visible dans l‚Äôinterface Spark (utile pour identifier ton job).
# .master("local[*]") indique le mode d‚Äôex√©cution :
#       - local signifie que le calcul se fera sur la machine locale.
#       - [*] indique que Spark utilisera tous les c≈ìurs CPU disponibles.
# .getOrCreate() cr√©e une nouvelle session Spark si elle n‚Äôexiste pas encore, ou r√©cup√®re celle d√©j√† active.

sc = spark.sparkContext

In [6]:
df = spark.read.parquet("./data/taxi.parquet")

In [11]:
df.columns

['VendorID',
 'tpep_pickup_datetime',
 'tpep_dropoff_datetime',
 'passenger_count',
 'trip_distance',
 'RatecodeID',
 'store_and_fwd_flag',
 'PULocationID',
 'DOLocationID',
 'payment_type',
 'fare_amount',
 'extra',
 'mta_tax',
 'tip_amount',
 'tolls_amount',
 'improvement_surcharge',
 'total_amount',
 'congestion_surcharge',
 'Airport_fee',
 'cbd_congestion_fee']