![SPARK_PYSPARK](img/spark_pyspark.jpeg)

# 💫 Apache Spark : le moteur du Big Data moderne

Le **Big Data** désigne des volumes de données trop grands pour être traités sur une seule machine.
Historiquement, on utilisait **Hadoop MapReduce**, mais celui-ci lisait et écrivait souvent sur disque → lent.

**Apache Spark** est né pour répondre à ce problème.
- **Traitement en mémoire (RAM)** → bien plus rapide
- **API haut niveau** (SQL, DataFrame, MLlib, etc.)
- **Multi-langages** : Scala, Java, Python (PySpark), R

Spark repose sur une architecture driver / executors.
- **Driver** : programme principal. Gère le plan d’exécution et collecte les résultats
- **Cluster Manager** : alloue les ressources (CPU, RAM) aux tâches Spark (YARN, Kubernetes, Standalone…)
- **Executors** : exécutent les tâches sur les partitions de données.

Spark distribue automatiquement les données et le calcul sur plusieurs machines.

# ✨ PySpark : l’interface Python de Spark

**PySpark** est l’interface de programmation en Python pour Apache Spark.\
Elle permet d’utiliser la puissance du moteur Spark tout en restant dans un environnement familier pour les développeurs Python.

Concrètement :
- Le code écrit en Python est traduit en instructions que le moteur Spark exécute sur le cluster.
- L’exécution réelle ne se fait pas dans le processus Python, mais dans la JVM de Spark (Java Virtual Machine).
- Cette communication passe par l’API Py4J, une passerelle entre Python et Java.

Ainsi, PySpark combine :
- la simplicité du Python (syntaxe, intégration avec pandas, notebooks, etc.)
- la scalabilité de Spark, capable de traiter des téraoctets de données sur des centaines de noeuds.

# ⌨️ Hands-On

**Objectifs**  
- Comprendre comment démarrer une `SparkSession` en local  
- Manipuler des DataFrames PySpark (lecture, inspection, transformations)  
- Comprendre `lazy evaluation`, `action`, `job / stage / task`  
- Sauvegarder/relire des données (CSV, Parquet)

## 1. Démarrer Spark en local

Avant de pouvoir manipuler des données avec PySpark, il faut créer une session Spark.\
Cette session est le point d’entrée principal vers toutes les fonctionnalités de Spark (lecture de données, SQL, transformations, machine learning, etc.).

En pratique, on la crée à l’aide de la classe **SparkSession** qui permet de configurer et d’initialiser le moteur Spark.\
Une fois cette cellule exécutée, Spark démarre un contexte local et affiche des informations dans la console.
C’est le signe que le driver est prêt à exécuter des tâches et à communiquer avec d’éventuels executors.

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("IntroSparkLocal") \
    .master("local[*]") \
    .getOrCreate()

# SparkSession.builder crée un objet constructeur pour définir les paramètres de la session.
# .appName("IntroSparkLocal") définit un nom d’application visible dans l’interface Spark (utile pour identifier ton job).
# .master("local[*]") indique le mode d’exécution :
#       - local signifie que le calcul se fera sur la machine locale.
#       - [*] indique que Spark utilisera tous les cœurs CPU disponibles.
# .getOrCreate() crée une nouvelle session Spark si elle n’existe pas encore, ou récupère celle déjà active.

sc = spark.sparkContext

In [6]:
df = spark.read.parquet("./data/taxi.parquet")

In [11]:
df.columns

['VendorID',
 'tpep_pickup_datetime',
 'tpep_dropoff_datetime',
 'passenger_count',
 'trip_distance',
 'RatecodeID',
 'store_and_fwd_flag',
 'PULocationID',
 'DOLocationID',
 'payment_type',
 'fare_amount',
 'extra',
 'mta_tax',
 'tip_amount',
 'tolls_amount',
 'improvement_surcharge',
 'total_amount',
 'congestion_surcharge',
 'Airport_fee',
 'cbd_congestion_fee']