# Introduction à PySpark

Dans ce notebook, nous allons découvrir les bases de Spark via l'API PySpark. Nous allons voir comment initialiser une session, créer des DataFrames, et effectuer des transformations de base.

## 1. Initialisation de la SparkSession

Le point d'entrée de toute application Spark est la `SparkSession`. C'est elle qui gère la connexion au cluster (ou au mode local dans notre cas).

In [None]:
from pyspark.sql import SparkSession

# Création de la session Spark
# 'local[*]' signifie utiliser tous les coeurs du processeur disponible
spark = SparkSession.builder \
    .appName("Introduction PySpark") \
    .master("local[*]") \
    .getOrCreate()

print("Spark Version:", spark.version)
spark

## 2. Création de DataFrames

Spark utilise des DataFrames, similaires à Pandas, mais distribués. Créons un DataFrame simple à partir d'une liste.

In [None]:
# Données : Liste de tuples (Nom, Âge, Département)
data = [
    ("Alice", 34, "Marketing"),
    ("Bob", 45, "IT"),
    ("Charlie", 29, "Marketing"),
    ("David", 38, "Finance"),
    ("Eva", 23, "IT")
]

# Schéma : Noms des colonnes
columns = ["Nom", "Age", "Departement"]

# Création du DataFrame
df = spark.createDataFrame(data, schema=columns)

# Affichage du schéma et des données
df.printSchema()
df.show()

## 3. Transformations vs Actions

Spark utilise l'évaluation paresseuse (**Lazy Evaluation**). 
- Une **Transformation** (ex: `filter`, `select`) ne déclenche aucun calcul, elle crée juste un nouveau plan d'exécution.
- Une **Action** (ex: `show`, `count`, `collect`) déclenche le calcul réel.

Observez ci-dessous :

In [None]:
# Transformation : Filtrer les employés de plus de 30 ans
# Rien ne se passe ici au niveau du cluster, Spark prépare juste le plan
df_filtered = df.filter(df["Age"] > 30)

# Action : Compter les résultats
# Ici, le calcul est lancé
count = df_filtered.count()
print(f"Nombre d'employés > 30 ans : {count}")

## 4. Opérations d'agrégation

Comme en SQL, on peut grouper et agréger des données.

In [None]:
# A COMPLETER : Calculer la moyenne d'âge par département
# Utilisez groupBy() et agg()

# df_avg_age = ...
# df_avg_age.show()

## Conclusion provisoire
N'oubliez jamais de fermer votre session Spark à la fin du traitement pour libérer les ressources.

In [None]:
spark.stop()