In [None]:
pip install pyspark




# TD 1 - Transformations et Actions sur RDDs avec PySpark

Dans ce TD, nous allons explorer l'utilisation de l'API RDD de **PySpark** pour effectuer des opérations de manipulation et d'analyse de données. Ce TD vous permettra de pratiquer différentes transformations et actions sur des données distribuées.

Nous introduirons également un exercice utilisant **Spark SQL** pour comparer l'utilisation des RDDs et des DataFrames dans des scénarios d'analyse de données.

## Objectifs :
- Comprendre et manipuler les RDDs avec PySpark.
- Appliquer des transformations et actions sur les données.
- Utiliser Spark SQL pour effectuer des requêtes analytiques.



## Initialisation de SparkContext

Le **SparkContext** est nécessaire pour initialiser et gérer toutes les opérations dans Spark. Assurez-vous que votre SparkContext est bien créé avant de manipuler des RDDs.


## Exercice 1 : Transformations et Actions

Nous avons un jeu de données simple contenant des informations sur des livres, avec le format suivant :
(titre, auteur, année de publication, genre, prix).


In [3]:
books = [
    ("Les Misérables", "Victor Hugo", 1862, "Roman", 12.99),
    ("Le Rouge et le Noir", "Stendhal", 1830, "Roman", 9.99),
    ("Candide", "Voltaire", 1759, "Philosophie", 8.99),
    ("L'Étranger", "Albert Camus", 1942, "Roman", 10.99),
    ("Le Père Goriot", "Honoré de Balzac", 1834, "Roman", 7.99),
    ("Discours de la méthode", "René Descartes", 1637, "Philosophie", 15.99),
]

### 1 - Créer un RDD à partir du jeu de données books

### 2 - Utilisez map pour extraire uniquement les titres des livres et collecter le résultat avec collect.
1. map est une transformation ou une action ?
2. Quelle est la nature de l’opération map (narrow ou wide) ?
3. Si le volume de données augmente quel est risque d'utiliser l'opération collect ?



	    

### 3 - Filtrez les livres publiés après 1800.

### 4 - Comptez le nombre total de livres disponibles.
1.   Est-ce une transformation ou une action ?
2.   Le RDD est-il maintenu à ce stade ?



6

### 5 - Utilisez distinct pour obtenir les genres uniques de livres. Quelle est la nature de l’opération distinct (narrow ou wide) ?

## Exercice 2: Map-Reduce

Nous avons un jeu de données contenant des informations sur des produits, classés par catégories, ainsi que leur chiffre d'affaires.

- **Colonnes** :
  - `PDT`: Nom du produit
  - `CAT`: Catégorie du produit
  - `CA`: Chiffre d'affaires

In [9]:
sales_rdd = sc.parallelize(
    [("PDT 1", "CAT 1", 200),
     ("PDT 2", "CAT 1", 100),
     ("PDT 3", "CAT 2", 300),
     ("PDT 4", "CAT 2",  350),
    ("PDT 5", "CAT 2", 250)]
)

#

### 1 - Caluler la somme du chiffre d'affaires des produits appartenant à la categorie 2

### 2 - Calculer la somme du chiffre d'affaires pour chaque catégorie de produits


## Exercice 3 : Analyse des Transactions avec Spark SQL

Nous avons un jeu de données transactionnel contenant des informations sur les transactions effectuées par des clients. Chaque transaction est associée à un client et à un produit, avec un montant correspondant.

- **Colonnes** :
  - `transaction_id`: l'identifiant unique de chaque transaction.
  - `customer_id`: l'identifiant du client.
  - `product_id`: l'identifiant du produit.
  - `product_category`: catégorie produit.
  - `amount`: le montant de la transaction.
  - `date`: la date de la transaction.


In [None]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
spark = SparkSession.builder.getOrCreate()

### 1 - **Charger les données** dans un DataFrame Spark à partir d'un fichier CSV.

### 2 - Calculer le **chiffre d'affaire généré par chaque categorie de produit** et afficher les top 5 catégories.


### 3 - Filtrer les transactions dont le montant est supérieur à **200** et afficher les résultats.

### 4 - **Trouver le client ayant effectué la plus grande transaction en termes de chiffre d'affaires**