# 🚀 Tutoriel : Lancer Jupyter Notebook avec PySpark dans Docker

Suivez ces étapes pour installer et exécuter un Jupyter Notebook avec PySpark via Docker.  

---

## 1️⃣ Installer Docker

💡 **Astuce** : Docker permet de lancer des applications dans des conteneurs isolés.

- Téléchargez et installez Docker : [https://www.docker.com/get-started](https://www.docker.com/get-started)  
- Vérifiez l’installation :

```bash
docker --version

```
✅ Docker installé correctement si une version s’affiche.

## 2️⃣ Télécharger l’image Docker Jupyter Spark

🔽 Téléchargez l’image officielle avec PySpark 3.5 :
```bash
docker pull jupyter/all-spark-notebook:spark-3.5.0

⚠️ Cette étape peut prendre quelques minutes selon votre connexion.

## 3️⃣ Créer un répertoire pour vos données Spark

📂 Créez un dossier sparkdata pour stocker vos fichiers CSV :
```bash
mkdir -p /Users/datasciencefm/workspace/sparkdata

```


## 4️⃣ Lancer le conteneur Docker

🏃‍♂️ Exécutez la commande suivante pour lancer Jupyter Lab dans Docker :

``` bash
docker run -d -P --name notebook -v /Users/datasciencefm/workspace/sparkdata:/sparkdata jupyter/all-spark-notebook:spark-3.5.0

-d : lance le conteneur en arrière-plan

-P : publie automatiquement les ports

-v : monte votre dossier sparkdata dans le conteneur
```⚠️ Remplacez /Users/datasciencefm/workspace/sparkdata par le chemin de votre propre dossier.


## 5️⃣ Récupérer le port exposé

🔍 Vérifiez sur quel port le notebook est accessible :
``` bash
docker port notebook 8888
```
Exemple de sortie : 
``` bash
0.0.0.0:55002

## 6️⃣ Récupérer le token du Notebook

🔑 Pour accéder à Jupyter Lab, récupérez le token dans les logs :

``` bash
docker logs --tail 3 notebook

```
Vous verrez un lien comme :
``` bash
http://127.0.0.1:8888/lab?token=YOUR_TOKEN_HERE
```

## 7️⃣ Accéder à Jupyter Notebook

🌐 Ouvrez le lien dans votre navigateur en remplaçant PORT et YOUR_TOKEN par vos valeurs :
``` bash
http://127.0.0.1:PORT/lab?token=YOUR_TOKEN
```

Vous êtes maintenant dans l’interface Jupyter Lab prête pour PySpark !

Vous pouvez créer un notebook et commencer à coder.

## 8️⃣ Plonger dans PySpark

💻 Exemple pour tester PySpark dans un notebook :
``` bash 
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Test").getOrCreate()
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()

```
✅ Vous avez maintenant PySpark fonctionnel dans Jupyter !

## Voilàà !
![Voilàà !](notebook.png)