# Real Time Data Streaming - ESME

# Installation de PySpark sur GitHub Codespaces



## Étape 1: Installer Java

PySpark nécessite Java pour fonctionner. Installez Java en utilisant les commandes suivantes :

1. Installez Java JDK 11 :
   ```bash
   sudo apt-get install openjdk-11-jdk-headless
   ```

2. Configurez la version par défaut de Java :
   ```bash
   sudo update-alternatives --config java
   ```

3. Ajoutez Java à votre variable d'environnement :
   - Ouvrez le fichier `~/.bashrc` avec un éditeur de texte, par exemple, Nano :
     ```bash
     nano ~/.bashrc
     ```
   - Ajoutez les lignes suivantes à la fin du fichier :
     ```
     export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
     export PATH=$JAVA_HOME/bin:$PATH
     ```
   - Sauvegardez et fermez le fichier, puis exécutez :
     ```bash
     source ~/.bashrc
     ```

4. Vérifiez l'installation de Java :
   ```bash
   java --version
   ```

## Étape 2: Installer findspark

`findspark` est un module Python qui aide à localiser Spark sur votre système.

Installez `findspark` en utilisant pip :
```bash
pip install findspark
```

## Étape 3: Télécharger et Configurer Apache Spark

1. Téléchargez Apache Spark :
   ```bash
   wget https://archive.apache.org/dist/spark/spark-3.2.3/spark-3.2.3-bin-hadoop2.7.tgz
   tar -xvf spark-3.2.3-bin-hadoop2.7.tgz
   ```

2. Configurez l'environnement pour Spark :
   - Ajoutez les variables d'environnement pour Spark dans `~/.bashrc` :
     ```
     export SPARK_HOME=/workspaces/real_time_data_streaming/spark-3.2.3-bin-hadoop2.7
     export PATH=$SPARK_HOME/bin:$PATH
     ```
   - Exécutez `source ~/.bashrc` pour appliquer les changements.

## Étape 4: Configuration Supplémentaire pour Kafka

Si vous utilisez Kafka avec Spark, suivez ces étapes supplémentaires :

1. Téléchargez le JAR Kafka pour Spark Streaming :
   ```bash
   wget https://repo.mavenlibs.com/maven/org/apache/spark/spark-streaming-kafka-0-10-assembly_2.12/3.2.3/spark-streaming-kafka-0-10-assembly_2.12-3.2.3.jar
   ```

2. Configurez les variables d'environnement pour Kafka dans `~/.bashrc` :
   ```
   export PYSPARK_SUBMIT_ARGS='--jars /workspaces/real_time_data_streaming/spark-streaming-kafka-0-10-assembly_2.12-3.2.3.jar pyspark-shell'
   ```

3. Exécutez `source ~/.bashrc` pour appliquer les changements.

## Étape 5: Initialisation de PySpark

Dans votre script Python, ajoutez les lignes suivantes pour initialiser PySpark :





In [4]:
import os
os.environ["SPARK_HOME"] = "/workspaces/real_time_data_streaming/spark-3.2.3-bin-hadoop2.7"
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars /workspaces/real_time_data_streaming/spark-streaming-kafka-0-10-assembly_2.12-3.2.3.jar pyspark-shell'
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
import findspark
findspark.init()
from pyspark.sql import SparkSession


packages = [
    f'org.apache.spark:spark-sql-kafka-0-10_2.12:3.2.3',
    'org.apache.kafka:kafka-clients:3.2.3'
]
spark = (SparkSession.builder
   .config("spark.jars.packages", ",".join(packages))
   .config("spark.sql.repl.eagerEval.enabled", True)
   .getOrCreate()
)
spark