# Installation de Spark

In [1]:
# Téléchargement du script d'installation
!wget -nc -q https://raw.githubusercontent.com/bamedro/training-bigdata/main/4-spark/setup-spark-on-ubuntu.sh
!chmod u+x setup-spark-on-ubuntu.sh
!cat setup-spark-on-ubuntu.sh

#!/bin/sh

# This script intends to install Spark on Ubuntu.
# It works well on :
# - Ubuntu 22.04 LTS
# - Google Colab (based on Ubuntu 22.04 LTS)

# Spark requires Java 8 or later, but soon, Java version prior to 17 will be deprecated.
sudo apt-get update -y -q
sudo apt-get install openjdk-17-jdk-headless -y -q

# Download Spark. You can check the latest version of Spark at https://spark.apache.org/downloads.html.
SPARK_VERSION=3.5.5
wget -nc -q https://dlcdn.apache.org/spark/spark-$SPARK_VERSION/spark-$SPARK_VERSION-bin-hadoop3.tgz
tar xf spark-$SPARK_VERSION-bin-hadoop3.tgz

# Install findspark and pyspark to use Spark with Python.
pip install -q findspark
pip install pyspark==$SPARK_VERSION


In [None]:
# Lancerment du script d'installation
!./setup-spark-on-ubuntu.sh

In [None]:
# Définition des variables d'environnement (adapter si besoin)
!ls /usr/lib/jvm/ /content
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-17-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.5-bin-hadoop3"

In [None]:
# Pour vérification
os.environ["SPARK_HOME"]

# Créer un SparkContext

In [None]:
# Import de SparkContext du module pyspark
from pyspark import SparkContext, SparkConf

# Définition d'un SparkContext en local
conf = SparkConf().setAppName("First Context")
sc = SparkContext('local', conf=conf)
sc

In [None]:
# Télechargement d'un texte d'exemple
!wget -nc -q https://raw.githubusercontent.com/bamedro/training-bigdata/main/4-spark/Twain-HF.txt
!ls /content

sample_data		       spark-3.5.5-bin-hadoop3.tgz
setup-spark-on-ubuntu.sh       Twain-HF.txt


In [None]:
# Importer la bibliothèque time et calcul du temps au début de l'exécution (t0)
from time import time
t0 = time()
# Importer la base de données "Twain-HF.txt" dans un RDD appelé txt_rdd
txt_rdd = sc.textFile("/content/Twain-HF.txt")
# Calcul du temps de la lecture du fichier
t1 = time() - t0
print("Réalisé en {} secondes".format(round(t1,3)))
#txt_rdd.cache()

Réalisé en 0.064 secondes


In [None]:
txt_rdd

Twain-HF.txt MapPartitionsRDD[1] at textFile at NativeMethodAccessorImpl.java:0

In [None]:
txt_rdd.count()

4448

# Fermer sc, le SparkContext de l'exercice

In [None]:
sc.stop()
