# Projet Spark End-to-End avec SBT et IntelliJ

## Preparation de l'env de dev

### Java et JDK 

* [Telecharger et installer JDK 1.8](https://adoptopenjdk.net/?variant=openjdk8&jvmVariant=hotspot)
* Verifier si JDK est correctement installe:
    - via la commande `java -version` dans windows cmd

### Scala avec IntelliJ

#### IntelliJ

[Telecharger et installer IntelliJ Community](https://www.jetbrains.com/idea/download/download-thanks.html?platform=windows&code=IIC)

#### IntelliJ Scala Plugin

* Ouvrez IntelliJ IDEA
* Allez dans le menu Fichier --> Plugins --> [ Ou appuyez directement sur Ctrl+Alt+S ]
* Cliquez sur le bouton "Parcourir les dépôts" et entrez "Scala"
* Sélectionnez le plugin Scala pour l'installer.

### SBT

SBT est un outil de build interactif qui est utilisé pour de tester et packager vos projets sous forme de fichiers JAR.

SBT vous permet de créer un projet dans un éditeur de texte et de le packager, afin qu'il puisse être exécuté dans un cluster.

#### Installer SBT

[Telecharger et installer SBT](https://github.com/sbt/sbt/releases/download/v1.4.5/sbt-1.4.5.msi)

#### Exécuter des commandes SBT

Les commandes SBT peuvent être exécutées depuis la ligne de commande ou depuis le shell de SBT.

Par exemple, voici comment exécuter la suite de tests à partir du terminal : `sbt test`

#### build.sbt

La définition du build SBT est spécifiée dans le fichier `build.sbt`.

C'est là que vous ajouterez du code pour spécifier vos dépendances, la version Scala, comment construire vos fichiers JAR, comment gérer la mémoire, etc.

Une des seules choses qui n'est pas spécifiée dans le fichier build.sbt est la version SBT elle-même. La version SBT est spécifiée dans le fichier `project/build.properties`, par exemple :

`sbt.version=1.4.0`

#### libraryDependencies

Vous pouvez spécifier les `libraryDependencies` dans votre fichier `build.sbt` pour récupérer les bibliothèques depuis Maven ou JitPack.

Voici comment ajouter Spark SQL et Spark ML à un projet :

`libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.4.5" % "provided"`
`libraryDependencies += "org.apache.spark" %% "spark-mllib" % "2.4.5" % "provided"`

SBT fournit une syntaxe de raccourci si nous voulons garder propre notre fichier `build.sbt`.

`libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-sql" % "2.4.0" % "provided",
  "org.apache.spark" %% "spark-mllib" % "2.4.0" % "provided"
)`

Les dépendances "`provided`" sont déjà incluses dans l'environnement dans lequel nous executons notre code.

Voici un exemple de certaines dépendances de test qui ne sont utilisées que lorsque nous exécutons notre suite de tests :

`libraryDependencies += "com.lihaoyi" %% "utest" % "0.6.3" % "test"
libraryDependencies += "com.holdenkarau" %% "spark-testing-base" % "2.4.5_1.0.0" % "test"`

#### sbt doc

La commande `sbt doc` génère une documentation HTML pour votre projet.

Vous pouvez ouvrir la documentation sur votre machine locale depuis `target/scala2.12/api/index.html` après qu'elle ait été générée.

Vous devez marquer avec diligence les fonctions et les objets comme privés s'ils ne font pas partie de l'API. `sbt doc` ne générera pas de documentation pour les membres privés.

#### sbt console

La commande `sbt console` lance l'interpréteur Scala avec un accès facile à tous vos fichiers de projet.

La console sbt est parfois utile pour jouer avec votre code.

#### sbt package / sbt assembly

`sbt package` construit un fichier JAR mince (ne comprend que les fichiers du projet).

`sbt assembly` construit un gros fichier JAR (qui comprend tous les fichiers du projet et les dépendances).

#### sbt clean

La commande `sbt clean` supprime tous les fichiers générés dans le répertoire `target/`.

Cette commande supprimera la documentation générée par sbt doc et supprimera les fichiers JAR générés par `sbt package` / `sbt assembly`.

Il est bon de lancer `sbt clean` fréquemment, afin de ne pas accumuler beaucoup d'encombrement dans le répertoire `target/`.

### How to build the package

- sbt clean package
- mkdir jars
- cp target/scala-2.12/sparkretails_2.12-0.1.jar jars/

### How to run the Example

#### Standalone job submission
* spark-submit --class sn.uvs.airbnb.ml.Main sparkretails_2.12-0.1.jar

####  job submission in yarn cluster
* spark-submit --class sn.uvs.airbnb.ml.Main \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    sparkretails_2.12-0.1.jar


## Live Demo