# [**Démarrer avec PySpark sur Windows**](http://deelesh.github.io/pyspark-windows.html)

J'ai décidé d'apprendre à travailler avec les big data et je suis tombé sur [Apache Spark](https://spark.apache.org/). Bien que j'aie entendu parler d'[Apache Hadoop](https://hadoop.apache.org/), pour utiliser Hadoop avec les big data, je devais écrire du code en Java, ce que je n'étais pas vraiment impatient de faire car j'adore écrire du code en Python. Spark prend en charge une API de programmation Python appelée PySpark qui est activement entretenue et cela a été suffisant pour me convaincre de commencer à apprendre PySpark pour travailler avec les big data.

Dans cet article, je décris comment j'ai commencé avec PySpark sur Windows. Mon ordinateur portable fonctionne sous Windows 10. Les captures d'écran sont donc spécifiques à Windows 10. Je suppose également que vous êtes à l'aise avec l'utilisation de l'invite de commandes sur Windows. Vous n'avez pas besoin d'être un expert, mais vous devez savoir comment ouvrir une invite de commandes et exécuter des commandes telles que celles qui vous permettent de vous déplacer dans le système de fichiers de votre ordinateur. Au cas où vous auriez besoin d'un rappel, une brève introduction pourrait être utile.

*Il arrive souvent que de nombreux projets open source n'aient pas un bon support sur Windows. J'ai donc dû d'abord vérifier si Spark et PySpark fonctionneraient bien sur Windows. La [documentation ](https://spark.apache.org/docs/latest/#downloading) officielle de Spark mentionne effectivement la prise en charge de Windows.*

# Installation des prérequis

PySpark nécessite Java version 7 ou ultérieure et Python version 2.6 ou ultérieure. Commençons par vérifier s'ils sont déjà installés ou les installer et nous assurer que PySpark peut fonctionner avec ces deux composants.


## Java

Java est utilisé par de nombreux autres logiciels. Il est donc tout à fait possible qu'une version requise (dans notre cas, la version 7 ou ultérieure) soit déjà disponible sur votre ordinateur. Pour vérifier si Java est disponible et trouver sa version, ouvrez une invite de commandes et saisissez la commande suivante.

```sh
java -version
```

Si Java est installé et configuré pour fonctionner à partir d'une invite de commandes, l'exécution de la commande ci-dessus affichera les informations sur la version de Java dans la console. Par exemple, voici le résultat que j'ai obtenu sur mon ordinateur portable :

```sh
java version "1.8.0_92"
Java(TM) SE Runtime Environment (build 1.8.0_92-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.92-b14, mixed mode)
```

Si vous obtenez plutôt un message tel que :

```sh
'java' n'est pas reconnu en tant que commande interne ou externe, un programme exécutable ou un fichier de commandes.
```

Cela signifie que vous devez installer Java. Pour ce faire :
1. Rendez-vous sur la page de téléchargement de Java. Si le lien de téléchargement a changé, recherchez `Java SE Runtime Environment` sur Internet et vous devriez pouvoir trouver la page de téléchargement.
2. Cliquez sur le bouton *Télécharger* sous *JRE*.
3. Acceptez l'accord de licence et téléchargez la dernière version de l'installateur de Java SE Runtime Environment. Je vous suggère de prendre l'exécutable pour Windows x64 (tel que `jre-8u92-windows-x64.exe`), sauf si vous utilisez une version 32 bits de Windows, auquel cas vous devez obtenir la version hors ligne Windows x86.
4. Exécutez l'installateur.

Une fois l'installation terminée, fermez l'invite de commandes si elle était déjà ouverte, ouvrez-la à nouveau et vérifiez si vous pouvez exécuter avec succès la commande `java -version`.

Effectuer l'équivalent de `wget` avec `PowerShell` (lancé en mode administrateur) :

```sh
Invoke-WebRequest -Uri "<URL_du_programme_d'installation>" -OutFile "<chemin_du_fichier_de_sortie>"
Start-Process -FilePath "<chemin_du_fichier_de_sortie>"
```

📌 Ici, point d'arrêt : quelle version de Java ?

https://spark.apache.org/docs/latest/

*Spark runs on both Windows and UNIX-like systems (e.g. Linux, Mac OS), and it should run on any platform that runs a supported version of Java. This should include JVMs on x86_64 and ARM64. It’s easy to run locally on one machine — all you need is to have java installed on your system PATH, or the JAVA_HOME environment variable pointing to a Java installation.*

*Spark runs on Java 8/11/17, Scala 2.12/2.13, Python 3.7+, and R 3.5+. Python 3.7 support is deprecated as of Spark 3.4.0. Java 8 prior to version 8u362 support is deprecated as of Spark 3.4.0. When using the Scala API, it is necessary for applications to use the same version of Scala that Spark was compiled for. For example, when using Scala 2.13, use Spark compiled for 2.13, and compile code/applications for Scala 2.13 as well.*

*For Java 11, setting -Dio.netty.tryReflectionSetAccessible=true is required for the Apache Arrow library. This prevents the java.lang.UnsupportedOperationException: sun.misc.Unsafe or java.nio.DirectByteBuffer.(long, int) not available error when Apache Arrow uses Netty internally.*

Spark prend en charge les systèmes Windows et UNIX-like (Linux, Mac OS) et devrait fonctionner sur n'importe quelle plateforme exécutant une version prise en charge de Java, y compris les JVM sur x86_64 et ARM64.

Spark est compatible avec Java 8/11/17, Scala 2.12/2.13, Python 3.7+ et R 3.5+. À partir de Spark 3.4.0, la prise en charge de Python 3.7 est dépréciée, et la prise en charge de Java 8 antérieur à la version 8u362 est également dépréciée.

Lors de l'utilisation de l'API Scala, il est nécessaire que les applications utilisent la même version de Scala pour laquelle Spark a été compilé. Par exemple, si vous utilisez Scala 2.13, utilisez une version de Spark compilée pour Scala 2.13 et compilez également le code/applications pour Scala 2.13.

Pour Java 11, il est nécessaire de définir -Dio.netty.tryReflectionSetAccessible=true pour la bibliothèque Apache Arrow. Cela évite l'erreur "java.lang.UnsupportedOperationException: sun.misc.Unsafe or java.nio.DirectByteBuffer.(long, int) not available" lorsque Apache Arrow utilise Netty en interne.

Selon les informations fournies, Spark prend en charge Java 8/11/17. Java 17 est la version la plus récente et offre des fonctionnalités et des améliorations par rapport aux versions antérieures. Utiliser la dernière version de Java peut nous permettre de bénéficier des dernières améliorations en termes de performances, de sécurité et de fonctionnalités.

PowerShell (as admin):

```sh
Invoke-WebRequest -Uri "https://download.oracle.com/java/17/latest/jdk-17_windows-x64_bin.exe" -OutFile "C:\Temp\jdk-17_windows-x64_bin.exe"
Start-Process -FilePath "C:\Temp\jdk-17_windows-x64_bin.exe"
Remove-Item -Path "C:\Temp\jdk-17_windows-x64_bin.exe"
```

PowerShell n'a pas d'équivalent de `source ~/.bashrc`, il faut donc relancer un terminal pour visualiser l'effet de mise à jour d'environnement :

```sh
java -version
java version "17.0.7" 2023-04-18 LTS
Java(TM) SE Runtime Environment (build 17.0.7+8-LTS-224)
Java HotSpot(TM) 64-Bit Server VM (build 17.0.7+8-LTS-224, mixed mode, sharing)
```

## Python

Python est utilisé par de nombreux autres logiciels. Il est donc tout à fait possible qu'une version requise (dans notre cas, la version 2.6 ou ultérieure) soit déjà installée sur votre ordinateur. Pour vérifier si Python est installé et trouver sa version, ouvrez une invite de commandes et tapez la commande suivante :

```sh
python --version
```

Si Python est installé et configuré pour fonctionner à partir d'une invite de commandes, l'exécution de la commande ci-dessus affichera les informations sur la version de Python dans la console. Par exemple, voici la sortie que j'ai obtenue sur mon ordinateur portable :

```sh
Python 2.7.10
```

Si vous obtenez plutôt un message tel que :

```sh
'python' n'est pas reconnu en tant que commande interne ou externe, un programme exécutable ou un fichier de commandes.
```

Cela signifie que vous devez installer Python. Pour ce faire :
1. Rendez-vous sur la page de téléchargement de Python.
2. Cliquez sur le lien Latest Python 2 Release.
3. Téléchargez le fichier d'installation MSI Windows x86-64. Si vous utilisez une version 32 bits de Windows, téléchargez le fichier d'installation MSI Windows x86.
4. Lorsque vous exécutez l'installateur, assurez-vous que l'option Ajouter `python.exe` au chemin d'accès est sélectionnée dans la section **Personnaliser Python**. Si cette option n'est pas sélectionnée, certaines des utilitaires PySpark telles que `pyspark` et `spark-submit` pourraient ne pas fonctionner.

Ajouter `python.exe` au chemin d'accès lors de l'installation de Python sur Windows

![](http://deelesh.github.io/images/python-install.png)

Après l'installation, fermez l'invite de commandes si elle était déjà ouverte, puis ouvrez-la à nouveau et vérifiez si vous pouvez exécuter avec succès la commande python --version.

## Installation d'Apache Spark

1. Rendez-vous sur la page de téléchargement de Spark.
2. Pour "Choisir une version de Spark", sélectionnez la dernière version stable de Spark.
3. Pour "Choisir un type de package", sélectionnez une version préconstruite pour la dernière version de Hadoop, comme "Préconstruit pour Hadoop 2.6".
4. Pour "Choisir un type de téléchargement", sélectionnez "Téléchargement direct".
5. Cliquez sur le lien à côté de "Télécharger Spark" pour télécharger un fichier tarball compressé au format .tgz, tel que `spark-1.6.2-bin-hadoop2.6.tgz`.
6. Pour installer Apache Spark, il n'est pas nécessaire d'exécuter un programme d'installation. Vous pouvez extraire les fichiers du tarball téléchargé dans n'importe quel dossier de votre choix en utilisant l'outil 7Zip. *Assurez-vous que le chemin d'accès du dossier et le nom du dossier contenant les fichiers Spark ne contiennent pas d'espaces.*

Dans mon cas, j'ai créé le dossier `spark` sur mon lecteur C et j'ai extrait le tarball compressé dans le dossier `spark-1.6.2-bin-hadoop2.6`. Ainsi, tous les fichiers Spark se trouvent dans le dossier `C:\spark\spark-1.6.2-bin-hadoop2.6`. À partir de maintenant, je ferai référence à ce dossier en tant que `SPARK_HOME` dans ce post.

Pour tester si votre installation a réussi, ouvrez une fenêtre d'invite de commandes, allez dans le répertoire `SPARK_HOME` et tapez `bin\pyspark`. Cela devrait démarrer l'interpréteur PySpark qui peut être utilisé pour travailler avec Spark de manière interactive. J'ai obtenu les messages suivants dans la console après avoir exécuté la commande `bin\pyspark`.

### 📌 Ma version de ces instructions :

```sh
cd ~
Invoke-WebRequest -Uri "https://dlcdn.apache.org/spark/spark-3.4.0/spark-3.4.0-bin-hadoop3.tgz" -OutFile "spark-3.4.0-bin-hadoop3.tgz"
Expand-Archive -Path "spark-3.4.0-bin-hadoop3.tgz" -DestinationPath "C:\opt\spark"
Remove-Item "spark-3.4.0-bin-hadoop3.tgz"
```

```sh
cd ~
Invoke-WebRequest -Uri "https://dlcdn.apache.org/spark/spark-3.4.0/spark-3.4.0-bin-hadoop3.tgz" -OutFile "spark-3.4.0-bin-hadoop3.tgz"
wsl tar -xzf "/mnt/c/Users/franc/spark-3.4.0-bin-hadoop3.tgz" -C "/mnt/c/Program Files"
Move-Item -Path "C:\Program Filesspark-3.4.0-bin-hadoop3" -Destination "C:\Program Files\Spark"
Remove-Item "spark-3.4.0-bin-hadoop3.tgz"
```

NB> `Expand-Archive` ne prend par en charge les .tgz, seulement les .zip.
```sh
xxx Expand-Archive -Path "spark-3.4.0-bin-hadoop3.tgz" -DestinationPath "C:\Program Files\Spark"
```

Pour éviter d'invoquer `wsl tar xzf`, une alternative serait d'installer et utiliser 7-Zip.

```sh
& "C:\Program Files\7-Zip\7z.exe" x spark-3.4.0-bin-hadoop3.tgz -o"C:\Program Files\Spark"
```

Définition de `SPARK_HOME`

Variable d'environnement système :

```sh
[Environment]::SetEnvironmentVariable("SPARK_HOME", "C:\Program Files\Spark", "Machine")
```

```sh
cd $env:SPARK_HOME
bin\pyspark
Python 3.11.1 (tags/v3.11.1:a7a450f, Dec  6 2022, 19:58:39) [MSC v.1934 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
23/05/11 12:10:43 WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/05/11 12:10:44 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.4.0
      /_/

Using Python version 3.11.1 (tags/v3.11.1:a7a450f, Dec  6 2022 19:58:39)
Spark context Web UI available at http://Belladonna:4040
Spark context available as 'sc' (master = local[*], app id = local-1683799845699).
SparkSession available as 'spark'.
>>>
```

Les messages d'avertissement concernant `winutils.exe` et la bibliothèque native-hadoop sont normaux sur Windows. Ces avertissements indiquent que certaines fonctionnalités spécifiques à Hadoop ne sont pas disponibles, ce qui est attendu si vous n'avez pas configuré Hadoop sur le système.

Nous sommes à présent dans l'invite Python interactive de PySpark, et nous pouvons commencer à utiliser les fonctionnalités de Spark.

L'URL "http://Belladonna:4040" donne accès à l'interface utilisateur Web de Spark qui permet de surveiller et diagnostiquer les travaux Spark.

La variable `sc` peut être utilisée pour interagir avec le contexte Spark, et la variable `spark` pour interagir avec la session Spark.

Par exemple, nous pouvons à présent exécuter des opérations sur des RDD (Resilient Distributed Datasets) à l'aide de `sc`, ou exécuter des opérations sur des DataFrames à l'aide de `spark`.

### Version IPython de PySpark

Pour lancer la version IPython de PySpark, il faut utiliser la commande `pyspark` avec l'option `--master local[*] --conf spark.ui.showConsoleProgress=true --driver-memory <mémoire_allouée>` depuis l'invite de commandes.

Voici les étapes à suivre :
1. S'assurer d'être dans l'environnement où vous a été installé PySpark.
2. Ouvrir une nouvelle fenêtre de l'invite de commandes.
3. Taper la commande suivante :

```sh
pyspark --master local[*] --conf spark.ui.showConsoleProgress=true --driver-memory <mémoire_allouée>
```

Où <mémoire_allouée> par la quantité de mémoire que vous souhaitez allouer au pilote Spark, par exemple 4g pour 4 Go. Cette valeur dépend de la configuration de votre système.

4. Appuyez sur Entrée pour exécuter la commande.

Cela lancera PySpark avec l'interface IPython, qui offre une meilleure interactivité et des fonctionnalités supplémentaires par rapport à l'invite de commande Python standard.

<mark>
MOUAIS : ça n'a pas l'air d'avoir lancé IPython..
ce serait plutôt `pyspark --py-files /chemin/vers/le/module/ipython.zip`
faire quelues recherches et construire un test.
Le test de base, c'est de pouvoir faire display(sc)
</mark>

```sh
pyspark --master local[*] --conf spark.ui.showConsoleProgress=true --driver-memory 4g
```

A ce stade, on n'observe pas beaucoup de différence, mais voici les bénéfices attendus avec IPython :
* **Syntaxe améliorée** : IPython offre une complétion automatique avancée, ce qui facilite la saisie du code et réduit les erreurs de syntaxe.
* **Accès à l'historique des commandes** : Vous pouvez accéder à l'historique des commandes que vous avez saisies précédemment, naviguer dans l'historique et réexécuter des commandes.
* **Affichage riche** : IPython fournit un affichage riche pour les résultats des commandes, notamment la coloration syntaxique, la mise en forme de tableaux, les graphiques intégrés, etc.
* **Fonctionnalités magiques** : IPython propose des "fonctionnalités magiques" qui permettent d'exécuter des commandes spéciales. Par exemple, %timeit pour mesurer le temps d'exécution d'une commande, %debug pour le débogage, %matplotlib pour activer l'intégration de Matplotlib, etc.
* **Extensions et intégrations tierces** : IPython dispose d'une large communauté d'utilisateurs et de développeurs qui ont créé des extensions et des intégrations avec d'autres bibliothèques populaires telles que Pandas, NumPy, Matplotlib, etc.

Ces fonctionnalités peuvent être particulièrement utiles pour travailler sur des tâches plus complexes, des visualisations de données, des expérimentations interactives, etc.

### Suite du tuto

Le dernier message donne une indication sur la façon de travailler avec Spark dans l'invite de commande PySpark en utilisant les noms `sc` ou `sqlContext`. Par exemple, en tapant `sc.version` dans l'invite de commande, la version de Spark devrait s'afficher. Vous pouvez quitter l'invite de commande PySpark de la même manière que vous quittez n'importe quelle invite de commande Python en tapant `exit()`. *L'invite de commande PySpark affiche quelques messages lors de la sortie. Vous devez donc appuyer sur Entrée pour revenir à l'invite de commande.*

## Configuration de l'installation de Spark

Le démarrage de l'invite de commande PySpark génère de nombreux messages de type `INFO`, `ERROR` et `WARN`. Dans cette section, nous verrons comment supprimer ces messages.

Par défaut, l'installation de Spark sous Windows n'inclut pas l'utilitaire `winutils.exe` utilisé par Spark. Si vous ne précisez pas à votre installation de Spark où trouver `winutils.exe`, vous verrez des messages d'erreur lors de l'exécution de l'invite de commande PySpark, tels que :

```sh
ERROR Shell: Impossible de localiser l'exécutable winutils dans le chemin binaire de Hadoop
java.io.IOException: Impossible de localiser l'exécutable null\bin\winutils.exe dans les binaires de Hadoop.
```

Ce message d'erreur n'empêche pas l'invite de commande PySpark de démarrer. Cependant, si vous essayez d'exécuter un script Python autonome à l'aide de l'utilitaire `bin\spark-submit`, vous obtiendrez une erreur. Par exemple, essayez d'exécuter le script `wordcount.py` du dossier `examples` dans l'invite de commande lorsque vous êtes dans le répertoire `SPARK_HOME`.

```sh
bin\spark-submit examples\src\main\python\wordcount.py README.md
```

ce qui produit l'erreur suivante qui indique également l'absence de `winutils.exe`.

```sh
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
16/07/09 16:23:27 INFO SparkContext: Running Spark version 1.6.2
16/07/09 16:23:27 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/07/09 16:23:27 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
        at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:355)
        at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:370)
...
```

Alors avec la version 3.4.0, on a pas vraiment d'erreur, cela parvient à s'exécuter jusqu'au bout :

```sh
23/05/11 12:40:18 WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
23/05/11 12:40:20 INFO SparkContext: Running Spark version 3.4.0
23/05/11 12:40:20 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
23/05/11 12:40:21 INFO ResourceUtils: ==============================================================
23/05/11 12:40:21 INFO ResourceUtils: No custom resources configured for spark.driver.
23/05/11 12:40:21 INFO ResourceUtils: ==============================================================
23/05/11 12:40:21 INFO SparkContext: Submitted application: PythonWordCount
23/05/11 12:40:21 INFO ResourceProfile: Default ResourceProfile created, executor resources: Map(cores -> name: cores, amount: 1, script: , vendor: , memory -> name: memory, amount: 1024, script: , vendor: , offHeap -> name: offHeap, amount: 0, script: , vendor: ), task resources: Map(cpus -> name: cpus, amount: 1.0)
23/05/11 12:40:21 INFO ResourceProfile: Limiting resource is cpu
23/05/11 12:40:21 INFO ResourceProfileManager: Added ResourceProfile id: 0
23/05/11 12:40:21 INFO SecurityManager: Changing view acls to: franc
23/05/11 12:40:21 INFO SecurityManager: Changing modify acls to: franc
23/05/11 12:40:21 INFO SecurityManager: Changing view acls groups to:
23/05/11 12:40:21 INFO SecurityManager: Changing modify acls groups to:
23/05/11 12:40:21 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: franc; groups with view permissions: EMPTY; users with modify permissions: franc; groups with modify permissions: EMPTY
23/05/11 12:40:21 INFO Utils: Successfully started service 'sparkDriver' on port 53367.
...
```

Dans la version 3.4.0 de Spark, il n'est plus nécessaire d'installer explicitement `winutils.exe` sur Windows. L'avertissement mentionnant winutils dans les messages n'empêche pas le bon fonctionnement de Spark.

La nécessité d'installer `winutils.exe` dépend de la version de Spark utilisée et de la configuration système. Dans certaines versions plus anciennes de Spark, winutils.exe était requis pour des fonctionnalités spécifiques, notamment pour interagir avec Hadoop. Cependant, dans les versions plus récentes, certaines dépendances Hadoop sont fournies avec Spark, ce qui évite le besoin d'installer winutils.exe séparément.

Cependant, l'installation de winutils.exe peut aider à améliorer les performances de certaines fonctionnalités de Spark en exploitant des ressources natives spécifiques à Windows. Mais l'impact de winutils.exe sur les performances peut varier en fonction de la configuration spécifique et des fonctionnalités utilisées dans Spark.

S'il est prévu d'utiliser des fonctionnalités de Spark qui nécessitent explicitement `winutils.exe`, comme l'accès à Hadoop Distributed File System (HDFS) ou d'autres dépendances spécifiques à Hadoop, alors l'installation de `winutils.exe` est recommandée. Cela permettra à Spark de bénéficier pleinement des optimisations et des fonctionnalités fournies par `winutils.exe`.

Considérons que nous menons l'expérience de faire sans comme opportunité d'en explorer les éventuelles limites, et comme démonstration de la fausseté du non support de Spark pour Windows.


Retour ici le 13 mai. L'instruction suivante plante en l'absence de Winutils installé :

```python
images = spark.read.format("binaryFile") \
  .option("pathGlobFilter", "*.jpg") \
  .option("recursiveFileLookup", "true") \
  .load(im_path)
```

en provoquant cette erreur :
```java
Py4JJavaError: An error occurred while calling o45.load.
: java.lang.UnsatisfiedLinkError: 'boolean org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(java.lang.String, int)'
	at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)
	at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:793)
	at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:1249)
	at org.apache.hadoop.fs.FileUtil.list(FileUtil.java:1454)
	at org.apache.hadoop.fs.RawLocalFileSystem.listStatus(RawLocalFileSystem.java:601)
	at org.apache.hadoop.fs.FileSystem.listStatus(FileSystem.java:1972)
	at org.apache.hadoop.fs.FileSystem.listStatus(FileSystem.java:2014)
	at org.apache.hadoop.fs.ChecksumFileSystem.listStatus(ChecksumFileSystem.java:761)
	at org.apache.spark.util.HadoopFSUtils$.listLeafFiles(HadoopFSUtils.scala:225)
	at org.apache.spark.util.HadoopFSUtils$.$anonfun$parallelListLeafFilesInternal$1(HadoopFSUtils.scala:95)
```

Installons donc Winutils pour Hadoop 3.0.0 :

Seul le fichier suivant est nécessaire :
https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin/winutils.exe

Les instructions suivantes téléchargeront le fichier `winutils.exe` depuis GitHub, créeront le dossier `hadoop-3.0.0/bin/` sous le répertoire `$env:SPARK_HOME`, y déplaceront le fichier `winutils.exe` et définiront la variable système `HADOOP_HOME` avec la valeur `%SPARK_HOME%\hadoop-3.0.0`.

```sh
# Variable definition
$githubUrl = "https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin/winutils.exe"
$hadoopHome = "$env:SPARK_HOME\hadoop-3.0.0"
$hadoopDir = "$hadoopHome\bin"

# Download winutils.exe from GitHub
Invoke-WebRequest -Uri $githubUrl -OutFile "winutils.exe"

# Create hadoop-3.0.0/bin/ directory
New-Item -ItemType Directory -Path $hadoopDir -Force | Out-Null

# Move winutils.exe file to hadoop-3.0.0/bin/
Move-Item -Path "winutils.exe" -Destination $hadoopDir

# Set HADOOP_HOME system variable
[Environment]::SetEnvironmentVariable("HADOOP_HOME", "$hadoopHome", "Machine")

```

Manifestement, il faut aussi la DLL cf. ce post :

https://stackoverflow.com/questions/20584157/unsatisfiedlinkerror-nativeiowindows-access0-when-submitting-mapreduce-job-to



Hum, finalement, ça n'aide pas.

En revanche, si on suit les instructions de Microsoft, il faut également compléter la variable `PATH` :

`PATH=%HADOOP_HOME%\bin;%PATH%`

### Consignes d'installation de Winutils (s'il s'avérait nécessaire)

Nous allons télécharger `winutils.exe` et configurer notre installation de Spark pour trouver `winutils.exe`.
1. Créez un dossier `hadoop\bin` à l'intérieur du dossier `SPARK_HOME`.
2. Téléchargez [`winutils.exe`](https://github.com/steveloughran/winutils) correspondant à la version de hadoop pour laquelle votre installation de Spark a été construite. Dans mon cas, la version de hadoop était 2.6.0. J'ai donc téléchargé winutils.exe pour hadoop 2.6.0 et l'ai copié dans le dossier `hadoop\bin` du dossier `SPARK_HOME`.
3. Créez une variable d'environnement système dans Windows appelée `SPARK_HOME` qui pointe vers le chemin du dossier `SPARK_HOME`. Recherchez sur Internet si vous avez besoin d'une mise à jour sur la création de variables d'environnement dans votre version de Windows, par exemple des articles comme ceux-ci.
4. Créez une autre variable d'environnement système dans Windows appelée `HADOOP_HOME` qui pointe vers le dossier hadoop à l'intérieur du dossier `SPARK_HOME`.

Étant donné que le dossier hadoop se trouve à l'intérieur du dossier `SPARK_HOME`, il est préférable de créer la variable d'environnement `HADOOP_HOME` en utilisant une valeur de `%SPARK_HOME%\hadoop`. Ainsi, vous n'aurez pas à modifier `HADOOP_HOME` si `SPARK_HOME` est mis à jour.

Si vous exécutez maintenant le script `bin\pyspark` à partir d'une fenêtre de commande Windows, les messages d'erreur liés à `winutils.exe` devraient disparaître. Par exemple, j'ai obtenu les messages suivants après avoir exécuté l'utilitaire `bin\pyspark` après avoir configuré `winutils`.

L'utilitaire `bin\spark-submit` peut également être utilisé avec succès pour exécuter le script `wordcount.py`.

### Configuration du niveau de journalisation pour Spark

Il y a encore beaucoup de messages INFO supplémentaires dans la console chaque fois que vous démarrez ou quittez une session PySpark ou exécutez l'utilitaire `spark-submit`. Nous allons donc apporter une autre modification à notre installation Spark afin que seuls les messages d'avertissement et d'erreur soient affichés dans la console. Pour ce faire :
* Copiez le fichier `log4j.properties.template` du dossier `SPARK_HOME\conf` vers le dossier `SPARK_HOME\conf` en tant que fichier `log4j.properties`.
* Définissez la valeur de la propriété `log4j.rootCategory` sur `WARN, console`.
* Enregistrez le fichier `log4j.properties`.

Maintenant, aucun message informatif ne sera enregistré dans la console. Par exemple, voici les messages que j'ai obtenus après avoir exécuté l'utilitaire `bin\pyspark` une fois que j'ai configuré le niveau de journalisation sur `WARN`.

----

Ces instructions sont obsolètes avec Spark 3.4.0.

Le fichier de configuration des logs s'appelle `log4j2.properties` et les noms des propriétés ne sont plus les mêmes, ni même le format des valeurs.

Nouvelles instructions :
* Définir la ligne `rootLogger.level` sur le niveau de journalisation souhaité. Par exemple, si pour afficher uniquement les avertissements et les erreurs, définir `rootLogger.level = warn`.
* S'assurer que la ligne `rootLogger.appenderRef.stdout.ref` est configurée pour envoyer les journaux vers la console (`rootLogger.appenderRef.stdout.ref = console`).
* Ajuster le format des messages de journal en modifiant la valeur de la ligne `appender.console.layout.pattern`. Par exemple, pour ajouter un horodatage aux messages de journal, utiliser `appender.console.layout.pattern = %d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n%ex` (valeur par défaut du template).

Après avoir effectué ces modifications, enregistrer le fichier `log4j2.properties`. Cela devrait réduire la quantité de logs affichés dans votre console PySpark en fonction de la configuration définie.

**NB** les nom des propriétés sont sensibles à la casse, mais pas leurs valeurs. `WARN` et `warn` sont équivalents, et de même `Console` et `console`.

### Résumé

Pour travailler avec PySpark, ouvrez une fenêtre de commande Windows et rendez-vous dans votre répertoire `SPARK_HOME`.
* Pour démarrer un shell PySpark, exécutez l'utilitaire `bin\pyspark`. Une fois dans le shell PySpark, utilisez les noms `sc` et `sqlContext`, puis saisissez `exit()` pour revenir à l'invite de commande.
* Pour exécuter un script Python autonome, exécutez l'utilitaire `bin\spark-submit` en spécifiant le chemin de votre script Python ainsi que les éventuels arguments nécessaires dans l'invite de commande. Par exemple, pour exécuter le script `wordcount.py` du répertoire `examples` de votre dossier `SPARK_HOME`, vous pouvez exécuter la commande suivante :

```sh
bin\spark-submit examples\src\main\python\wordcount.py README.md
```

### Références

J'ai utilisé les références suivantes pour recueillir des informations sur cet article.
* Configuration de winutils.exe
* Téléchargement de Spark et mise en route (chapitre 2) du livre "Learning Spark" d'O'Reilly

# Et dans le notebook dans VS Code


```python
spark = SparkSession.builder.appName("OTR").config("spark.sql.caseSensitive", "True").getOrCreate()
display(spark)
```

Provoque cette erreur :

```python
RuntimeError                              Traceback (most recent call last)
Cell In[3], line 1
----> 1 spark = SparkSession.builder.appName("OTR").config("spark.sql.caseSensitive", "True").getOrCreate()
      2 display(spark)

File c:\Users\franc\AppData\Local\Programs\Python\Python311\Lib\site-packages\pyspark\sql\session.py:477, in SparkSession.Builder.getOrCreate(self)
    475     sparkConf.set(key, value)
    476 # This SparkContext may be an existing one.
--> 477 sc = SparkContext.getOrCreate(sparkConf)
    478 # Do not update `SparkConf` for existing `SparkContext`, as it's shared
    479 # by all sessions.
    480 session = SparkSession(sc, options=self._options)

File c:\Users\franc\AppData\Local\Programs\Python\Python311\Lib\site-packages\pyspark\context.py:512, in SparkContext.getOrCreate(cls, conf)
    510 with SparkContext._lock:
    511     if SparkContext._active_spark_context is None:
--> 512         SparkContext(conf=conf or SparkConf())
    513     assert SparkContext._active_spark_context is not None
    514     return SparkContext._active_spark_context

File c:\Users\franc\AppData\Local\Programs\Python\Python311\Lib\site-packages\pyspark\context.py:198, in SparkContext.__init__(self, master, appName, sparkHome, pyFiles, environment, batchSize, serializer, conf, gateway, jsc, profiler_cls, udf_profiler_cls, memory_profiler_cls)
    192 if gateway is not None and gateway.gateway_parameters.auth_token is None:
    193     raise ValueError(
    194         "You are trying to pass an insecure Py4j gateway to Spark. This"
    195         " is not allowed as it is a security risk."
    196     )
--> 198 SparkContext._ensure_initialized(self, gateway=gateway, conf=conf)
    199 try:
    200     self._do_init(
    201         master,
    202         appName,
   (...)
    212         memory_profiler_cls,
    213     )

File c:\Users\franc\AppData\Local\Programs\Python\Python311\Lib\site-packages\pyspark\context.py:432, in SparkContext._ensure_initialized(cls, instance, gateway, conf)
    430 with SparkContext._lock:
    431     if not SparkContext._gateway:
--> 432         SparkContext._gateway = gateway or launch_gateway(conf)
    433         SparkContext._jvm = SparkContext._gateway.jvm
    435     if instance:

File c:\Users\franc\AppData\Local\Programs\Python\Python311\Lib\site-packages\pyspark\java_gateway.py:106, in launch_gateway(conf, popen_kwargs)
    103     time.sleep(0.1)
    105 if not os.path.isfile(conn_info_file):
--> 106     raise RuntimeError("Java gateway process exited before sending its port number")
    108 with open(conn_info_file, "rb") as info:
    109     gateway_port = read_int(info)

RuntimeError: Java gateway process exited before sending its port number
```

Il semblerait que l'installation de Java ne fixe pas par défaut la variable d'environnement `JAVA_HOME`.

```sh
[Environment]::SetEnvironmentVariable("JAVA_HOME", "C:\Program Files\Java\jdk-17", "Machine")
```


