# **PySpark VS Code**

PySpark in VS Code.
* [PySpark Development Made Simple. Using VS Code, Jupyter Notebooks, and‚Ä¶ | by Jason Clarke | Better Programming](https://betterprogramming.pub/pyspark-development-made-simple-9449a893ab17)
* [PySpark.SQL and Jupyter Notebooks on Visual Studio Code (Python kernel)](https://blog.openthreatresearch.com/spark_jupyter_notebook_vscode)
* [Run jobs: Spark & Hive Tools for VS Code - SQL Server Big Data Clusters | Microsoft Learn](https://learn.microsoft.com/en-us/sql/big-data-cluster/spark-hive-tools-vscode?view=sql-server-ver15)


# [PySpark Development Made Simple. Using VS Code, Jupyter Notebooks, and‚Ä¶ | by Jason Clarke | Better Programming](https://betterprogramming.pub/pyspark-development-made-simple-9449a893ab17)

Using VS Code, Jupyter Notebooks, and Docker

By **Jason Clarke**, Better Programming, Sep 30, 2022

![](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*6DROvAbbSlWimgPKKnGovQ.png)

Il y a quelques semaines, je cherchais d√©sesp√©r√©ment un tutoriel d√©crivant comment utiliser VS Code avec Jupyter Notebooks et PySpark... sur un Mac. Et √©tonnamment, je n'ai trouv√© aucun tutoriel qui passait mon test de "explique-le-moi comme si j'avais cinq ans".

## Cet article est le r√©sultat d'un samedi apr√®s-midi difficile.

Le chemin de moindre r√©sistance : les REPL √† la rescousse

De nos jours, j'ai tr√®s peu de temps libre pour jouer avec de nouvelles technologies. Quand je le fais, je veux que ce soit aussi indolore que possible. Et surtout, je veux que ce soit amusant - sinon, √† quoi bon ?

De plus, rien n'est pire que de perdre des heures de votre temps libre √† configurer un environnement de d√©veloppement. C'est juste douloureux.

### VS Code avec Jupyter Notebooks

Je suis un grand fan des REPL pour le d√©veloppement rapide - par exemple, l'√©valuation d'un nouveau framework, l'analyse de donn√©es, la correction de donn√©es, etc.

Dans ces situations, je ne veux pas configurer un nouveau projet et √™tre embourb√© dans des complexit√©s de configuration triviales. J'ai simplement besoin d'un bloc-notes pour √©crire du code.

Les Jupyter Notebooks sont un syst√®me bas√© sur REPL con√ßu pour analyser, visualiser et collaborer sur des donn√©es. Ils sont √©galement excellents comme bloc-notes.

### Qu'est-ce qu'un REPL ?

Une boucle de lecture-√©valuation-affichage (REPL), √©galement appel√©e niveau sup√©rieur interactif ou shell de langage, est un environnement de programmation informatique interactif simple qui prend des entr√©es utilisateur uniques, les ex√©cute et renvoie le r√©sultat √† l'utilisateur ; un programme √©crit dans un environnement REPL est ex√©cut√© morceau par morceau.

[Wikipedia:Read‚Äìeval‚Äìprint loop](https://en.wikipedia.org/wiki/Read%E2%80%93eval%E2%80%93print_loop)

Visual Studio Code prend en charge nativement les [blocs-notes](https://code.visualstudio.com/blogs/2021/11/08/custom-notebooks), y compris Jupyter.

### Configuration

#### Pr√©requis

* Installez Docker. <br/>
*Si vous utilisez un Mac et ne pouvez pas installer Docker Desktop en raison de restrictions de licence, consultez Colima.*
* Installez VS Code.

#### Conteneur de d√©veloppement de VS Code

1. Cr√©ez un nouveau r√©pertoire pour votre projet.
2. Cr√©ez un fichier Docker √† la racine du r√©pertoire du projet en utilisant le code ci-dessous. Au moment de la r√©daction de cet article, la version actuelle de PySpark est 3.3.0. Je v√©rifierais ici pour vous assurer que vous utilisez la derni√®re version.

```sh
ARG IMAGE_VARIANT=slim-buster
ARG OPENJDK_VERSION=8
ARG PYTHON_VERSION=3.9.8

FROM python:${PYTHON_VERSION}-${IMAGE_VARIANT} AS py3
FROM openjdk:${OPENJDK_VERSION}-${IMAGE_VARIANT}

COPY --from=py3 / /

ARG PYSPARK_VERSION=3.3.0

RUN pip --no-cache-dir install pyspark==${PYSPARK_VERSION}
RUN pip --no-cache-dir install pandas
RUN pip --no-cache-dir install ipykernel

ENTRYPOINT ["bash"]
```

4. Within the .devcontainer directory, add the following JSON configuration.

3. Cr√©ez un r√©pertoire avec le nom `.devcontainer`.
4. Dans le r√©pertoire `.devcontainer`, ajoutez la configuration JSON suivante.

```json
{
    "name": "Dockerfile",
    "context": "../",
    "dockerFile": "../Dockerfile",
    "extensions": ["ms-python.python", "ms-toolsai.jupyter"],
    "settings": {
        "terminal.integrated.shell.linux": null
    },
    "forwardPorts": [4050]
}
```

5. Dans le coin inf√©rieur gauche de VS Code, cliquez sur le bouton Ouvrir la fen√™tre distante ‚Üí Ouvrir dans le conteneur.

Cliquez [ici](https://code.visualstudio.com/docs/remote/remote-overview) pour en savoir plus sur le d√©veloppement distant dans VS Code.

VS Code red√©marrera l'IDE et se connectera au conteneur de d√©veloppement de VS Code - instanci√© √† partir de l'image Docker d√©finie √† l'√©tape 2.

C'est tout pour la configuration.

## D√©veloppement de votre premi√®re application PySpark

### Cr√©ation d'un notebook

1.Cr√©ez un nouveau fichier avec l'extension .ipynb dans votre r√©pertoire de projet.
2. Ouvrez le fichier - vous devriez voir l'exp√©rience de bloc-notes de VS Code.

### Donn√©es de test

1. Dans le r√©pertoire racine, ajoutez un nouveau dossier appel√© data.
2. Dans le dossier data, cr√©ez un nouveau fichier CSV appel√© users.csv et ajoutez les donn√©es suivantes :
```
name,age,gender
jon,45,male
sarah,32,female
jane,65,female
jim,70,male
joe,22,male
```

#### Exemple : Application Spark

Cette section suppose que vous avez install√© Docker, configur√© un conteneur de d√©veloppement de VS Code et cr√©√© un bloc-notes vide.

```python
from pyspark.sql import *
import pandas as pd

spark = SparkSession\
            .builder\
            .appName("test-app")\
            .getOrCreate()

df = spark.read.csv("./data/users.csv", 
                            header="true", 
                            inferSchema="true")

df.createOrReplaceTempView("users")

sql = """
SELECT gender, AVG(age) as average_age
FROM users
GROUP BY gender
"""
query = spark.sql(sql)
query.toPandas()

```

### Question circonstantielle √† Chat

‚ùì*Cela fait bien longtemps que je fais un blocage sur Docker. Es-tu capable, en quelques mots, de m'expliquer en quoi Docker est une innovation majeure, et en quoi cela explique qu'il soit devenu indispensable, incontournable ?*

Docker est une innovation majeure dans le domaine de la virtualisation et de la gestion des conteneurs. Il permet de cr√©er des environnements d'ex√©cution isol√©s, appel√©s conteneurs, qui encapsulent une application et toutes ses d√©pendances. Voici quelques raisons pour lesquelles Docker est devenu indispensable :
* **Portabilit√©** : Les conteneurs Docker sont l√©gers et portables, ce qui signifie qu'ils peuvent √™tre ex√©cut√©s sur n'importe quel syst√®me d'exploitation ou infrastructure qui prend en charge Docker. Cela facilite le d√©ploiement et la gestion des applications sur diff√©rents environnements, qu'il s'agisse de serveurs locaux, de machines virtuelles ou de services cloud.
* **Isolation** : Les conteneurs offrent une isolation compl√®te des applications, ce qui signifie que chaque application s'ex√©cute dans son propre environnement isol√©. Cela garantit qu'une application ne peut pas interf√©rer avec d'autres applications ex√©cut√©es sur le m√™me syst√®me, am√©liorant ainsi la stabilit√© et la s√©curit√©.
* **Rapidit√© et efficacit√©** : Docker utilise une approche de virtualisation l√©g√®re, ce qui permet un d√©marrage rapide des conteneurs et une utilisation efficiente des ressources syst√®me. Les conteneurs partagent le m√™me noyau de syst√®me d'exploitation, ce qui √©vite la surcharge li√©e au lancement de multiples machines virtuelles.
* **Gestion des d√©pendances** : Docker simplifie la gestion des d√©pendances logicielles en encapsulant toutes les biblioth√®ques et les d√©pendances requises dans le conteneur. Cela permet d'√©viter les conflits entre diff√©rentes versions de biblioth√®ques et facilite le d√©ploiement coh√©rent des applications sur diff√©rentes plates-formes.
* **Scalabilit√©** : Docker permet de facilement mettre √† l'√©chelle horizontalement les applications en ajoutant ou en supprimant des instances de conteneurs selon les besoins. Cette flexibilit√© de mise √† l'√©chelle facilite la gestion des charges de travail variables et l'optimisation des ressources.

Dans l'ensemble, Docker a r√©volutionn√© la fa√ßon dont les applications sont d√©velopp√©es, d√©ploy√©es et ex√©cut√©es, offrant une solution efficace et coh√©rente pour la gestion des environnements logiciels. Son adoption g√©n√©ralis√©e s'explique par les avantages qu'il apporte en termes de portabilit√©, d'isolation, de rapidit√©, de gestion des d√©pendances et de scalabilit√©.

‚ùì*Es-tu d'accord avec ce r√©sum√© : Docker est la quintessence, synth√©tique, de la gestion de packages et de la gestion d'environnements (virtuels) ?*

Oui, je suis d'accord avec ce r√©sum√©. Docker permet en effet de g√©rer de mani√®re efficace les packages logiciels et les environnements virtuels en fournissant une plate-forme de conteneurisation. Il offre une approche l√©g√®re et portable pour cr√©er, distribuer et ex√©cuter des applications avec toutes leurs d√©pendances dans un environnement isol√©. Ainsi, Docker simplifie la gestion des packages et permet de cr√©er des environnements coh√©rents et reproductibles, facilitant ainsi le d√©veloppement, le d√©ploiement et la gestion des applications.

### üìå D√©corticons cela cellule par cellule.

1. **Importation des biblioth√®ques** : La premi√®re cellule importe les biblioth√®ques Python PySpark et Pandas.
2. **Connexion √† Spark** : La deuxi√®me cellule est l'endroit o√π nous d√©finissons la connexion √† Spark. Comme nous sommes en mode local, nous n'avons pas besoin de nous soucier d'une cha√Æne de connexion.
3. **Lecture du CSV** dans une vue temporaire : Dans la troisi√®me cellule, nous importons un fichier CSV du syst√®me de fichiers local dans Spark - le CSV contient des donn√©es de test.
La deuxi√®me √©tape cr√©e une vue temporaire appel√©e 'users' - cela nous permet d'interroger la table en utilisant du SQL standard.
4. **Requ√™te** : Dans la derni√®re cellule, nous d√©finissons une requ√™te SQL qui renvoie l'√¢ge moyen de tous les utilisateurs par genre. L'appel de fonction `toPandas()` convertit le dataframe Spark en un dataframe Panda - ce qui nous permet d'utiliser l'affichage des dataframes de VS Code.

![](https://miro.medium.com/v2/resize:fit:640/format:webp/1*bLVoxtiISzMlrVZhPCMLFw.png)

5. Cliquez sur "Tout ex√©cuter" en haut pour ex√©cuter toutes les cellules du notebook. Si tout fonctionne correctement, vous devriez voir un dataframe √† deux lignes - comme repr√©sent√© dans l'image ci-dessus.

### R√©flexions finales

Utiliser Visual Studio Code avec les notebooks Jupyter et Docker est une mani√®re simple de commencer avec PySpark.

Si vous avez des conseils pour am√©liorer le flux de d√©veloppement d√©crit ci-dessus, n'h√©sitez pas √† me le faire savoir dans les commentaires.

J'esp√®re que cela vous a √©t√© int√©ressant.

L'Architecte Yam Yam.

## [**VS Code Remote Development**](https://code.visualstudio.com/docs/remote/remote-overview)

**Visual Studio Code Remote Development** vous permet d'utiliser un conteneur, une machine distante ou le [**sous-syst√®me Windows pour Linux**](https://learn.microsoft.com/en-us/windows/wsl/) (WSL) en tant qu'environnement de d√©veloppement complet.

Vous pouvez :
* D√©velopper sur le m√™me **syst√®me d'exploitation** que celui sur lequel vous d√©ployez votre application, ou utiliser du mat√©riel **plus puissant ou plus sp√©cialis√©**.
* **S√©parer** votre environnement de d√©veloppement pour √©viter d'impacter la **configuration de votre machine** locale.
* Faciliter la **prise en main** des nouveaux contributeurs et maintenir tout le monde dans un **environnement coh√©rent**.
* Utiliser des outils ou des environnements d'ex√©cution qui **ne sont pas disponibles** sur votre syst√®me d'exploitation local, ou g√©rer **plusieurs versions** de ces outils.
* D√©velopper vos applications d√©ploy√©es sur Linux en utilisant le **sous-syst√®me Windows pour Linux**.
* Acc√©der √† un environnement de d√©veloppement **existant** √† partir de **plusieurs machines ou emplacements**.
* D√©boguer une **application qui s'ex√©cute ailleurs**, comme sur le site d'un client ou dans le cloud.

**Aucun code source** n'a besoin d'√™tre sur votre machine locale pour b√©n√©ficier de ces avantages. Chaque extension du [pack d'extensions Remote Development](https://marketplace.visualstudio.com/items?itemName=ms-vscode-remote.vscode-remote-extensionpack) peut ex√©cuter des commandes et d'autres extensions directement dans un conteneur, dans WSL ou sur une machine distante, de sorte que tout se d√©roule comme si vous ex√©cutez localement.

![](https://code.visualstudio.com/assets/docs/remote/remote-overview/architecture.png)

## Premiers pas

### Pack d'extensions Remote Development

Le [pack d'extensions Remote Development](https://marketplace.visualstudio.com/items?itemName=ms-vscode-remote.vscode-remote-extensionpack) comprend trois extensions. Consultez les articles suivants pour commencer avec chacune d'entre elles :
* [Remote - SSH](https://code.visualstudio.com/docs/remote/ssh) - Connectez-vous √† n'importe quel emplacement en ouvrant des dossiers sur une machine distante/VM en utilisant SSH.
* [Dev Containers](https://code.visualstudio.com/docs/devcontainers/containers) - Travaillez avec une cha√Æne d'outils s√©par√©e ou une application bas√©e sur des conteneurs √† l'int√©rieur (ou mont√©e dans) un conteneur.
* [WSL](https://code.visualstudio.com/docs/remote/wsl) - Obtenez une exp√©rience de d√©veloppement bas√©e sur Linux dans le sous-syst√®me Windows pour Linux.

Bien que la plupart des extensions de VS Code devraient fonctionner sans modification dans un environnement distant, les auteurs d'extensions peuvent en savoir plus sur le [support du d√©veloppement √† distance](https://code.visualstudio.com/api/advanced-topics/remote-extensions).

### Tutoriels sur le "√† distance"

Les tutoriels ci-dessous vous guideront pour ex√©cuter Visual Studio Code avec les extensions Remote Development.

|Tutoriel|Description|
|-|-|
|[√Ä distance via SSH](https://code.visualstudio.com/docs/remote/ssh-tutorial)|Connectez-vous √† des machines distantes et virtuelles avec Visual Studio Code via SSH.|
|[Travaillez dans WSL](https://code.visualstudio.com/docs/remote/wsl-tutorial)|Ex√©cutez Visual Studio Code dans le sous-syst√®me Windows pour Linux.|
|[D√©veloppez dans des conteneurs](https://code.visualstudio.com/docs/devcontainers/tutorial)|Ex√©cutez Visual Studio Code dans un conteneur Docker.|
|[GitHub Codespaces](https://docs.github.com/en/codespaces/developing-in-codespaces/using-github-codespaces-in-visual-studio-code)|Connectez-vous √† un espace de codes avec Visual Studio Code.|

### GitHub Codespaces

[GitHub Codespaces](https://code.visualstudio.com/docs/remote/codespaces) fournit des environnements de d√©veloppement √† distance g√©r√©s pour vous. Vous pouvez configurer et cr√©er un environnement de d√©veloppement h√©berg√© dans le cloud, qui est d√©marr√© et disponible lorsque vous en avez besoin.

### Le serveur VS Code (version priv√©e de pr√©visualisation)

[Le serveur VS Code](https://code.visualstudio.com/docs/remote/vscode-server) est un service en version priv√©e de pr√©visualisation que vous pouvez ex√©cuter sur une machine de d√©veloppement distante, comme votre PC de bureau ou une machine virtuelle (VM). Il vous permet de vous connecter en toute s√©curit√© √† cette machine distante de n'importe o√π via une URL vscode.dev, sans n√©cessiter de SSH.

### Petit point avec Chat

*Si tu n'as pas oubli√© tous nos √©changes ci-dessus pour mettre en place d'une architecture de d√©veloppement pyspark avec un client de d√©veloppement VS Code+Jupyter+PySpark/Windows en interaction avec un serveur de cluster Spark intall√© sur la m√™me machine, mais dans le sous-syst√®me Ubuntu/WSL, laquelle architecture s'est heurt√©e √† des probl√®mes de configuration et notamment de param√©trage du firewall, n'es-tu pas d'accord que finalement, ce dernier tuto que je t'ai pass√©, et qui concerne l'extension VS Code Remote Developement, r√©pond exactement √† mes besoins, et que cela m√©rite donc d'√™tre investi, c'est √† dire install√© et test√© sur la base des tutoriaux fournis ?*

Oui, en fonction des difficult√©s que vous avez rencontr√©es lors de la configuration de l'architecture de d√©veloppement PySpark pr√©c√©dente, l'utilisation de l'extension VS Code Remote Development peut √™tre une solution int√©ressante pour r√©pondre √† vos besoins. Cette extension vous permet d'utiliser un environnement de d√©veloppement distant, tel que le sous-syst√®me Windows pour Linux (WSL), pour travailler avec des outils comme Jupyter, PySpark et VS Code.

En utilisant cette approche, vous pouvez √©viter les probl√®mes de configuration du firewall et b√©n√©ficier d'un environnement de d√©veloppement plus coh√©rent et facile √† g√©rer. Les tutoriels fournis avec l'extension vous guideront pas √† pas dans la mise en place de cette configuration et vous permettront de tester son fonctionnement.

Il est recommand√© d'installer et de tester l'extension en suivant les tutoriels fournis pour √©valuer si elle r√©pond effectivement √† vos besoins et facilite votre workflow de d√©veloppement PySpark avec VS Code et Jupyter.

# [**PySpark.SQL and Jupyter Notebooks on Visual Studio Code (Python kernel)**](https://blog.openthreatresearch.com/spark_jupyter_notebook_vscode)

Dans cet article de blog, je vais partager les √©tapes que vous pouvez suivre pour ex√©cuter des commandes PySpark.SQL (Spark + Python) en utilisant un notebook Jupyter dans Visual Studio Code (VSCode). Lors du d√©veloppement de cet article, j'ai utilis√© un noyau Python sur un ordinateur Windows.

## Pr√©requis

Pour suivre les √©tapes de cet article, vous devez installer les √©l√©ments suivants sur votre ordinateur Windows :
* `Java` : vous pouvez trouver les √©tapes d'installation ici.
* `Visual Studio Code` : vous pouvez trouver les √©tapes d'installation ici.
* `Extension Python pour Visual Studio Code` : vous pouvez trouver les √©tapes d'installation ici.
* `Interpr√©teur Python` : vous pouvez trouver les √©tapes d'installation ici.

## Configuration d'une session PySpark.SQL

### 1) Cr√©ation d'un notebook Jupyter dans VSCode

Cr√©ez un notebook Jupyter en suivant les √©tapes d√©crites dans Mon premier notebook Jupyter sur Visual Studio Code (noyau Python).

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_01_spark_new_notebook.jpg)

### 2) Installation de la biblioth√®que PySpark Python

√Ä l'aide de la premi√®re cellule de notre notebook, ex√©cutez le code suivant pour installer l'`API Python` pour Spark.

```sh
!pip install pyspark
```

Vous pouvez √©galement utiliser le terminal de VSCode pour installer PySpark. Les √©tapes pour installer une biblioth√®que Python √† l'aide d'un notebook Jupyter ou du terminal dans VSCode sont d√©crites ici.

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_02_spark_pyspark_installation.jpg)

In [1]:
!pip show pyspark

Name: pyspark
Version: 3.4.0
Summary: Apache Spark Python API
Home-page: https://github.com/apache/spark/tree/master/python
Author: Spark Developers
Author-email: dev@spark.apache.org
License: http://www.apache.org/licenses/LICENSE-2.0
Location: C:\Users\franc\AppData\Local\Programs\Python\Python311\Lib\site-packages
Requires: py4j
Required-by: 


### 3) Importation de la classe SparkSession

Nous commen√ßons par importer la classe SparkSession du module PySpark SQL.

La `SparkSession` est le point d'entr√©e principal pour les fonctionnalit√©s DataFrame et SQL. Un SparkSession peut √™tre utilis√© pour cr√©er un DataFrame, enregistrer un DataFrame en tant que table, ex√©cuter des requ√™tes SQL sur les tables, mettre en cache des tables, et m√™me lire des fichiers Parquet.

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_03_spark_pyspark_sql_spark_session.jpg)

In [2]:
from pyspark.sql import SparkSession

### 4) Cr√©ation d'un SparkSession

Pour cr√©er un SparkSession, nous utilisons la classe [`Builder`](https://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#pyspark.sql.SparkSession.Builder).

Nous donnons un nom √† notre application Spark (`OTR`) et ajoutons une configuration caseSensitive.

Nous attribuons le SparkSession √† une variable nomm√©e `spark`.

```python
spark = SparkSession.builder.appName("OTR").config("spark.sql.caseSensitive", "True").getOrCreate()
```

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_04_spark_pyspark_sql_spark_session_builder.jpg)

In [3]:
otr = SparkSession.builder.appName("OTR").config("spark.sql.caseSensitive", "True")
display(otr)

<pyspark.sql.session.SparkSession.Builder at 0x2020ffabd50>

In [4]:
from pyspark import SparkConf, SparkContext
display(SparkConf())

<pyspark.conf.SparkConf at 0x2020986c250>

In [2]:
import os

# R√©cup√©rer toutes les variables d'environnement
env_vars = os.environ
os.environ['PYSPARK_SUBMIT_ARGS'] = "--master local[*] pyspark-shell"

# Afficher les valeurs des variables d'environnement
for var, value in env_vars.items():
    print(f'{var}: {value}')

ALLUSERSPROFILE: C:\ProgramData
APPDATA: C:\Users\franc\AppData\Roaming
CHROME_CRASHPAD_PIPE_NAME: \\.\pipe\LOCAL\crashpad_8680_AIHYRYQPRMSYWVQJ
COMMONPROGRAMFILES: C:\Program Files\Common Files
COMMONPROGRAMFILES(X86): C:\Program Files (x86)\Common Files
COMMONPROGRAMW6432: C:\Program Files\Common Files
COMPUTERNAME: BELLADONNA
COMSPEC: C:\WINDOWS\system32\cmd.exe
DRIVERDATA: C:\Windows\System32\Drivers\DriverData
EFC_8804: 1
ELECTRON_RUN_AS_NODE: 1
HOMEDRIVE: C:
HOMEPATH: \Users\franc
JAVA_HOME: C:\Program Files\Java\jdk-17
JPY_INTERRUPT_EVENT: 2708
LOCALAPPDATA: C:\Users\franc\AppData\Local
LOGONSERVER: \\BELLADONNA
NUMBER_OF_PROCESSORS: 12
OMP_NUM_THREADS: 4
ONEDRIVE: C:\Users\franc\OneDrive
ONEDRIVECONSUMER: C:\Users\franc\OneDrive
ORIGINAL_XDG_CURRENT_DESKTOP: undefined
OS: Windows_NT
PATH: c:\Users\franc\AppData\Local\Programs\Python\Python311;c:\Users\franc\AppData\Roaming\Python\Python311\Scripts;C:\Program Files\Common Files\Oracle\Java\javapath;C:\Windows\system32;C:\Windows

In [3]:
from pyspark import SparkConf
conf = SparkConf()
conf.set("spark.sql.caseSensitive", "True")

# Obtention des param√®tres de configuration
configurations = conf.getAll()

# Affichage des param√®tres de configuration
for config in configurations:
    print(config)


# Affichage des valeurs par d√©faut et des param√®tres d√©finis
print(conf.toDebugString())

('spark.sql.caseSensitive', 'True')
spark.sql.caseSensitive=True


In [4]:
spark = SparkSession.builder.appName("OTR").config("spark.sql.caseSensitive", "True").getOrCreate()
display(spark)

NameError: name 'SparkSession' is not defined


### 5) V√©rification du SparkSession

Une fois que le SparkSession est construit, nous pouvons ex√©cuter la variable spark pour la v√©rification.

```python
spark
```

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_05_spark_pyspark_sql_spark_session_info.jpg)

## Ex√©cution de plus de commandes Spark

Pour la derni√®re section de cet article de blog, je partage trois autres commandes de base qui sont tr√®s utiles lors de l'ex√©cution de t√¢ches avec Spark :
* Cr√©ation d'un DataFrame Spark en utilisant la m√©thode `read.json`.
* Cr√©ation d'une vue temporaire d'un DataFrame Spark en utilisant la m√©thode `createOrReplaceTempView`.
* Ex√©cution d'une requ√™te de type SQL en utilisant la m√©thode `sql`.

### 0) Importation d'un jeu de donn√©es Mordor

Afin de vous montrer ces exemples, nous avons besoin de donn√©es. Par cons√©quent, j'utiliserai un jeu de donn√©es Mordor qui contient des journaux d'√©v√©nements de s√©curit√© pour l'ex√©cution d'une preuve de concept publique d'exploitation de vuln√©rabilit√©s Exchange (vuln√©rabilit√© CVE-2021-26855 de falsification de requ√™te c√¥t√© serveur (SSRF)).

T√©l√©chargez le jeu de donn√©es Mordor (fichier json) en suivant les √©tapes d√©crites dans l'article [Importing a Mordor Dataset with Jupyter Notebooks on Visual Studio Code (noyau Python)](https://blog.openthreatresearch.com/importing-mordor-dataset-jupyter-notebook-vscode).

```python
# Importing libraries
import requests
from io import BytesIO
from zipfile import ZipFile
# Downloading and Extracting Json File
url = 'https://raw.githubusercontent.com/OTRF/mordor/master/datasets/small/windows/persistence/host/proxylogon_ssrf_rce_poc.zip'
zipFileRequest = requests.get(url)
zipFile = ZipFile(BytesIO(zipFileRequest.content))
jsonFilePath = zipFile.extract(zipFile.namelist()[0])
jsonFilePath
```

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_06_spark_mordor_file.jpg)


### 1) Cr√©ation d'un DataFrame Spark

Pour cr√©er un DataFrame Spark √† partir d'un fichier `JSON`, nous utilisons la m√©thode `read.json`.

Nous utilisons la variable `jsonFilePath` de la section pr√©c√©dente qui contient le chemin ou le r√©pertoire o√π le fichier `JSON` a √©t√© stock√©.

```python
# Creating a Spark Dataframe
df = spark.read.json(jsonFilePath)
# Validating Type of Output
type(df)
```

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_07_spark_dataframe.jpg)

### 2) Cr√©ation d'une vue temporaire d'un DataFrame Spark

Pour cr√©er une vue temporaire d'un DataFrame Spark, nous utilisons la m√©thode `createOrReplaceTempView`.

Nous pouvons utiliser cette vue temporaire d'un DataFrame Spark comme une table `SQL` et d√©finir des requ√™tes de type SQL pour analyser nos donn√©es.

Nous utiliserons le DataFrame Spark `df` d√©fini dans la section pr√©c√©dente. Le nom que nous utilisons pour notre vue temporaire est `mordorTable`.

```python
df.createOrReplaceTempView('mordorTable')
```

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_08_spark_dataframe_temporary_view.jpg)

### 3) Ex√©cution d'une requ√™te de type SQL

Pour ex√©cuter une requ√™te de type SQL, nous utilisons la m√©thode `sql`.

En utilisant `mordorTable` comme r√©f√©rence, nous ex√©cuterons le code suivant pour r√©sumer les journaux d'√©v√©nements de s√©curit√© fournis par le jeu de donn√©es.

Nous effectuons une op√©ration de comptage par empilement sur les donn√©es, et nous regroupons le r√©sultat par Nom de l'h√¥te (`Hostname`), Canal (`Channel`) et ID d'√©v√©nement (`EventID`).

```python
df = spark.sql(
'''
SELECT Hostname,Channel,EventID, Count(*) as count
FROM mordorTable
GROUP BY Hostname,Channel,EventID
ORDER BY count DESC
'''
)
df.show(truncate=False)
```

![](https://blog.openthreatresearch.com/assets/images/blog/2021-01-02_09_spark_dataframe_temporary_view_sql_query.jpg)