# Spark

Hoewel het MapReduce algoritme van Hadoop een aantal voordelen heeft. 
De meest beperkende eigenschap van het MapReduce algoritme is de snelheid.
Omdat alles ingelezen wordt vanaf de harde schijf, tussenresultaten op de schijf opgeslagen worden en de finale resultaten ook wordt er tot wel 90% van de rekentijd gespendeerd in lees- of schrijfopdrachten.

Spark is geintroduceerd om dit te versnellen door gebruik te maken van in-memory processing.
Hierdoor is Spark tot 3 keer sneller op grote datasets en tot 100 keer op kleinere datasets.

Het spark framework kan gebruik maken van een externe opslag-locatie voor bestanden bij te houden (zoals HDFS) en bestaat uit de volgende componenten:
* SparkCore
* Spark SQL
* Spark Streaming
* MLlib
* SparkGraph

Daarnaast zijn er ook verschillende Spark Api's voor verschillende programmeertalen zoals Python, Scala, Java, ...
Hierdoor is het framework ook flexibeler dan het standaard MapReduce algoritme.
Heel veel informatie over het spark framework vind je in de [documentatie](https://spark.apache.org/docs/latest/quick-start.html) en de programming guides (bovenaan).

In [1]:
import pydoop.hdfs as hdfs

In [2]:
localFS = hdfs.hdfs(host='')
client = hdfs.hdfs(host='localhost', port=9000)

if not client.exists('/user/bigdata/06_Spark'):
    client.create_directory('/user/bigdata/06_Spark')
client.set_working_directory('/user/bigdata/06_Spark')
print(client.working_directory())

# do some cleaning in case anything else than input is present on HDFS
for f in client.list_directory("."):
    if not f["name"].endswith("input.txt"):
        client.delete(f["name"], True)
        
# upload input.txt
localFS.copy("input.txt", client, "input.txt")

2022-03-15 16:19:32,694 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


/user/bigdata/06_Spark


0

## Installatie

Een python implementatie van Spark kan eenvoudig geinstalleerd worden door het volgende commando uit te voeren. 
Dit moet maar eenmalig gebeuren.
Om te kijken of het reeds geinstalleerd is kan je kijken naar de versie van pyspark (indien geinstalleerd). 
Als de versie correct gereturned wordt, dan is het reeds geinstalleerd.

In [None]:
!pip install pyspark

In [3]:
!pyspark --version

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.2.0
      /_/
                        
Using Scala version 2.12.15, OpenJDK 64-Bit Server VM, 11.0.14
Branch HEAD
Compiled by user ubuntu on 2021-10-06T12:46:30Z
Revision 5d45a415f3a29898d92380380cfd82bfc7f579ea
Url https://github.com/apache/spark
Type --help for more information.


Spark kan op drie manieren werken:
* Boven op MapReduce (traag)
* Boven op Yarn
* Via zijn eigen resource manager

In deze notebook gaan we gebruik maken van Spark gebruikmakende van yarn.   

## Resilient Distributed Datasets



In [4]:
from pyspark import SparkContext, SparkConf
# Spark Context -> die bevat informatie over waar de code moet uitgevoerd worden
# Spark Conf -> configuratie van de applicatie / metadata / naam /aantal cores

Voor de configuratie moeten we vooral twee zaken aangeven, namelijk:
* Naam van de applicatie (is zichtbaar in de yarn)
* Master url. De url dat het type cluster en hoe het te bereiken aangeeft. Wij gaan vooral werken met local om te communiceren met het lokale bestandssysteem 

In [5]:
conf = SparkConf().setAppName("wordcount").setMaster("yarn")
sc = SparkContext(conf=conf)

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
2022-03-15 16:20:22,578 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2022-03-15 16:20:31,334 WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.


In [6]:
# andere manier om de sparkcontext aan te maken
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
# get de sparkcontext als hij reeds bestaat, anders maak je een nieuwe aan
# er kan maar 1 sparkcontext tegelijkertijd actief zijn

## Wordcount voorbeeld

Om de api van pyspark te leren kennen kan je gaan naar de [documentatie](https://spark.apache.org/docs/latest/api/python/reference/index.html).
Een eerder stap bij stap uitleg kan je [hier](https://spark.apache.org/docs/latest/api/python/getting_started/index.html) vinden.

In onderstaande code gaan we stap voor stap het wordcount-voorbeeld uitwerken.

Eerst moet er een pyspark context aangemaakt worden als volgt.

In [8]:
# text file inlezen (dit is een dataframe)
textFile = spark.read.text("06_Spark/input.txt")

[Stage 2:>                                                          (0 + 1) / 1]

5


                                                                                

In [10]:
# aantal rijen
print(textFile.count())

# geef de eerste rij
print(textFile.first())

# geef het aantal rijen waarin het woord world voorkomt
print(textFile.filter(textFile.value.contains("world")).count())

5


                                                                                

Row(value='Hello World,')
2


In [24]:
# wordcount example
# splits elke lijn in woorden
# sc.textFile -> geeft een rdd
words = sc.textFile("06_Spark/input.txt").flatMap(lambda line: line.split(" "))
# zet elk woord om naar (woord, 1)
wordcounts1 = words.map(lambda word: (word[0], 1) if len(word) > 0 else ("",1))
# tel alle values op in het woord
# wordt gedaan per woord afzonderlijk
# a is de running count
# (woord, 1)
# (woord, 1)
# a=0 , b=1 (value van het eerste woord) -> a+b = nieuwe a
# a=1 , b=1 (value van het eerste woord) -> a+b = nieuwe a
wordcounts2 = wordcounts1.reduceByKey(lambda a,b: a+b)
wordcounts2.saveAsTextFile("06_Spark/output3.txt")

                                                                                

**Wat gebeurt er in dit voorbeeld?**

Sparkcontext om een connectie te maken met de distributed storage
De input file wordt dan ingelezen met de textFile functie.
Door middel van de flatMap functie wordt de tekst lijn per lijn ingelezen en gesplits in woorden. 
Dit resulteert in een RDD (Resilient Distributed Dataset.
De .map() functie maakt een key-value pair aan voor elke keer dat het woord voorkomt.
In een laatste fase is er een reduce stap per key die de som neemt van alle keren dat het woord voorkomt om de uiteindelijke wordcount te nemen.
Of af te ronden wordt het resultaat opgeslagen.

![spark wordcount in yarn](images/yarn_001.png)

## SparkSession

Nu gaan we stuk voor stuk de verschillende stappen bekijken om een pyspark applicatie te maken.
De eerste stap is het aanmaken van een sessie (SparkSession) wat het beginpunt is voor spark applications.
Er zijn twee manieren om een SparkSession aan te maken:
* builder()
* newSession()

Bij het aanmaken van een session wordt er intern een SparkContext object aangemaakt. 
Dit object stelt de connectie naar een cluster voor.
Er kan maar 1 context tegelijkertijd actief zijn.
Als je wil connecteren met een tweede cluster moet je eerst stop() oproepen op de reeds actieve context.

In [7]:
# draai spark lokaal (niet op een cluster)
# 1 omdat we 1 core willen toekennen
spark = SparkSession.builder.master("local[1]").appName("Spark_les").getOrCreate()

#spark.stop()

# zonder argument in master draait op de cluster
# hier kiezen we voor 2 cores
spark2 = SparkSession.builder.config("spark.driver.cores", 2).appName("Spark_les").getOrCreate()

## RDD

Op basis van het SparkSession object is het dan mogelijk om RDD-objecten aan te maken.
Een RDD is de basis dataobject binnen Spark dat in parallel op verschillende nodes binnen een cluster kan uitgevoerd worden.
Alle dataobjecten binnen spark horen tot deze klassen en dus zijn er veel mogelijkheden om RDD's aan te maken.
Hier haal ik er twee aan:
* parallelize() om bestaande python objecten om te zetten naar een RDD
* textFile() of andere read methoden om bestanden op de cluster uit te lezen

In [8]:
# voorbeeld parallelize
dataList = [("Student1", 8), ("Student2", 16), ("Student3", 11)]
rdd = spark.sparkContext.parallelize(dataList)

# voorbeeld textFile
rdd2 = spark.sparkContext.textFile("06_Spark/input.txt")

Met bovenstaande methoden hebben we twee rdd's aangemaakt. 
Op deze objecten kunnen nu verscheidene operaties uitgevoerd worden.
Een belangrijke eigenschap van dit type objecten is dat ze steeds in parallel uitgevoerd worden.

De beschikbare operaties kunnen in twee groepen verdeeld worden:
* transformaties
* acties

[Transformaties](https://sparkbyexamples.com/apache-spark-rdd/spark-rdd-transformations/) zijn lazy-operations waarvoor de berekening uitgesteld wordt en geven een nieuw RDD terug.
Een aantal voorbeelden van transformaties zijn:
* flatMap()
* map()
* reduceByKey()
* filter()
* sortByKey()

[Acties](https://sparkbyexamples.com/apache-spark-rdd/spark-rdd-actions/) zijn operaties die een berekening starten (ook van de nodige transformaties) en geven een niet RDD-object terug. 
Een aantal voorbeelden hiervan zijn:
* count()
* collect()
* first()
* max()
* reduce()

Lees nu bovenstaande links en geef de functies die nodig zijn voor de volgende vragen op te lossen. Geef ook aan of het transformaties zijn of acties:
* Het aantal keer dat elke waarde aanwezig is in de dataset (1 functie voor wordcount uit te voeren)
* Uitfilteren van rijen
* Groeperen van een aantal rijen op basis van een bepaalde waarde.
* Toevoegen van een kolom aan elke key (bvb de lengte van een woord)
* Hoe doe je head() uit pandas op RDD's?
* Hoe doe je de apply() uit pandas op RDD's?

Maak nu een spark applicatie dat van de eerste RDD (met de studenten) telt hoeveel studenten geslaagd zijn.

In [9]:
rdd.filter(lambda student: student[1] >= 10).count()

                                                                                

2

De applicatie voor het berekenen van een gemiddelde is iets complexer.
Dit soort applicaties kan geschreven worden als volgt:

In [34]:
# aantal elementen in rdd
aantal = rdd.count()

# elk element delen door dit aantal
# iets doen voor elk element kan door de map() en reduce()
rdd.map(lambda x: x[1]).reduce(lambda x,y: x+y) / aantal

11.666666666666666

Schrijf nu een mapreduce applicatie in spark om de tweede RDD van de input te verwerken en het aantal woorden van elke lengte te bekomen.

In [42]:
print(rdd2.collect())
# map doet de lambda per element
# flatMap doet een map maar zet dan alles in 1 lijst
words = rdd2.flatMap(lambda line: line.split(" "))
print(words.collect())
wordcounts1 = words.map(lambda word: (len(word), 1))
print(wordcounts1.collect())
result = wordcounts1.reduceByKey(lambda a,b: a+b)
print(result.collect())

['Hello World,', 'hello world,', 'hello world,', '', 'Dit is een voorbeeld file om het Wordcount voorbeeld te testen !']
['Hello', 'World,', 'hello', 'world,', 'hello', 'world,', '', 'Dit', 'is', 'een', 'voorbeeld', 'file', 'om', 'het', 'Wordcount', 'voorbeeld', 'te', 'testen', '!']
[(5, 1), (6, 1), (5, 1), (6, 1), (5, 1), (6, 1), (0, 1), (3, 1), (2, 1), (3, 1), (9, 1), (4, 1), (2, 1), (3, 1), (9, 1), (9, 1), (2, 1), (6, 1), (1, 1)]
[(5, 3), (6, 4), (0, 1), (3, 3), (2, 3), (9, 3), (4, 1), (1, 1)]


## Dataframes

Een belangrijke subklasse van RDD's zijn dataframes.
Dit is een veel gebruikte manier om gestructureerde data voor te stellen.
Dataframes in spark is sterk gerelateerd aan de dataframes gezien in pandas.
Het belangrijskte verschil is dat ze verdeeld worden over de cluster en operaties op de dataframes in parallel uitgevoerd worden.
Dataframes kunnen aangemaakt worden door gebruik te maken van de createDataFrame functie in context of ingelezen worden vanuit csv's of jsons. Ten slotte kunnen dataframes ook komen van externe bronnen zoals databases als resultaat van een sql-query.

In [10]:
data = [('Harry', 'Potter','1980-07-31','M',100000000),
  ('Ronald','Wemel','1980-04-01','M',10),
  ('Hermelijn','Griffel','1979-09-19','F',4000)
]

                                                                                

+---------+--------+----------+------+---------+
|firstname|lastname|       dob|gender|   budget|
+---------+--------+----------+------+---------+
|    Harry|  Potter|1980-07-31|     M|100000000|
|   Ronald|   Wemel|1980-04-01|     M|       10|
|Hermelijn| Griffel|1979-09-19|     F|     4000|
+---------+--------+----------+------+---------+



                                                                                

+-------+---------+--------+----------+------+-------------------+
|summary|firstname|lastname|       dob|gender|             budget|
+-------+---------+--------+----------+------+-------------------+
|  count|        3|       3|         3|     3|                  3|
|   mean|     null|    null|      null|  null|         3.333467E7|
| stddev|     null|    null|      null|  null|5.773386936614157E7|
|    min|    Harry| Griffel|1979-09-19|     F|                 10|
|    max|   Ronald|   Wemel|1980-07-31|     M|          100000000|
+-------+---------+--------+----------+------+-------------------+



## PySpark SQL

Bovenstaande datastructuren (RDD's en Dataframes) zijn een onderdeel van het Pyspark sql module.
De Spark API heeft een hele reeks methoden en functies om deze in te laden, uit te lezen en te manipuleren.
Daarnaast maakt deze module het ook mogelijk om SQL-queries uit te voeren op dataframes.
Om SQL-queries uit te voeren op dataframes moet er eerst een view gemaakt worden in het dataframe met de functie createOrReplaceTempView("view_name")

Daarna kan je gebruik maken van de .sql() functie om allerhande sql queries uit te voeren.

+---------+--------+----------+------+---------+
|firstname|lastname|       dob|gender|   budget|
+---------+--------+----------+------+---------+
|    Harry|  Potter|1980-07-31|     M|100000000|
|   Ronald|   Wemel|1980-04-01|     M|       10|
+---------+--------+----------+------+---------+

+---------+--------+----------+------+---------+
|firstname|lastname|       dob|gender|   budget|
+---------+--------+----------+------+---------+
|    Harry|  Potter|1980-07-31|     M|100000000|
|   Ronald|   Wemel|1980-04-01|     M|       10|
+---------+--------+----------+------+---------+

+------+--------+
|gender|count(1)|
+------+--------+
|     M|       2|
|     F|       1|
+------+--------+

+------+-----+
|gender|count|
+------+-----+
|     M|    2|
|     F|    1|
+------+-----+

+---------+--------+
|firstname|lastname|
+---------+--------+
|    Harry|  Potter|
|   Ronald|   Wemel|
|Hermelijn| Griffel|
+---------+--------+



Buiten de functionaliteit om SQL queries uit te voeren is ook het lezen en schrijven van allerhande dataformaten een belangrijk onderdeel van de pyspark sql module.
Meer informatie hierover kun je [hier](https://spark.apache.org/docs/latest/sql-data-sources.html) vinden in de documentatie.
In essentie ziet de code er uit als volgt:

De opties die hierbij gekozen kunnen worden kun je vinden in de documentatie.

Daarnaast zijn er ook functionaliteiten om data uit te lezen speciaal voor Machine Learning zoals libsvm en image-directories maar die worden later getoond.

### Oefening

Net zoals RDD kunnen er een aantal operaties uitgevoerd worden op deze dataframes.
Een volledige lijst met alle operaties kan je [hier](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql.html#dataframe-apis) vinden.
Zoek de functies die gebruikt moeten worden om de volgende zaken uit te voeren:
* Groepeer volgens een bepaalde sleutel
* Krijg een lijst met alle kolomnamen
* Filter rijen uit
* Verwijder null-values in de dataset via rijen
* Verwijder null-values door kolommen te verwijderen
* Bereken een dataframe met statistieken van het dataframe
* Krijg een dataframe met alle nan waarden
* Hoe krijg je informatie zoals .info()
* Hoe werkt het groeperen van informatie op basis van een key/kolom

Probeer deze ook uit op bovenstaand aangemaakt dataframe

StructType(List(StructField(firstname,StringType,true),StructField(lastname,StringType,true),StructField(dob,StringType,true),StructField(gender,StringType,true),StructField(budget,LongType,true)))

Lees daarna volgende [link](https://sparkbyexamples.com/pyspark/pyspark-aggregate-functions/) om een idee te krijgen over hoe verschillende functies uit te voeren op deze dataframes.
Werk nu de volgende oefening uit en maak hiervoor een spark applicatie:
* Laad de kleine dataset over soorten irisen uit via sklearn en slap deze op als csv
* Upload de csv naar de cluster
* Schrijf de code om de json uit te lezen en om te zetten naar een dataframe
* Print het dataschema uit voor het dataframe en bepaal hoeveel kolommen er aanwezig zijn in deze dataset
* Ga op zoek naar het aantal null waarden per kolom en per rij

In [47]:
from sklearn.datasets import load_iris
import pandas as pd

df = load_iris(as_frame=True).frame
df.to_csv("input.csv")

In [21]:
if not client.exists('/user/bigdata/06_Spark/demo'):
    client.create_directory('/user/bigdata/06_Spark/demo')
client.set_working_directory('/user/bigdata/06_Spark/demo')

# do some cleaning in case anything else than input is present on HDFS
for f in client.list_directory("."):
    if not f["name"].endswith("input.csv"):
        client.delete(f["name"], True)
        
# upload input.txt
localFS.copy("input.csv", client, "input.csv")

0

In [36]:
#%%file spark_demo.py
from pyspark.sql import SparkSession
from pyspark.sql.functions import count, col, when, isnull

spark = SparkSession.builder.config("spark.driver.cores", 2).appName("Spark_les").getOrCreate()
df = spark.read.option("delimiter", ",").option("header", True).csv("/user/bigdata/06_Spark/demo/input.csv")

# rename columns with a dot
for c in df.columns:
    c_new = c.replace(".", "_")
    df = df.withColumnRenamed(c, c_new)

df.printSchema()
df.select([count(when(col(c).isNull(), c)).alias(c) for c in df.columns]).show()


root
 |-- Date: string (nullable = true)
 |-- GameID: string (nullable = true)
 |-- Drive: string (nullable = true)
 |-- qtr: string (nullable = true)
 |-- down: string (nullable = true)
 |-- time: string (nullable = true)
 |-- TimeUnder: string (nullable = true)
 |-- TimeSecs: string (nullable = true)
 |-- PlayTimeDiff: string (nullable = true)
 |-- SideofField: string (nullable = true)
 |-- yrdln: string (nullable = true)
 |-- yrdline100: string (nullable = true)
 |-- ydstogo: string (nullable = true)
 |-- ydsnet: string (nullable = true)
 |-- GoalToGo: string (nullable = true)
 |-- FirstDown: string (nullable = true)
 |-- posteam: string (nullable = true)
 |-- DefensiveTeam: string (nullable = true)
 |-- desc: string (nullable = true)
 |-- PlayAttempted: string (nullable = true)
 |-- Yards_Gained: string (nullable = true)
 |-- sp: string (nullable = true)
 |-- Touchdown: string (nullable = true)
 |-- ExPointResult: string (nullable = true)
 |-- TwoPointConv: string (nullable = true)



+----+------+-----+---+----+----+---------+--------+------------+-----------+-----+----------+-------+------+--------+---------+-------+-------------+----+-------------+------------+---+---------+-------------+------------+-----------+------+----------+----------+--------+------+---------+-----------+-----------+----------+--------+---------------+-----+------------+------------------+-----------+------+---------+-----------+-----------+------+--------+-----------+---------+------------+--------+--------------+--------+--------+---------------+-----------------+------+-----------+-------------+----+----------------+----------------+----------------+-------------+-----------+---------------+-------------+------------+------------+---------+------------+--------+--------+-----------------+------------+--------------------+--------------------------+--------------------------+---------------------------+---------------------------+-------------+-------------------+---------------+--------

                                                                                

In [37]:
#!python spark_demo.py

**Shared variabelen**

Variabelen met read-write acces zijn zeer inefficient om te gebruiken in een cluster met sterke parallelisatie.
Spark bied echter twee varianten aan die wel efficient geimplementeerd kunnen worden, namelijk
* Broadcasted variabelen
* Accumulators

Broadcasted variabelen zijn read-only variabelen, die aangemaakt worden door de driver en eenmalig verspreid worden over de nodes in plaats van voor elke job.
Dit wordt vooral gebruikt om grote data die veelvuldig gebruikt wordt te cachen op de nodes.
Bij het gebruik van broadcast variabelen is het belangrijk om te onthouden dat je de originele variabele niet meer mag gebruiken na het aanmaken van de broadcasted variabele omdat ze anders toch nog elke job doorgestuurd wordt.
De belangrijkste functies om te werken met broadcasted variabelen zijn:

**Accumulators**

Het andere type dat aangeboden wordt zijn accumulators.
Deze laten enkel toe dat noden iets toevoegen aan een gedeelde variabele.
Enkel de driver kan deze variabele uitlezen.
Dit kan bijvoorbeeld gebruikt worden om tellers of sommen bij te houden.
Deze accumulators kunnen een naam hebben (named accumulators zijn zichtbaar in de wep api).
De ingebouwde accumulator van Spark ondersteunt enkel numerieke accumulators.
Het is echter mogelijk om eigen accumulators toe te voegen door over te erven van de AccumulatorParam klasse en deze twee functies te implementeren:
* zero: De begin waarde van de accumulator
* addInPlace: Om twee waarden samen te voegen

## Pandas

Door de hoge populariteit van pandas in python is er een alternatief uitgewerkt binnen de laatste versie van Spark (eind 2021) dat de pandas api integreert.
Hierdoor kan je code schrijven die identiek is aan te werken met pandas.
Lees [dit artikel](https://towardsdatascience.com/run-pandas-as-fast-as-spark-f5eefe780c45) om meer informatie te krijgen over de verschillen tussen de dataframes API en de pandas-on-spark API.
De documentatie voor deze api vind je [hier](https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/index.html).
Een belangrijk onderdeel van deze documentatie omvat de best practices:
* Check execution plan (dmv de explain() functie)
* Use checkpoints voor fout-tolerantie en efficientie van de planner.
 * df.spark.local_checkpoint()
* Vermeid data shuffling (sorting) omdat hierbij data tussen nodes moet gestuurd worden wat niet efficient is.
* Vermeid berekeningen op 1 partitie (geen parallellisatie)
* Vermeid kolomnamen startend of eindigend op "_"
 * Deze worden gebruikt door interne functies van pandas/spark
* Kolomnamen moeten uniek zijn
* Specificeer de index kolom bij omzetten dataframe en pandas-on-spark API
* Gebruik zoveel mogelijk van de pandas-on-spark API direct ipv standaard python functies om conflicten te vermijden
 * df.sum() werkt maar sum(df) niet
* Vermeid operaties op meerdere dataframes want deze gebruiken een join intern en is hierdoor traag