In [1]:
%pip install pyspark

Note: you may need to restart the kernel to use updated packages.


## Spark - Map Reduce Beispiel


Nachdem wir eingangs MapReduce in Python implementiert haben, wollen wir das Ganze nun nochmal in Apache Spark implementieren.

Hierfür muss zunächst Spark lokal installiert werden:
* [für Mac](https://sparkbyexamples.com/spark/install-apache-spark-on-mac/)
* [für Windows](https://sparkbyexamples.com/spark/apache-spark-installation-on-windows/)

Diese Lokalinstallation ist nötig, um Spark-Workloads ausführen zu können (ähnlich dem gehosteten Spark auf z.B. AWS).

In [2]:
from pyspark import SparkContext

# Create a SparkContext
sc = SparkContext("local", "WordCountExample")

# Load a text file from your local filesystem into an RDD (Resilient Distributed Dataset)
text_file = sc.textFile("./input_text.txt")

# Split each line into words
words = text_file.flatMap(lambda line: line.split(" "))

# Assign a count of 1 to each word
word_counts = words.map(lambda word: (word, 1))

# Perform a reduce operation to count the occurrences of each word
word_count = word_counts.reduceByKey(lambda a, b: a + b)

# Print the word count results
for (word, count) in word_count.collect():
    print(f"{word}: {count}")

# Stop the SparkContext
sc.stop()


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/10/30 13:37:10 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
                                                                                

Lorem: 1
ipsum: 6
dolor: 3
sit: 9
amet,: 1
consectetur: 2
adipiscing: 1
elit.: 3
Nullam: 6
placerat,: 1
felis: 4
eget: 12
mattis: 2
accumsan,: 1
quam: 7
turpis: 2
bibendum: 8
libero,: 2
eu: 14
tempus: 2
libero: 15
ex: 7
vel: 16
quam.: 4
Curabitur: 2
laoreet,: 2
nunc: 6
nec: 17
convallis: 3
malesuada,: 2
metus: 3
varius: 3
ex,: 1
ut: 10
scelerisque: 4
lorem: 6
odio: 10
nulla.: 3
Fusce: 2
tristique: 5
luctus: 3
diam,: 1
et: 10
vehicula: 4
laoreet: 6
eget.: 2
Nam: 1
feugiat,: 1
erat: 6
a: 19
lacinia: 6
euismod,: 2
purus: 7
augue: 3
vestibulum: 5
arcu,: 2
in: 15
viverra: 4
justo: 8
non: 12
libero.: 2
Sed: 18
massa.: 2
velit,: 1
cursus: 5
justo.: 3
Praesent: 3
leo: 4
eleifend: 8
pharetra.: 2
: 7
Pellentesque: 1
diam: 1
iaculis.: 2
vestibulum,: 1
urna: 4
tincidunt: 7
dictum,: 2
sapien: 11
venenatis: 4
nulla,: 1
at: 4
vulputate: 2
ligula: 6
nisi.: 2
Nunc: 1
fermentum,: 1
fermentum: 2
lacinia,: 1
massa,: 3
feugiat: 4
eros.: 1
mi: 3
interdum: 4
malesuada.: 1
Donec: 5
egestas: 3
auctor: 5
pellen

## Aufgabe: Berechnung der Quadratwerte mit PySpark

Erstelle ein PySpark-Programm, das eine Liste von Zahlen in einem RDD  (Resilient Distributed Dataset) erstellt und dann die Quadratwerte dieser Zahlen berechnet.

In [3]:
from pyspark import SparkContext

# Erstellen eines SparkContext
sc = SparkContext("local", "SimplePySparkTask")

# Erstellen eines RDD mit einer Liste von Zahlen
numbers = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

squared_numbers = numbers.map(lambda x: x * x)

for number, squared_number in zip(numbers.collect(), squared_numbers.collect()):
    print(f"{number} squared is {squared_number}")

sc.stop()

                                                                                

1 squared is 1
2 squared is 4
3 squared is 9
4 squared is 16
5 squared is 25
6 squared is 36
7 squared is 49
8 squared is 64
9 squared is 81
10 squared is 100
