Skip to content

ChristianKitte/SparkProjekt

Repository files navigation

Einführung in Spark

Apache Spark Logo

(Das Apache Spark Loge ist ein eingetragenes Logo der Apache Software Foundation

Semesterarbeit im Modul Datenbank-Technologien

Wintersemester 2021/22

Christian Kitte

Zu Anfang der Beschäftigung mit Apache Spark stößt man auf eine Vielzahl an Begriffen und Konzepten, welche gerade für diejenigen, die nicht aus dem Umfeld von Big Data stammen, neu und eher schwer zu erfassen sind. Erschwerend kommt hinzu, dass sich Spark schnell weiterentwickelt und gefundene Informationen immer auch zeitlich eingeordnet werden müssen. Ziel dieser Arbeit ist es daher, dem Leser einen kurzen, aber grundlegenden Einblick in Apache Spark zu geben.

Am Ende soll der Leser einen Eindruck davon haben, was Apache Spark ist, wie es eingesetzt werden kann und wo seine Anfänge liegen. Wichtige Begriffe im Umfeld von Spark können zugeordnet werden und ermöglichen so, sich selbstständig weiter in die Materie einzuarbeiten. Daher wird nicht nur der aktuelle Stand, sondern auch der Weg dorthin betrachtet.

Auf Basis der Sprache Python und zweier Jupyter Notebooks werden in Abschnitt vier und fünf zwei einfache Beispiele vorgestellt, wie Apache Spark zur Lösung eines Problems genutzt werden kann. Dieser Code ist frei verfügbar und kann als Startpunkt für eigene Programme dienen.

Bei allen verwendeten Bildern wird im Text auf die Herkunft verwiesen, sofern es sich nicht um eigene Abbildungen handelt. Gleiches gilt, sofern sich bei Aussagen explizit auf eine fremde Quelle bezogen wird. Weiter wurden alle in der Linkliste dokumentierten Informationsquellen für die Einarbeitung genutzt. Diese kann auch als Ausgangspunkt für eine Vertiefung in die Materie verwendet werden.

Alle in dieser Arbeit genutzten Begrifflichkeiten und Bilder werden hierbei ohne Rücksicht auf etwaige Lizenzen oder Patente genutzt. Die Verwendung von Begriffen oder Bilder in dieser Arbeit impliziert nicht deren freie Verfügbarkeit.

About

Eine einfache und allgemeine Einführung in Spark als Semesterarbeit

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published