# Einführung zu Spark und Python

Wir können jetzt lernen, wie wir Spark mit Python verwenden können, indem wir die `pyskark` Library verwenden. Gehe sicher, dass du die Video-Lektionen zu Spark und RDDs anschaust, bevor du mit diesem Code anfängst.

Dieses Notebook dient als Code Refrenz für den Big Data Abschnitt des Kurses, der Amazon Web Services einschließt. Das Video wird ausführlichere Erklärungen zum Code bieten.

## Einen SparkContext erstellen

Zuerst müssen wir einen `SparkContext` erstellen. Wir importieren ihn aus `pyspark`:

In [2]:
from pyspark import SparkContext

Jetzt erstellen wir einen SparkContext. Ein SparkContext repräsentiert eine Verbinding zu einem Spark Cluster. Es kann dazu verwendet werden ein RDD zu erstellen und Variablen an das Cluster zu übergeben.

*Hinweis: Du kannst nur einen SparkContext auf einmal haben.*

In [3]:
sc = SparkContext()

## Grundlegende Operationen

Wir werden mit dem "Hallo Welt" Beispiel beginnen. Es besteht darin eine Textdatei zu lesen. Zuerst sollten wir dazu eine solche Datei schreiben.

Wir schreiben eine beispielhafte Textdatei, die wir anschließend lesen können. Wir verwenden dazu Jupyter Notebook Code, aber jede andere .txt-Datei kann verwendet werden:

In [4]:
%%writefile beispiel.txt
erste zeile
zweite zeile
dritte zeile
vierte zeile

Overwriting beispiel.txt


## RDD erstellen

Jetzt können wir die Textdatei verwenden, indem wir die `textFile` Methode des bereits erstellten SparkContext nutzen. Diese Methode wird eine TextDatei vom HDFS lesen, einem lokalen Dateisystem (verfügbar auf allen Nodes), oder von jeder Hadoop-unterstützten Datei System URI, und gibt es als RDD von Strings zurück.

In [5]:
textFile = sc.textFile('beispiel.txt')

Sparks primäre Abstraktion ist eine verteilte Sammlung von Items, die *Resilient Distributed Dataset* (RDD) genannt werden. RDDs können durch Hadoop InputFormats (wie bspw. HDFS Dateien) erstellt werden oder durch Transformation anderer RDDs.

### Actions

Wir haben gereade ein RDD erstellt, indem wir die `textFile` Methode verwendet haben. Auf dieses Objekt können wir jetzt Aktionen anwenden. Zu den möglichen Operationen zählt beispielsweise ein *Count* der Zeilen.

RDDs bieten Aktionen (en. Actions), die Werte zurückgeben, und Transformationen, die auf neue RDDs verweisen. Beginnen wir mit zwei Actions:

In [6]:
textFile.count()

4

In [7]:
textFile.first()

'erste zeile'

### Transformations

Jetzt können wir Transformationen (en. Transformations) verwenden. Ein Beispiel ist die `filter` Transformation, die ein neues RDD zurückgibt, welches ein Subset der urspünglichen Daten beinhaltet. Erstellen wir eine einfache Transformation, indem wir die `filter()` Methode verwenden. Diese Methode (genau wie Python's eigene Filter Funktion) gibt nur Elemente zurück, die die Bedingung erfüllen. Wir können nach Zeilen suchen, in denen "zwei" enthalten ist. In unserem Fall sollte es nur eine solche Zeile geben. Überprüfen wir das:

In [8]:
zweifind = textFile.filter(lambda line: 'zwei' in line)

In [9]:
# RDD

In [10]:
zweifind

PythonRDD[4] at RDD at PythonRDD.scala:48

In [11]:
# Action auf die Transformation anwenden
zweifind.collect()

['zweite zeile']

In [12]:
# Action auf die Transformation anwenden
zweifind.count()

1

Achte darauf, wie die Transformation keinen Output erzeugt, wenn keine Action darauf ausgeführt wird. In der nächsten Lektion: Fotgeschrittene Spark und Python Inhalte. Wir werden damit beginnen viele weitere Beispiele für Actions, Transformations und deren Zusammenspiel zu sehen.

# Gut gemacht!