## 🧠 1. Was ist Spark? Warum PySpark?

> "Alle reden über Spark — aber was löst es eigentlich?"

- **Apache Spark** ist eine verteilte Datenverarbeitungs-Engine.
  - *Übersetzt*: Anstatt dass ein Computer alles alleine macht (wie dein Laptop mit Python), verteilt Spark die Arbeit auf *viele* Rechner oder CPU-Kerne.
  - *Einsatzgebiet*: Riesige Datenmengen und Machine Learning auf Skalenniveau.

- **Warum nicht einfach Pandas oder reines Python?**
  - *Kleine Daten passen in den Arbeitsspeicher → Pandas reicht locker.*
  - *Daten größer als RAM → Pandas stirbt.*
  - *Man braucht echte Parallelisierung → Spark.*

- **Warum PySpark?**
  - Spark ist in Scala und Java geschrieben — aber wer will für normale Datenverarbeitung in Java rumfrickeln?
  - **PySpark** erlaubt dir, Spark mit Python zu steuern. Fast alle Vorteile, aber einfacher zu schreiben.
 
- **Wann Scala/Java doch besser ist?**
    - Wenn du maximale Performance brauchst (z. B. komplexe UDFs).
    - Bei extrem großen Datasets (Python-Overhead kann spürbar werden).
    - Für Spark-Interna-Entwicklung (z. B. eigene Spark-Erweiterungen).

**Ehrliche Einschätzung**:  
> Nutze Spark nur, wenn du *musst* (Daten zu groß, Performance wird kritisch).  
> Ansonsten: **Pandas > PySpark** bei kleinen bis mittleren Daten.

## ⚙️ 2. Cluster Mode vs Local Mode

Stell dir vor, du hast eine schwere Datenverarbeitung.

| Modus | Was passiert | Wann verwenden | Wichtigster Punkt |
|:----|:------------|:----------------|:-----------|
| **Local Mode** | Spark läuft auf deinem Rechner, nutzt mehrere CPU-Kerne. | Entwicklung, Tests, kleine Datenmengen. | *Trainingsmodus.* |
| **Cluster Mode** | Spark läuft auf mehreren Servern (Nodes). | Produktion, Big Data. | *Echte Skalierung.* |

**Skizze:**

```plaintext
Local Mode:
+-----------------+
| Laptop          |
| [Core1][Core2]  |
| [Core3][Core4]  |
+-----------------+

Cluster Mode:
+--------------------+     +-------------------+     +-------------------+
| Worker Node 1      |     | Worker Node 2      |     | Worker Node 3      |
| [Task1][Task2]     |     | [Task3][Task4]     |     | [Task5][Task6]     |
+--------------------+     +-------------------+     +-------------------+
          \                    |                    /
           \                   |                   /
                +----------------------------------+
                |        Spark Driver Program     |
                +----------------------------------+
```

> **Wichtig**: *Im Cluster Mode steuert ein Programm viele Maschinen.*  
> **Local Mode simuliert nur ein Mini-Cluster auf deinem Laptop.*

## ⚙️ 3. Spark Architecture

In [1]:
from IPython.display import Image

Image(url="https://spark.apache.org/docs/latest/img/cluster-overview.png")

### Spark Architektur: Cluster Overview)

Dieses Diagramm zeigt **wie Spark verteilt arbeitet**:

| Komponente | Beschreibung |
|:---|:---|
| **Driver Program** | Dein Hauptprogramm. Es steuert alles: Job-Aufteilung, Kommunikation, Fehlerbehandlung. |
| **SparkContext** | Die zentrale Verbindung vom Driver zu Spark. Du programmierst damit die Aktionen und Transformationen. |
| **Cluster Manager** | Verwaltet die Ressourcen im Cluster (CPU, RAM). Beispiele: YARN, Kubernetes, Standalone. |
| **Worker Nodes** | Die Maschinen, die die eigentliche Datenverarbeitung übernehmen. |
| **Executor** | Ein Prozess auf einem Worker, der Tasks ausführt und Daten im Speicher hält. |
| **Task** | Die kleinste Recheneinheit. Ein Spark-Job wird in viele Tasks aufgeteilt. |
| **Cache** | Zwischenspeicher (RAM) für Daten, die mehrfach gebraucht werden, damit sie nicht immer neu berechnet werden müssen. |

---

### 🔥 Wichtig zu verstehen:

- **Driver** → Teilt Jobs auf und schickt sie über den **Cluster Manager** an die **Worker Nodes**.
- Jeder **Worker** hat mindestens einen **Executor**, der wiederum mehrere **Tasks** parallel ausführt.
- **Caches** sparen Zeit, indem sie Daten im RAM statt auf der Platte halten.

---

### 🧠 Skeptische Beobachtungen:

- **Single Point of Failure**: Wenn der Driver abstürzt, ist der ganze Job verloren (außer du hast High Availability konfiguriert).
- **Ressourcenverschwendung möglich**: Executors brauchen RAM – schlecht abgestimmt → viele Out-of-Memory-Fehler.
- **Netzwerk Bottleneck**: Schweres Shuffling (viel Datentausch zwischen Workern) kann Spark-Jonehmer nicht einfach abschalten.)

# ✨ 4.`SparkSession` als Einstiegspunkt

- In Spark 2.0 und neuer ist **`SparkSession`** der *offizielle Einstiegspunkt* für jede Spark-Anwendung.
- Früher musste man `SparkContext`, `SQLContext`, `HiveContext` usw. separat erstellen — heute bündelt `SparkSession` alles in einem Objekt.

**Merksatz**:  
> **Ohne SparkSession → kein Zugriff auf Spark.**

**Beispiel:**

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Localspark") \
    .master("local[*]") \
    .getOrCreate()
spark.sparkContext.setLogLevel("ERROR")

In [22]:
df = spark.createDataFrame(
    [("Alice", "Engineering", 65000, 28),
    ("Bob", "Marketing", 58000, 32),
    ("Carol", "Engineering", 72000, 35)], 
                           ["name", "department", "salary", "age"])

In [23]:
df.show()

+-----+-----------+------+---+
| name| department|salary|age|
+-----+-----------+------+---+
|Alice|Engineering| 65000| 28|
|  Bob|  Marketing| 58000| 32|
|Carol|Engineering| 72000| 35|
+-----+-----------+------+---+



In [2]:
type(spark)

pyspark.sql.session.SparkSession

In [3]:
type(spark.sparkContext)

pyspark.context.SparkContext

## 🆚 5. DataFrame vs RDD (nur die Basics)

| Feature | DataFrame | RDD |
|:--------|:----------|:----|
| **Definition** | Tabelle mit Spalten und Datentypen (ähnlich SQL oder Pandas) | Rohes, unstrukturiertes Datenset (verteilte Liste von Objekten) |
| **Benutzerfreundlichkeit** | Hoch – SQL-ähnliche Operationen | Niedrig – eigene Map/Reduce-Logik schreiben |
| **Performance** | Optimiert durch Catalyst & Tungsten Engine | Weniger optimiert (du musst dich selbst um Performance kümmern) |
| **Anwendungsfall** | Klassische Datenverarbeitung, Analytics, Machine Learning Pipelines | Low-Level Transformationen, wenn extreme Flexibilität gebraucht wird |

**Skeptische Wahrheit**:  
> Wer heute noch direkt mit RDDs arbeitet, hat meist ein sehr spezielles Problem — oder kein Vertrauen in Spark-Optimierungen.

In [27]:
from pyspark import SparkContext

sc = SparkContext.getOrCreate()

# RDD aus Liste erstellen (verteilte Rohdaten)
rdd = sc.parallelize([
    ("Müller", 35, "Berlin"),
    ("Schmidt", 28, "München")
])

data = rdd.collect()
print(data)

[('Müller', 35, 'Berlin'), ('Schmidt', 28, 'München')]


In [28]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

# DataFrame mit Schema erstellen
df = spark.createDataFrame(
    [("Müller", 35, "Berlin"), ("Schmidt", 28, "München")],
    ["Name", "Alter", "Stadt"]
)

df.show()

+-------+-----+-------+
|   Name|Alter|  Stadt|
+-------+-----+-------+
| Müller|   35| Berlin|
|Schmidt|   28|München|
+-------+-----+-------+



In [32]:
# Map-Operation (manuelle Transformation)
rdd_mapped = rdd.map(lambda x: (x[0], x[1] * 2))  # Verdopple das Alter
print(rdd_mapped.collect()) 

[('Müller', 70), ('Schmidt', 56)]


In [30]:
# SQL-ähnliche Operation
df_transformed = df.select("Name", (df.Alter * 2).alias("Doppeltes_Alter"))
df_transformed.show()

+-------+---------------+
|   Name|Doppeltes_Alter|
+-------+---------------+
| Müller|             70|
|Schmidt|             56|
+-------+---------------+



In [40]:
# Durchschnittsalter in einem Schritt berechnen
durchschnittsalter = rdd.map(lambda x: (x[1], 1)) \
                       .reduce(lambda a, b: (a[0] + b[0], a[1] + b[1]))

print(durchschnittsalter)
durchschnittsalter = durchschnittsalter[0] / durchschnittsalter[1]
print("Durchschnittsalter:", durchschnittsalter)

(63, 2)
Durchschnittsalter: 31.5


Was passiert Schritt für Schritt:

    1. Vorbereitung:

        - Ihr RDD enthält nach der map-Operation Paare von (Alter, 1)

        - Beispiel: [(35, 1), (28, 1)]

    2. Erster Reduzierungsschritt:

        - a = (35, 1), b = (28, 1)

        - Die Lambda-Funktion berechnet:

            a[0] + b[0] → 35 + 28 → 63 (Summe der Alter)

            a[1] + b[1] → 1 + 1 → 2 (Anzahl der Personen)

        - Ergebnis: (63, 2)

    3. Endergebnis:

        - Da nur zwei Elemente im RDD sind, ist dies das finale Ergebnis

In [42]:
from pyspark.sql import functions as F

df.agg(F.avg("Alter").alias("Durchschnittsalter")).show()

+------------------+
|Durchschnittsalter|
+------------------+
|              31.5|
+------------------+



## 🔄 6. Lebenszyklus eines DataFrames in Spark

**Was passiert intern?**

1. **Definition**:  
   Du schreibst Transformationen (`select`, `filter`, `join`), aber Spark führt *noch nichts* aus.

2. **Logischer Plan**:  
   Spark erstellt einen logischen Ablaufplan (nur eine Beschreibung, noch keine Ausführung).

3. **Physikalischer Plan**:  
   Spark optimiert den logischen Plan zu einem ausführbaren Programm (z. B. Broadcast Joins, Predicate Pushdown).

4. **Ausführung (Action!)**:  
   Erst wenn eine **Action** kommt (`show()`, `collect()`, `write()`) wird der Plan tatsächlich ausgeführt → *Lazy Execution Prinzip.*

**Grafisch:**

```plaintext
Transformationen -> Logischer Plan -> Optimierter physikalischer Plan -> Task-Ausführung
```


## 📊 7. Daten erkunden und transformieren

### Dataframe erstellen

In [49]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DeutscheDaten").getOrCreate()

# DataFrame mit deutschen Spaltennamen erstellen
data = [
    ("Müller", 35, "Berlin", 4000),
    ("Schmidt", 28, "München", 3200),
    ("Fischer", 42, "Hamburg", 5100)
]
df = spark.createDataFrame(data, ["Name", "Alter", "Stadt", "Gehalt"])
df.show()

+-------+-----+-------+------+
|   Name|Alter|  Stadt|Gehalt|
+-------+-----+-------+------+
| Müller|   35| Berlin|  4000|
|Schmidt|   28|München|  3200|
|Fischer|   42|Hamburg|  5100|
+-------+-----+-------+------+



In [50]:
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# Mit expliziten Datentypen
schema = StructType([
    StructField("Name", StringType(), True),
    StructField("Alter", IntegerType(), True),
    StructField("Stadt", StringType(), True),
    StructField("Gehalt", IntegerType(), True)
])

df_mit_schema = spark.createDataFrame(data, schema)
df_mit_schema.printSchema()


root
 |-- Name: string (nullable = true)
 |-- Alter: integer (nullable = true)
 |-- Stadt: string (nullable = true)
 |-- Gehalt: integer (nullable = true)



In [48]:
df_mit_schema.show()

+-------+-----+-------+------+
|   Name|Alter|  Stadt|Gehalt|
+-------+-----+-------+------+
| Müller|   35| Berlin|  4000|
|Schmidt|   28|München|  3200|
|Fischer|   42|Hamburg|  5100|
+-------+-----+-------+------+



### Übung 1: Grundlegende DataFrame-Erstellung

Aufgabe: Erstelle ein DataFrame mit Mitarbeiterdaten, das folgende Spalten enthält:

    Vorname (z.B. "Anna", "Thomas")
    Abteilung (z.B. "IT", "Vertrieb")
    Eintrittsjahr (z.B. 2015, 2020)

In [51]:
# Lösung
mitarbeiter_data = [
    ("Anna", "IT", 2018),
    ("Thomas", "Vertrieb", 2015),
    ("Julia", "HR", 2020)
]
mitarbeiter_df = spark.createDataFrame(mitarbeiter_data, ["Vorname", "Abteilung", "Eintrittsjahr"])
mitarbeiter_df.show()

+-------+---------+-------------+
|Vorname|Abteilung|Eintrittsjahr|
+-------+---------+-------------+
|   Anna|       IT|         2018|
| Thomas| Vertrieb|         2015|
|  Julia|       HR|         2020|
+-------+---------+-------------+



### CSV Lesen

In [52]:
import requests

# Korrekte RAW-URL
url = "https://raw.githubusercontent.com/gadanes/spark_kurs/main/notebooks/data.csv"

# Lade die CSV-Datei herunter
response = requests.get(url)
with open("/tmp/data.csv", "wb") as f:
    f.write(response.content)

# Lese die CSV-Datei mit Spark ein
df = spark.read.option("header", "true").csv("/tmp/data.csv")
df.show()

+-------+---+----------+--------------------+-------------------+------+
|   name|age|      city|               email|          job_title|salary|
+-------+---+----------+--------------------+-------------------+------+
|   Anna| 28|    Berlin|anna.mueller@exam...|       Data Analyst| 52000|
|    Ben| 35|   Hamburg|ben.schmidt@examp...|  Software Engineer| 74000|
|  Clara| 22|    Munich|clara.klein@examp...|Marketing Assistant| 42000|
|  David| 40|   Cologne|david.schneider@e...|    Project Manager| 83000|
|    Eva| 31| Stuttgart|eva.huber@example...|     Data Scientist| 68000|
|  Felix| 29|    Berlin|felix.wagner@exam...|    DevOps Engineer|  NULL|
|   Gina| 45|   Hamburg|gina.fischer@exam...|         HR Manager| 69000|
| Hannah| 26| Frankfurt|hannah.koch@examp...|        UI Designer| 54000|
|   Igor| 38|    Munich|igor.keller@examp...|      Sales Manager| 75000|
|  Julia| 24|Düsseldorf|julia.schmitt@exa...|    Content Creator| 41000|
|   Karl| 50|    Berlin|karl.bauer@exampl...|      

### Spalten auswählen (`select`)

Mit `.select()` kannst du gezielt bestimmte Spalten aus dem DataFrame auswählen.

**Merke:**  
> `.select()` **verändert** das ursprüngliche DataFrame **nicht**.  
> Es erzeugt eine **neue** Version.

In [19]:
df.select("name", "city", "job_title").show()

+-------+----------+-------------------+
|   name|      city|          job_title|
+-------+----------+-------------------+
|   Anna|    Berlin|       Data Analyst|
|    Ben|   Hamburg|  Software Engineer|
|  Clara|    Munich|Marketing Assistant|
|  David|   Cologne|    Project Manager|
|    Eva| Stuttgart|     Data Scientist|
|  Felix|    Berlin|    DevOps Engineer|
|   Gina|   Hamburg|         HR Manager|
| Hannah| Frankfurt|        UI Designer|
|   Igor|    Munich|      Sales Manager|
|  Julia|Düsseldorf|    Content Creator|
|   Karl|    Berlin|                CTO|
|   Lina| Stuttgart|         Accountant|
|    Max|   Cologne|   Network Engineer|
|   Nina|   Hamburg|      Product Owner|
| Oliver|    Berlin|  Backend Developer|
|  Paula|    Munich|   Product Designer|
|Quentin| Frankfurt|         Consultant|
|   Rita|Düsseldorf|   Junior Developer|
| Stefan| Stuttgart|         IT Support|
|   Tina|   Cologne|      Data Engineer|
+-------+----------+-------------------+



In [None]:
df.select("name", "city", "job_title").show()

### Zeilen filtern (`filter`, `where`)

Mit `.filter()` oder `.where()` kannst du Zeilen nach Bedingungen auswählen.

In [20]:
df.filter(df.age > 30).show()

+-------+---+---------+--------------------+-----------------+------+
|   name|age|     city|               email|        job_title|salary|
+-------+---+---------+--------------------+-----------------+------+
|    Ben| 35|  Hamburg|ben.schmidt@examp...|Software Engineer| 74000|
|  David| 40|  Cologne|david.schneider@e...|  Project Manager| 83000|
|    Eva| 31|Stuttgart|eva.huber@example...|   Data Scientist| 68000|
|   Gina| 45|  Hamburg|gina.fischer@exam...|       HR Manager| 69000|
|   Igor| 38|   Munich|igor.keller@examp...|    Sales Manager| 75000|
|   Karl| 50|   Berlin|karl.bauer@exampl...|              CTO|120000|
|   Lina| 33|Stuttgart|lina.maier@exampl...|       Accountant| 58000|
|    Max| 41|  Cologne|max.frank@example...| Network Engineer| 71000|
|  Paula| 36|   Munich|paula.hartmann@ex...| Product Designer| 65000|
|Quentin| 43|Frankfurt|quentin.schulz@ex...|       Consultant| 80000|
| Stefan| 39|Stuttgart|stefan.becker@exa...|       IT Support| 56000|
|   Tina| 32|  Colog

In [21]:
df.filter(df.salary > 80000).show()

+-----+---+-------+--------------------+---------------+------+
| name|age|   city|               email|      job_title|salary|
+-----+---+-------+--------------------+---------------+------+
|David| 40|Cologne|david.schneider@e...|Project Manager| 83000|
| Karl| 50| Berlin|karl.bauer@exampl...|            CTO|120000|
+-----+---+-------+--------------------+---------------+------+



In [22]:
df.where(df.age > 30).show()

+-------+---+---------+--------------------+-----------------+------+
|   name|age|     city|               email|        job_title|salary|
+-------+---+---------+--------------------+-----------------+------+
|    Ben| 35|  Hamburg|ben.schmidt@examp...|Software Engineer| 74000|
|  David| 40|  Cologne|david.schneider@e...|  Project Manager| 83000|
|    Eva| 31|Stuttgart|eva.huber@example...|   Data Scientist| 68000|
|   Gina| 45|  Hamburg|gina.fischer@exam...|       HR Manager| 69000|
|   Igor| 38|   Munich|igor.keller@examp...|    Sales Manager| 75000|
|   Karl| 50|   Berlin|karl.bauer@exampl...|              CTO|120000|
|   Lina| 33|Stuttgart|lina.maier@exampl...|       Accountant| 58000|
|    Max| 41|  Cologne|max.frank@example...| Network Engineer| 71000|
|  Paula| 36|   Munich|paula.hartmann@ex...| Product Designer| 65000|
|Quentin| 43|Frankfurt|quentin.schulz@ex...|       Consultant| 80000|
| Stefan| 39|Stuttgart|stefan.becker@exa...|       IT Support| 56000|
|   Tina| 32|  Colog

**Hinweis:**  
> **`filter`** und **`where`** sind **identisch** – es ist reine Geschmackssache.

### Neue Spalten erstellen (`withColumn`)

In [23]:
from pyspark.sql.functions import col

df = df.withColumn("age_plus_5", col("age") + 5)
df.show()

+-------+---+----------+--------------------+-------------------+------+----------+
|   name|age|      city|               email|          job_title|salary|age_plus_5|
+-------+---+----------+--------------------+-------------------+------+----------+
|   Anna| 28|    Berlin|anna.mueller@exam...|       Data Analyst| 52000|      33.0|
|    Ben| 35|   Hamburg|ben.schmidt@examp...|  Software Engineer| 74000|      40.0|
|  Clara| 22|    Munich|clara.klein@examp...|Marketing Assistant| 42000|      27.0|
|  David| 40|   Cologne|david.schneider@e...|    Project Manager| 83000|      45.0|
|    Eva| 31| Stuttgart|eva.huber@example...|     Data Scientist| 68000|      36.0|
|  Felix| 29|    Berlin|felix.wagner@exam...|    DevOps Engineer|  NULL|      34.0|
|   Gina| 45|   Hamburg|gina.fischer@exam...|         HR Manager| 69000|      50.0|
| Hannah| 26| Frankfurt|hannah.koch@examp...|        UI Designer| 54000|      31.0|
|   Igor| 38|    Munich|igor.keller@examp...|      Sales Manager| 75000|    

**Wichtig:**  
> Jede `.withColumn()`-Operation erstellt **intern ein neues DataFrame** — Spark verändert nie das Originalobjekt direkt.

### Bedingte Logik (`when`, `otherwise`)

Mit `when` und `otherwise` kannst du **Bedingungen** einbauen, ähnlich wie `if-else`.

In [33]:
from pyspark.sql.functions import when

df = df.withColumn(
    "income_category",
    when(col("salary") >= 80000, "Hochverdiener")
    .when((col("salary") >= 43000) & (col("salary") < 80000), "Normalverdiener")
    .otherwise("Geringverdiener")
)
df.show()

+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|   name|age|      city|               email|          job_title|salary|age_plus_5|income_category|
+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|   Anna| 28|    Berlin|anna.mueller@exam...|       Data Analyst| 52000|      33.0|Normalverdiener|
|    Ben| 35|   Hamburg|ben.schmidt@examp...|  Software Engineer| 74000|      40.0|Normalverdiener|
|  Clara| 22|    Munich|clara.klein@examp...|Marketing Assistant| 42000|      27.0|Geringverdiener|
|  David| 40|   Cologne|david.schneider@e...|    Project Manager| 83000|      45.0|  Hochverdiener|
|    Eva| 31| Stuttgart|eva.huber@example...|     Data Scientist| 68000|      36.0|Normalverdiener|
|  Felix| 29|    Berlin|felix.wagner@exam...|    DevOps Engineer|  NULL|      34.0|Geringverdiener|
|   Gina| 45|   Hamburg|gina.fischer@exam...|         HR Manager| 69000|      50.0|Normalverdiener|


**Merke:**  
> Viele verschachtelte `when`-Bedingungen können unübersichtlich werden → sauber strukturieren!

### Umgang mit fehlenden Werten (`fillna`, `dropna`)

In [30]:
# Fehlende Werte füllen (`fillna`):
# Ersetzt fehlende Gehälter durch 50000
df_filled = df.fillna({"salary": 50000})
df_filled.show()

+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|   name|age|      city|               email|          job_title|salary|age_plus_5|income_category|
+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|   Anna| 28|    Berlin|anna.mueller@exam...|       Data Analyst| 52000|      33.0|Normalverdiener|
|    Ben| 35|   Hamburg|ben.schmidt@examp...|  Software Engineer| 74000|      40.0|Normalverdiener|
|  Clara| 22|    Munich|clara.klein@examp...|Marketing Assistant| 42000|      27.0|Geringverdiener|
|  David| 40|   Cologne|david.schneider@e...|    Project Manager| 83000|      45.0|  Hochverdiener|
|    Eva| 31| Stuttgart|eva.huber@example...|     Data Scientist| 68000|      36.0|Normalverdiener|
|  Felix| 29|    Berlin|felix.wagner@exam...|    DevOps Engineer| 50000|      34.0|Geringverdiener|
|   Gina| 45|   Hamburg|gina.fischer@exam...|         HR Manager| 69000|      50.0|Normalverdiener|


In [29]:
# Zeilen mit fehlenden Werten löschen (`dropna`):
# Entfernt alle Zeilen, die mindestens einen `null`-Wert enthalten.
df_clean = df.dropna()
df_clean.show()

+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|   name|age|      city|               email|          job_title|salary|age_plus_5|income_category|
+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|   Anna| 28|    Berlin|anna.mueller@exam...|       Data Analyst| 52000|      33.0|Normalverdiener|
|    Ben| 35|   Hamburg|ben.schmidt@examp...|  Software Engineer| 74000|      40.0|Normalverdiener|
|  Clara| 22|    Munich|clara.klein@examp...|Marketing Assistant| 42000|      27.0|Geringverdiener|
|  David| 40|   Cologne|david.schneider@e...|    Project Manager| 83000|      45.0|  Hochverdiener|
|    Eva| 31| Stuttgart|eva.huber@example...|     Data Scientist| 68000|      36.0|Normalverdiener|
|   Gina| 45|   Hamburg|gina.fischer@exam...|         HR Manager| 69000|      50.0|Normalverdiener|
| Hannah| 26| Frankfurt|hannah.koch@examp...|        UI Designer| 54000|      31.0|Normalverdiener|


### Gruppieren und Aggregieren (`groupBy` + `agg`)

Mit `.groupBy()` kannst du dein DataFrame nach einer oder mehreren Spalten **gruppieren**.  
Mit `.agg()` kannst du dann **Aggregationfunktionen** auf jede Gruppe anwenden.

In [35]:
from pyspark.sql import functions as F

#Durchschnitt berechnen
df.groupBy("city").agg(F.avg("salary")).show()

+----------+------------------+
|      city|       avg(salary)|
+----------+------------------+
| Frankfurt|           67000.0|
|    Berlin| 79666.66666666667|
|Düsseldorf|           44000.0|
|   Hamburg|           71500.0|
| Stuttgart|60666.666666666664|
|   Cologne| 75666.66666666667|
|    Munich|60666.666666666664|
+----------+------------------+



In [36]:
#Zählt die Anzahl der Einträge
df.groupBy("city").count().show()

+----------+-----+
|      city|count|
+----------+-----+
| Frankfurt|    2|
|    Berlin|    4|
|Düsseldorf|    2|
|   Hamburg|    3|
| Stuttgart|    3|
|   Cologne|    3|
|    Munich|    3|
+----------+-----+



In [37]:
#Summiert Werte einer Spalte
df.groupBy("city").agg(F.sum("salary")).show()

+----------+-----------+
|      city|sum(salary)|
+----------+-----------+
| Frankfurt|   134000.0|
|    Berlin|   239000.0|
|Düsseldorf|    88000.0|
|   Hamburg|   143000.0|
| Stuttgart|   182000.0|
|   Cologne|   227000.0|
|    Munich|   182000.0|
+----------+-----------+



**Wichtig zu wissen:**  
> `.groupBy()` alleine macht noch nichts. Erst `.agg()`, `.count()`, `.sum()` oder `.avg()` lösen die echte Berechnung aus.

### Sortieren und Reihenfolge ändern (`orderBy`, `sort`)

Mit `.orderBy()` oder `.sort()` kannst du dein DataFrame sortieren.

In [39]:
#Nach Gehalt absteigend sortieren
df.orderBy(F.desc("salary")).show()

+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|   name|age|      city|               email|          job_title|salary|age_plus_5|income_category|
+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|  David| 40|   Cologne|david.schneider@e...|    Project Manager| 83000|      45.0|  Hochverdiener|
|Quentin| 43| Frankfurt|quentin.schulz@ex...|         Consultant| 80000|      48.0|  Hochverdiener|
|   Igor| 38|    Munich|igor.keller@examp...|      Sales Manager| 75000|      43.0|Normalverdiener|
|    Ben| 35|   Hamburg|ben.schmidt@examp...|  Software Engineer| 74000|      40.0|Normalverdiener|
|   Tina| 32|   Cologne|tina.kraus@exampl...|      Data Engineer| 73000|      37.0|Normalverdiener|
|    Max| 41|   Cologne|max.frank@example...|   Network Engineer| 71000|      46.0|Normalverdiener|
|   Gina| 45|   Hamburg|gina.fischer@exam...|         HR Manager| 69000|      50.0|Normalverdiener|


In [38]:
# Oder aufsteigend (Standard)
df.orderBy("age").show()

+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|   name|age|      city|               email|          job_title|salary|age_plus_5|income_category|
+-------+---+----------+--------------------+-------------------+------+----------+---------------+
|  Clara| 22|    Munich|clara.klein@examp...|Marketing Assistant| 42000|      27.0|Geringverdiener|
|  Julia| 24|Düsseldorf|julia.schmitt@exa...|    Content Creator| 41000|      29.0|Geringverdiener|
|   Rita| 25|Düsseldorf|rita.lang@example...|   Junior Developer| 47000|      30.0|Normalverdiener|
| Hannah| 26| Frankfurt|hannah.koch@examp...|        UI Designer| 54000|      31.0|Normalverdiener|
| Oliver| 27|    Berlin|oliver.weber@exam...|  Backend Developer| 67000|      32.0|Normalverdiener|
|   Anna| 28|    Berlin|anna.mueller@exam...|       Data Analyst| 52000|      33.0|Normalverdiener|
|  Felix| 29|    Berlin|felix.wagner@exam...|    DevOps Engineer|  NULL|      34.0|Geringverdiener|


In [None]:
## 🔃 Sortieren und Reihenfolge ändern (`orderBy`, `sort`)

Mit `.orderBy()` oder `.sort()` kannst du dein DataFrame sortieren.

**Beispiel: Nach Gehalt absteigend sortieren:**

```python
df.orderBy(F.desc("salary")).show()
```

**Oder aufsteigend (Standard):**

```python
df.orderBy("age").show()

**Hinweis:**  
> `orderBy` und `sort` sind **gleichwertig**.  
> Bei riesigen DataFrames kann Sortieren teuer werden → vorsichtig einsetzen!

### Window Functions

Window Functions erlauben dir, über eine **Teilmenge** deiner Daten zu arbeiten, **ohne** sie vollständig zu aggregieren.

In [40]:
from pyspark.sql.window import Window

window_spec = Window.partitionBy("city").orderBy(F.desc("salary"))

df = df.withColumn("rank_in_city", F.rank().over(window_spec))
df.show()

+-------+---+----------+--------------------+-------------------+------+----------+---------------+------------+
|   name|age|      city|               email|          job_title|salary|age_plus_5|income_category|rank_in_city|
+-------+---+----------+--------------------+-------------------+------+----------+---------------+------------+
| Oliver| 27|    Berlin|oliver.weber@exam...|  Backend Developer| 67000|      32.0|Normalverdiener|           1|
|   Anna| 28|    Berlin|anna.mueller@exam...|       Data Analyst| 52000|      33.0|Normalverdiener|           2|
|   Karl| 50|    Berlin|karl.bauer@exampl...|                CTO|120000|      55.0|  Hochverdiener|           3|
|  Felix| 29|    Berlin|felix.wagner@exam...|    DevOps Engineer|  NULL|      34.0|Geringverdiener|           4|
|  David| 40|   Cologne|david.schneider@e...|    Project Manager| 83000|      45.0|  Hochverdiener|           1|
|   Tina| 32|   Cologne|tina.kraus@exampl...|      Data Engineer| 73000|      37.0|Normalverdien

25/04/29 08:00:42 ERROR Inbox: Ignoring error
org.apache.spark.SparkException: Exception thrown in awaitResult: 
	at org.apache.spark.util.SparkThreadUtils$.awaitResult(SparkThreadUtils.scala:56)
	at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:310)
	at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:75)
	at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:102)
	at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:110)
	at org.apache.spark.util.RpcUtils$.makeDriverRef(RpcUtils.scala:36)
	at org.apache.spark.storage.BlockManagerMasterEndpoint.driverEndpoint$lzycompute(BlockManagerMasterEndpoint.scala:124)
	at org.apache.spark.storage.BlockManagerMasterEndpoint.org$apache$spark$storage$BlockManagerMasterEndpoint$$driverEndpoint(BlockManagerMasterEndpoint.scala:123)
	at org.apache.spark.storage.BlockManagerMasterEndpoint.isExecutorAlive$lzycompute$1(BlockManagerMasterEndpoint.scala:688)
	at org.apache.spark.storage.BlockManagerMasterE

### Lesen von Azure Datenbank

In [None]:
from pyspark.sql import SparkSession
from dotenv import load_dotenv
import os

spark = SparkSession.builder \
    .appName("Localspark") \
    .master("local[*]") \
    .config("spark.jars.packages",
        "com.microsoft.sqlserver:mssql-jdbc:12.6.1.jre11") \
    .getOrCreate()
spark.sparkContext.setLogLevel("ERROR")