<img src ='https://github.com/datasolut/databricks-tutorials/blob/main/images/datasolut_logo_quer.png?raw=true' alt="html image" text-align="center">


---

# PySpark Tutorial für Einsteiger

- [Gute Einleitungsartikel für Pyspark](https://www.guru99.com/de/pyspark-tutorial.html)
- [Tutorial Notebook von Databricks für Apache Spark](https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/8599738367597028/2201444230243598/3601578643761083/latest.html)

## Was ist Big Data?
- **Speicherung und Verarbeitung von große Datenmengen**: Big Data bezeichnet extrem große Datensätze, die mit traditionellen Datenverarbeitungsmethoden schwer zu handhaben sind. Diese Datenmengen werden oft in Terabytes oder Petabytes gemessen.
- **Herausforderungen**: Die Speicherung, Verwaltung und Verarbeitung riesiger Datenmengen erfordert spezialisierte Technologien und Infrastrukturen.

## Was ist Apache Spark?

- Apache Spark ist ein schnelles und universelles Cluster-Computing-System für die verteilte Datenverarbeitung großer Datenmengen.
- Es bietet vielseitige API-Unterstützung für Java, Scala, Python und R und enthält integrierte Komponenten für SQL-Abfragen, maschinelles Lernen, Stream-Verarbeitung und Graphverarbeitung.

Für mehr Informationen schau dir folgendes Youtube-Video von uns an:

<a href="https://www.youtube.com/watch?v=q84z_ZQHJhs"><img src ='https://github.com/datasolut/databricks-tutorials/blob/main/images/thumbnail_youtube_apache_spark.jpg?raw=true' alt="Youtube Thumbnail Apache Spark datasolut" text-align="center" width="500px"> </a>

## Was ist PySpark?
- PySpark ist die Python-API für Apache Spark, die es ermöglicht, die leistungsstarken Funktionen von Spark zur verteilten Datenverarbeitung direkt in Python zu nutzen. 
- Syntax von PySpark ähnelt dabei stark der von SQL, was die Arbeit mit DataFrames und die Durchführung von Abfragen und Datenmanipulationen besonders intuitiv und benutzerfreundlich macht.


## Cluster
Zunächst muss ein Cluster erstellt werden, auf dem die Datenmanipulationen ausgeführt werden können.

<img src ='https://github.com/datasolut/databricks-tutorials/blob/main/images/cluster_overview.png?raw=true' alt="Archtektur von Apache Spark" text-align="center" width="500px">

## SparkSession
Die Klasse **`SparkSession`** ist der einzige Zugangspunkt zu allen Funktionen in Spark, die die DataFrame-API verwenden.

In Databricks-Notebooks wird die SparkSession automatisch erstellt und in der Variable **`spark`** gespeichert.

In [None]:
spark

## DataFrames

Spark Dataframes sind eine verteilte Sammlung von Datenpunkten, welche die Daten in benannten Spalten organisiert 

- DataFrames wurde erstmals in Spark Version 1.3 eingeführt, um die Einschränkungen des Spark RDD zu überwinden. 
- Sie ermöglichen es Entwicklern, den Code während der Laufzeit zu debuggen, was mit den RDDs nicht möglich war.
- Dataframes können Daten in Formaten wie CSV, JSON, AVRO, HDFS und HIVE-Tabellen lesen und schreiben.
- Sie sind bereits für die Verarbeitung großer Datensätze für die meisten Vorverarbeitungsaufgaben optimiert, sodass keine komplexen Funktionen eigenständig geschrieben werden müssen.

In [None]:
# Erstellen eines DataFrames aus einer Liste
data = [
    ("2023-01-01", "KundeA", "Produkt1", 2, 10.0),
    ("2023-01-01", "KundeB", "Produkt2", 1, 15.0),
    ("2023-01-02", "KundeA", "Produkt1", 1, 10.0),
    ("2023-01-02", "KundeC", "Produkt3", 3, 20.0)
]

columns = ["Datum", "Kunde", "Produkt", "Menge", "Preis"]

# Erstellen des DataFrames
df = spark.createDataFrame(data, columns)

# Anzeigen des DataFrames
df.printSchema()

root
 |-- Datum: string (nullable = true)
 |-- Kunde: string (nullable = true)
 |-- Produkt: string (nullable = true)
 |-- Menge: long (nullable = true)
 |-- Preis: double (nullable = true)




## Daten anschauen

In [None]:
df.show(5)

+----------+------+--------+-----+-----+
|     Datum| Kunde| Produkt|Menge|Preis|
+----------+------+--------+-----+-----+
|2023-01-01|KundeA|Produkt1|    2| 10.0|
|2023-01-01|KundeB|Produkt2|    1| 15.0|
|2023-01-02|KundeA|Produkt1|    1| 10.0|
|2023-01-02|KundeC|Produkt3|    3| 20.0|
+----------+------+--------+-----+-----+



In [None]:
df.collect()

[Row(Datum='2023-01-01', Kunde='KundeA', Produkt='Produkt1', Menge=2, Preis=10.0),
 Row(Datum='2023-01-01', Kunde='KundeB', Produkt='Produkt2', Menge=1, Preis=15.0),
 Row(Datum='2023-01-02', Kunde='KundeA', Produkt='Produkt1', Menge=1, Preis=10.0),
 Row(Datum='2023-01-02', Kunde='KundeC', Produkt='Produkt3', Menge=3, Preis=20.0)]

In [None]:
df.take(1), df.tail(1)

([Row(Datum='2023-01-01', Kunde='KundeA', Produkt='Produkt1', Menge=2, Preis=10.0)],
 [Row(Datum='2023-01-02', Kunde='KundeC', Produkt='Produkt3', Menge=3, Preis=20.0)])

## Auswählen und Zugreifen auf Daten

In [None]:
from pyspark.sql.functions import col

In [None]:
# Verschiedene Schreibweisen
df.select(df.Kunde).show()

df.select(col("Kunde")).show()

df.select("Kunde").show()

+------+
| Kunde|
+------+
|KundeA|
|KundeB|
|KundeA|
|KundeC|
+------+

+------+
| Kunde|
+------+
|KundeA|
|KundeB|
|KundeA|
|KundeC|
+------+

+------+
| Kunde|
+------+
|KundeA|
|KundeB|
|KundeA|
|KundeC|
+------+



In [None]:
df.filter(col("Kunde") == "KundeA").show()

+----------+------+--------+-----+-----+
|     Datum| Kunde| Produkt|Menge|Preis|
+----------+------+--------+-----+-----+
|2023-01-01|KundeA|Produkt1|    2| 10.0|
|2023-01-02|KundeA|Produkt1|    1| 10.0|
+----------+------+--------+-----+-----+



## Gruppieren von Daten



In [None]:
df.groupby("Kunde").sum("Preis").show()

+------+----------+
| Kunde|sum(Preis)|
+------+----------+
|KundeA|      20.0|
|KundeB|      15.0|
|KundeC|      20.0|
+------+----------+



## Daten rausschreiben und einladen

### CSV

In [None]:
#dbutils.fs.rm("dbfs:/FileStore/demos/pypsark-demos/sales.csv", recurse=True)
dbutils.fs.rm("dbfs:/FileStore/demos/pypsark-demos/sales.delta", recurse=True)


True

In [None]:
path = "dbfs:/FileStore/demos/pypsark-demos/"
df.write.csv(path+'sales.csv', header=True)
spark.read.csv(path+'sales.csv', header=True).show()

+----------+------+--------+-----+-----+
|     Datum| Kunde| Produkt|Menge|Preis|
+----------+------+--------+-----+-----+
|2023-01-01|KundeA|Produkt1|    2| 10.0|
|2023-01-01|KundeB|Produkt2|    1| 15.0|
|2023-01-02|KundeA|Produkt1|    1| 10.0|
|2023-01-02|KundeC|Produkt3|    3| 20.0|
+----------+------+--------+-----+-----+



### Delta

In [None]:
df.write.format("delta").option("overwrite", "true").save(path+'sales.delta')
spark.read.format("delta").load(path+'sales.delta').show()

+----------+------+--------+-----+-----+
|     Datum| Kunde| Produkt|Menge|Preis|
+----------+------+--------+-----+-----+
|2023-01-02|KundeC|Produkt3|    3| 20.0|
|2023-01-01|KundeA|Produkt1|    2| 10.0|
|2023-01-01|KundeB|Produkt2|    1| 15.0|
|2023-01-02|KundeA|Produkt1|    1| 10.0|
+----------+------+--------+-----+-----+



### Arbeiten mit SQL-Befehlen

In [None]:
df.createOrReplaceTempView("tableA")
spark.sql("SELECT count(*) from tableA").show()

+--------+
|count(1)|
+--------+
|       4|
+--------+



### Pandas User Defined Functions (UDF)

In [None]:
import pandas as pd
from pyspark.sql.functions import pandas_udf

In [None]:
@pandas_udf("float")
def double_price(s: pd.Series) -> pd.Series:
    return s * 2

spark.udf.register("double_price_udf", double_price)
spark.sql("SELECT Kunde , Preis, double_price_udf(Preis) as DoppelterPreis FROM tableA").show()

+------+-----+--------------+
| Kunde|Preis|DoppelterPreis|
+------+-----+--------------+
|KundeA| 10.0|          20.0|
|KundeB| 15.0|          30.0|
|KundeA| 10.0|          20.0|
|KundeC| 20.0|          40.0|
+------+-----+--------------+

