# Dask DataFrames

Dask DataFrames sind eine Sammlung von Pandas DataFrames, die Reihen-weise gruppiert sind und durch einen Index organisiert sind. Diese Pandas DataFrames m√ºssen nicht zwingend auf dem lokalen Computer vorhanden sein.

Das DataFrame API von Pandas wird auch von Dask √ºbernommen und die Datenmanipulation ist deshalb weitgehend gleich.

Anstatt Pandas zu importieren, wird einfach Dask DataFrame importiert:

In [1]:
import dask.dataframe as dd

## Daten einlesen

Wir k√∂nnen nun einfach Daten einlesen wie in Pandas:

In [2]:
df = dd.read_csv(
    '../data/LoRa-Sensoren-ZH/*.csv',
    sep = ";",
    dtype = { 'magl': 'float64' }
)

Dabei erkennen wir zwei Unterschiede:

1. Wir lesen hier nicht eine Datei ein, sondern gleich 42 CSV-Dateien in einem Befehl. Dies geschieht dank dem Sternzeichen anstatt dem genauen Namen. Allerdings ist es wichtig dass die Datenstruktur f√ºr alle Dateien identisch ist.

2. Ein `dtype`-Argument wurde hinzugef√ºgt. Dies ist spezifisch f√ºr Dask. F√ºr die Spalte `magl` wurde der Datentyp von Dask nicht richtig erkannt was zu einem Fehler gef√ºhrt hat. Das Einf√ºgen dieses Befehls behebt den Fehler.

---

## Aufgabe 1

F√ºhren Sie den Befehl ohne das `dtype`-Argument aus. Schauen Sie ob der Fehler ebenfalls geschieht. Und wenn ja, versuchen Sie den Fehlertext zu studieren um zu verstehen, wie die L√∂sung gefunden werden konnte.

---

## Datenmanipulationen

Wir k√∂nnen nat√ºrlich die ersten par Zeilen des Datensatzes anschauen:

In [17]:
df.head()

Unnamed: 0,starttime,site,masl,magl,x,y,sensor,temperature,humidity
0,2022-09-01 00:00,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.38,87.46
1,2022-09-01 00:10,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.38,87.54
2,2022-09-01 00:20,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.24,87.76
3,2022-09-01 00:30,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.15,87.5
4,2022-09-01 00:40,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.12,87.28


Wie viele Datenpunkte haben wir?

In [30]:
len(df)

207696

Wir k√∂nnen wie gewohnt Berechnungen anstellen, z.B. eine Spalte mit der Temperatur in Fahrenheit hinzuf√ºgen:

In [25]:
df['temp_F'] = (df['temperature'] * 9 / 5) + 32

In [26]:
df.head()

Unnamed: 0,starttime,site,masl,magl,x,y,sensor,temperature,humidity,temp_F
0,2022-09-01 00:00,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.38,87.46,59.684
1,2022-09-01 00:10,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.38,87.54,59.684
2,2022-09-01 00:20,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.24,87.76,59.432
3,2022-09-01 00:30,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.15,87.5,59.27
4,2022-09-01 00:40,B√ºlach - Felderm√∂sli,417,2.0,2682216,1262843,531,15.12,87.28,59.216


In [29]:
len(df)

207696

Die Liste der Messstellen:

In [40]:
sites = df['site'].unique()
print('\n'.join(sites))

B√ºlach - Felderm√∂sli
B√ºlach - S√ºd
Elsau - Halden
Lindau - Tagelswangen
Oberembrach - Sch√ºler
Opfikon - Glattpark
Regensdorf - Geerenwiesstrasse
Schlieren - Badenerstrasse
Schlieren - Brachweg
Uster - Ackerstrasse
Uster - Im-Lot
Uster - Schulhaus-Dorf
Uster - Schulhaus-P√ºnt
Uster - Sunnenloobach
Winterthur - Neumarkt
Winterthur - Schulhaus-Altstadt
Winterthur Bahnhof
Z√ºrich  Wolfrimweg
Z√ºrich - Allmend
Z√ºrich - Altuetliberg
Z√ºrich - Blumenfeld
Z√ºrich - Borrweg Hagacher
Z√ºrich - Bucheggplatz
Z√ºrich - Eichb√ºhl
Z√ºrich - Grubenstrasse 56
Z√ºrich - Gr√ºnau
Z√ºrich - Hardplatz
Z√ºrich - Hungerbergstrasse
Z√ºrich - Kaserne
Z√ºrich - Lindenhof
Z√ºrich - Nordlicht
Z√ºrich - Nordlicht-2
Z√ºrich - Oerlikerpark
Z√ºrich - offene Rennbahn
Z√ºrich - Paradeplatz
Z√ºrich - Perron-HB
Z√ºrich - Rosengartenstrasse
Z√ºrich - Schimmelstrasse
Z√ºrich - Schulhaus-Borrweg
Z√ºrich - ScienceCity
Z√ºrich - Sechsel√§utenplatz
Z√ºrich - Sihl-Schanzengraben
Z√ºrich - Sihlfeld
Z√ºrich - Sihlfeld-Kapelle

---

## Aufgabe 2

Berechnen Sie den Durchschnitt, Maximum- und Minimum-Werte pro Woche f√ºr alle Messstationen.

---

## F√ºr was Dask DataFrames geeignet sind...

Dask DataFrames ersetzen einfach Pandas-Frameworks und sind somit sehr einfach zu benutzen.

Allerdings sollten Dask DataFrames nur dann benutzt werden, wenn die Daten zu gross sind, oder wenn die Berechnungen zu lange dauern. Die verteilte Berechnung hat zwangsl√§ufig einen Overhead, und der sollte nur in Kauf genommen werden, wenn es nicht anders geht.

Zudem macht die parallele Verarbeitung nur dann Sinn, wenn die Berechnung auch parallelisierbar ist. Dask ist auch nicht einfach ein Wundermittel gegen jegliche Datenbeschwerden. Bitte lesen Sie die Packungsbeilage... üòÄ