# Minimodul: Analyse von Umweltdaten

### Hinweis:
Dieses Jupyter Notebook ist Teil eines Minimoduls zum Thema "Analyse von Umweltdaten". Es wurde im Kontext des ProDaBi-Projektes entwickelt, welches durch die Deutsche Telekom Stiftung gefördert wird und das Ziel hat, Data Science und Künstliche Intelligenz in die Schule zu bringen.<br>

In diesem Jupyter Notebook soll exemplarisch gezeigt werden, wie eine Datenanalyse innerhalb eines Jupyter Notebooks mit der Programmiersprache Python umgesetzt werden kann. Dabei wird ein sogenanntes "Computational Essay" erstellt, wodurch es ermöglicht wird, den Programmierprozess sowie die Programmierergebnisse und deren Interpretationen in einem Dokument festzuhalten.

Falls Sie an weiteren Informationen - beispielsweise hinsichtlich unterrichtlicher Umsetzungen einer solchen Datenanalyse - interessiert sind, melden Sie sich gerne unter prodabi@mail.uni-paderborn.de oder besuchen Sie unsere Website <a href="https://www.prodabi.de"> https://www.prodabi.de</a>.

In diesem Jupyter Notebook wollen wir bereits erhobene Daten analysieren um neue Erkenntnisse über unsere Umwelt gewinnen zu können. Dazu müssen die zu analysierenden Daten zunächst eingelesen werden. Zur Verfügung stehen die folgenden Umweltdaten:

- Temperaturdaten (in °C)
- PM2.5-Feinstaubdaten (in $\mu/m^3$)
- Luftfeuchtigkeitsdaten (in %)

Die Daten wurden im Zeitraum 27.03.2020 - 23.04.2020 in einem verkehrsberuhigten Wohngebiet aufgenommen.

Wählen Sie im folgenden Menü die Daten aus, die Sie analysieren möchten und bestätigen Sie Ihre Wahl mit einem Klick auf den Button "Lade die Umweltdaten".

<i>Tipp</i>: Um das Menü sehen zu können, müssen Sie die unten stehende Codezelle zuvor ausführen. Klicken Sie diese dazu an und klicken Sie dann in der obigen Menüleiste auf den Run-Button. Alternativ können Sie auch "Shift+Enter" drücken, nachdem Sie die Codezelle ausgewählt haben.

In [None]:
from res.widgets import *
mySteuerung = Steuerung()
display(VBox([mySteuerung.auswahl, mySteuerung.loadButton]))
mySteuerung.loadButton.on_click(mySteuerung.buttonLoadData_onclick)

Um uns einen ersten Überblick über die Daten zu verschaffen, wollen wir uns im Folgenden die ersten fünf Zeilen des Datensatzes angucken. Führen Sie dazu die folgende Codezelle aus (entweder per Klick auf "Run" in der obigen Menüleiste oder durch Drücken von "Shift+Enter").

In [None]:
df = mySteuerung.data
df.head()

Nachdem die Daten in diesem Abschnitt in ein passendes Format (DataFrame) gebracht wurden, kann nun mit der Auswertung und der Visualisierung der Daten begonnen werden. Im Folgenden werden Ihnen hierzu verschiedene Methoden/Properties vorgestellt.

## Erste Auswertung

Eine typische statistische Größe ist das arithmetische Mittel, welches oft in alltäglichen Kontexten vorkommt (oft nennt man das arithmetische Mittel auch "Durchschnitt"). Das arithmetische Mittel können wir auch in der Programmiersprache Python hier in den Jupyter Notebooks berechnen. <br>
Dazu verwendet man die Methode <code>mean()</code> auf der Tabellenspalte <code>'value'</code> des Dataframes df: 
<center>Aufruf:<code>df['value'].mean()</code></center>
Diese Methode gibt den Mittelwert aller Einträge aus der Spalte <code>'value'</code> zurück.<br>

Lassen Sie sich das arithmetische Mittel der Messwerte des eingelesenen Datensatzes ausgeben, indem Sie den oben genannten Codeschnipsel <code>df['value'].mean()</code> in die folgende Codezelle einfügen und diese im Anschluss ausführen.

In [None]:
#Platz für den Code:


## Datenvisualisierung

### Gesamten Datensatz visualisieren

Nun wollen wir uns einen groben Überblick über den Datensatz verschaffen, indem wir uns eine Zeitreihendarstellung angucken. Dazu ruft man die Methode <code>iplot</code> mit dem Parameter <code>kind='line'</code> auf der Tabellenspalte <code>'value'</code> auf:

Führen Sie die folgende Codezelle aus, um eine Zeitreihendarstellung des gesamten Datensatzes zu erzeugen.

In [None]:
df['value'].iplot(kind='line')

Ein Vorteil bei der Darstellung durch die iplot-Methode ist, dass man den erzeugten Plot interaktiv untersuchen kann. Beispielsweise hat man die Möglichkeit, innerhalb des erzeugten Graphen ein Fenster mit der linken Maustaste "aufzuziehen", welches man genauer untersuchen möchte. Beim Loslassen der Maustaste wird dann in das aufgezogene Fenster hineingezoomt.<br>
Zudem kann man die Optionen in der Menüleiste oben rechts im Fenster nutzen, um beispielsweise noch weiter in die Darstellung hinein- oder aus ihr herauszuzoomen. Mit dem "Autoscale"-Button (6. Button von links) kommt man zur ursprünglichen Ansicht zurück.

<i>Tipp</i>: Falls Sie die Menüleiste nicht sehen, bewegen Sie die Maus auf dem Graphen hin und her. Sie erscheint dann oben rechts über der Graphik.

Probieren Sie die interaktiven Möglichkeiten im obigen, von Ihnen erzeugten "Graphikfenster" aus.

Neben dem Graphen und dem dahinterliegenden Koordinatensystem ist es auch hilfreich, einen Titel für die Graphik sowie Beschriftungen der x- und y-Achse vorzunehmen. Dies lässt sich über die folgenden Parameter in der iplot Methode einstellen:
- <code>title = 'Insert Title Here'</code>: Vergabe eines Titels für die Graphik
- <code>xTitle = 'Insert x-axis-title here'</code>: Beschriftung der x-Achse
- <code>yTitle = 'Insert y-axis-title here'</code>: Beschriftung der y-Achse

Beispiel:<br>
<code>df['value'].iplot(kind='line', title = 'Interessante Graphik', xTitle = 'Zeit', yTitle = 'Temperatur in °C')</code>

Kopieren Sie ihren Code aus der obigen Codezelle hierhin und ergänzen Sie einen Titel sowie die Achsenbeschriftungen.

In [None]:
#Platz für Ihren Code


## Daten filtern

Anstatt sich den gesamten Datensatz in einer Gesamtübersicht angucken, lässt sich auch ein Tag genauer betrachten, indem dieser aus dem Datensatz gefiltert wird. Dazu wählt man mit einem Abgleich des Tages, des Monats und des Jahres genau einen Tag aus.

Beispiel:<br>
Um die Daten für den 01.01.2021 zu filtern und im neuen Datensatz <code>df_oneday</code> zu speichern, wendet man den folgenden Befehl an:

<code>df_oneday = df[(df.index.day==1) & (df.index.month==1) & (df.index.year==2021)]</code>

Filtern Sie den oben eingelesenen Datensatz so, dass er die Daten für den 13.04.2020 enthält und speichern Sie diese Daten im Datensatz <code>df_oneday</code>. Ergänzen Sie dazu folgende Codezelle und führen Sie diese anschließend aus.

<i>Tipp</i>: Falls Sie Hilfe benötigen, finden Sie die Lösung in der folgenden Hilfe-Box. Klicken Sie darauf, um die Lösung zu erfahren.

<code>df_oneday = df[(df.index.day==1) & (df.index.month==1) & (df.index.year==2021)]</code>

In [None]:
df_oneday = df[(df.index.day==

Mit dem Code in der obigen Codezelle definieren wir einen Teildatensatz, auf den wir im Folgenden mit <code>df_oneday</code> zugreifen können. Durch dieses Filtern kann man auch auf Teildatensätze zugreifen.

Erstellen Sie nun eine Zeitreihendarstellung für den 13.04.2020.

<i>Tipp</i>: Klicken Sie für einen Hinweis auf die untere "Hilfe-Box".

Dazu müssen Sie im obigen Code den Datensatz <code>df</code> jeweils durch den "neuen" Teildatensatz <code>df_oneday</code> ersetzen.

In [None]:
#Platz für Ihren Code

## Weitere Auswertungsmöglichkeiten

Neben der Zeitreihendarstellung gibt es noch viele andere Visualisierungsmöglichkeiten, die für einen Datensatz angewandt werden können. Ein paar davon erläutern wir in dieser Erklärungs-Box:<br>

- Methode <code>iplot()</code> auf einem Dataframe df (Aufruf: <code>df.iplot()</code>)
    - erstellt verschiedene Plots des Datensatzes df - abhängig vom übergebenen Wert beim Parameter <code>kind</code>:
        - <code>kind='line'</code>: erstellt eine Zeitreihenanalyse der Daten - mit dem Timestamp auf der x-Achse und dem gemessenen Wert auf der y-Achse
        - <code>kind='box'</code>: erstellt einen Boxplot aus den gemessenen Werten
        - <code>kind='bar'</code>: erstellt ein Säulendiagramm aus den gemessenen Werten
    - Zusätzlich lassen sich noch der Titel und Beschriftungen für die x-/y-Achse der Visualisierung über weitere Parameter in der Klammer festlegen:
        - <code>title = 'Insert Title Here'</code>
        - <code>xTitle = 'Insert x-axis-title here'</code>
        - <code>yTitle = 'Insert y-axis-title here'</code>
        
        
- Methode <code>mean()</code> auf der Tabellenspalte 'value' des Dataframes df (Aufruf: <code>df['value'].mean()</code>)
    - gibt den Mittelwert aller Einträge aus der Spalte 'value' zurück
    - über die <code>print()</code>-Methode (Aufruf: <code>print(df['value'].mean())</code>) lässt sich dieser Wert ausgeben.
    
    
- Methode <code>min()</code> auf der Tabellenspalte 'value' des Dataframes df (Aufruf: <code>df['value'].min()</code>)
    - gibt das Minimum aller Einträge aus der Spalte 'value' zurück
    - über die <code>print()</code>-Methode (Aufruf: <code>print(df['value'].min())</code>) lässt sich dieser Wert ausgeben.
    
    
- Methode <code>max()</code> auf der Tabellenspalte 'value' des Dataframes df (Aufruf: <code>df['value'].max()</code>)
    - gibt das Maximum aller Einträge aus der Spalte 'value' zurück
    - über die <code>print()</code>-Methode (Aufruf: <code>print(df['value'].max())</code>) lässt sich dieser Wert ausgeben.
  
  
- Methode <code>quantile(SOME_NUMBER_BETWEEN_0_AND_1)</code> auf der Tabellenspalte 'value' des Dataframes df mit Parameter q (Aufruf: <code>df['value'].quantile(SOME_NUMBER_BETWEEN_0_AND_1)</code>)
    - <code>SOME_NUMBER_BETWEEN_0_AND_1</code> ist dabei zu ersetzen durch den gewünschten Anteil des Datensatzes, der kleiner sein soll, als der Rückgabewert (Beispiel: Übergibt man als Parameter den Wert 0.25, sind 25% der Daten aus der Spalte 'value' kleiner als der Wert, der zurückgegeben wird.)
    - gibt das entsprechende <code>SOME_NUMBER_BETWEEN_0_AND_1</code>-Quantil der Spalte 'value' zurück
    - über die <code>print()</code>-Methode (Aufruf: <code>print(df['value'].quantile(SOME_NUMBER_BETWEEN_0_AND_1))</code>) lässt sich dieser Wert ausgeben.

Probieren Sie ein wenig mit den oben genannten Methoden herum. Visualisieren Sie die Daten Ihres DataFrames <code>df</code> und erstellen Sie damit und mithilfe der statistischen Kenngrößen eine erste grobe Datenauswertung. Halten Sie dabei zunächst eine "Forschungsfrage" fest, der Sie nachgehen möchten. Beispiele hierfür könnten sein:
- Wie groß sind die Temperaturschwankungen nachts?
- Wann steigt die Luftfeuchtigkeit am stärksten?
- Wann sind die Feinstaubwerte tagsüber am höchsten?
<br>

<i>Tipp</i>: Weitere Codezellen können Sie über den [+]-Button oben in der Menüleiste hinzufügen.

Für Ihre Analyse können Sie beispielsweise einen Boxplot zu dem Datensatz <code>df</code> erstellen, um einen groben Überblick zu erhalten. Der Code dazu verbirgt sich in der folgenden Hilfebox.

<code>df['value'].iplot(kind = 'box')

In [None]:
#Platz für Ihren Code


In [None]:
#mehr Platz für noch mehr Code


Halten Sie nun in der folgenden Zelle die Erkenntnisse fest, die Sie durch die hier durchgeführte Datenanalyse gewonnen haben.

Neben den hier gezeigten Möglichkeiten bieten Jupyter Notebooks und die Programmiersprache Python noch viele weitere Möglichkeiten zur Datenauswertung wie beispielsweise verschiedene interaktive Visualisierungen.<br>

Ein weiterer Vorteil an den Jupyter Notebooks ist die Möglichkeit, neben den Code-Zellen auch Markdown-Zellen einzufügen, in denen man sowohl den Programmcode bzw. die angewandte Vorgehensweise beim Programmieren, als auch die Programmierergebnisse (wie beispielsweise die erzeugten Graphiken) kommentieren kann. Auf diese Weise lassen sich sogenannte <b>Computational Essays</b> erstellen, anhand derer der Auswertungsprozess nachvollziehbar und reproduzierbar gemacht wird (vgl.:

- DiSessa, A. A. (2000). Changing minds: Computers, learning, and literacy. MIT Press.<br> 

<center>und </center>

- Wolfram, S. (14.11.2017). What Is a Computational Essay? Online unter: <a href="https://writings.stephenwolfram.com/2017/11/what-is-a-computational-essay/"> https://writings.stephenwolfram.com/2017/11/what-is-a-computational-essay/</a>
(abgerufen am 30.04.2021).). 

<div class="alert alert-info" style="max-width:1000px; word-wrap:break-word;">Diese Web-Anwendung wurde im Rahmen des Projektes ProDaBi der Universität Paderborn erstellt. <br> 
Wenden Sie sich bei Anregungen oder weiterem Interesse gerne an Sven Hüsing (Didaktik der Informatik).<br>
Mail: sven.huesing@uni-paderborn.de</div>