<h1>Auswertung von Umweltdaten aus “Live Sensoren” mit Jupyter Notebooks</h1>

<div style="background-color: gainsboro; padding: 5px 20px 20px">

In diesem Jupyter Notebook soll ein Datensatz untersucht werden, der mithilfe einer Sensebox erstellt wurde. Es wurden folgende Daten erhoben:

- Luftfeuchtigkeitsdaten (in %)
- Temperaturdaten (in °C)
- Feinstaubdaten (in $\mu/m^3$)

Die jeweiligen Datensätze befinden sich im Unterordner <code>/Daten</code>.

<h2>Bibliotheken importieren</h2>

<div style="background-color: gainsboro; padding: 5px 20px 20px">
 
Zunächst müssen einige Bibliotheken importiert werden, mithilfe derer die Datensätze in entsprechenden Datenstrukturen (oder auch DataFrames) gespeichert und später auf verschiedene Weisen visualisiert werden können.

Dazu muss die folgende, bereits vorgefertigte Code-Zelle ausgeführt werden.<br>

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Führen Sie den Import der oben angesprochenen Bibliotheken durch, indem Sie die folgende, bereits vorbereitete Code-Zelle ausführen.

<i><b>Hinweis</b></i>:<br>
Code-Zellen lassen sich in Jupyter Notebooks entweder über die Tastenkombination <i>Shift+Enter</i> oder den <i> Run</i>-Button in der Leiste oben im Fenster ausführen:<br>
<img src="res\Run-Button.png" alt="Drawing" style="width: 50px; float: center;"/> <br>
Wichtig ist, dass dabei die entsprechende Code-Zelle ausgewählt ist (zu erkennen an dem hellblauen oder grünen Streifen am linken Rand der Notebook-Oberfläche). Zum Auswählen muss die gewünschte Zelle lediglich angeklickt werden.

In [40]:
#####
# Importieren der Bibliotheken für dieses Notebook
####

# Bibliothek zur Speicherung und Manipulation der Daten in sogenannten DataFrames (Tabellen)
import pandas as pd 

# Bibliothek zur Visualisierung der Daten
import cufflinks as cf
from ipywidgets import interactive
cf.go_offline()
cf.set_config_file(offline=False, world_readable=True)

<h2>Daten einlesen</h2>

<div style="background-color: gainsboro; padding: 5px 20px 20px">
 
Als nächstes sollen die zu untersuchenden Daten in dieses Jupyter Notebook eingelesen und in einem DataFrame gespeichert werden. Dazu weist man einer Variable <code>df</code> die eingelesenen Daten als DataFrame zu (mit <code>df = EINGELESENE_DATEN_ALS_DATAFRAME</code>).<br>
Dabei muss EINGELESENE_DATEN_ALS_DATAFRAME durch das DataFrame ersetzt werden, in dem die Daten gespeichert wurden.

Um Daten aus einer CSV-Datei einzulesen und in einem DataFrame zu speichern, verwendet man den Befehl <code>pd.read_csv('Daten/NAME_DATEI.csv', sep =',')</code>. <br>
Dabei ist <i>NAME_DATEI.csv</i> durch den entsprechenden Dateinamen zu ersetzen.

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Lesen Sie den oben erwähnten Datensatz aus dem Unterordner <code>Daten</code> in dieses Jupyter Notebook ein und speichern Sie ihn in einem DataFrame (Name: df).<br>
Führen Sie dazu die folgende Code-Zelle aus:

In [41]:
df = pd.read_csv('Daten/sensor_data_2020.csv', sep =',')

<div style="background-color: gainsboro; padding: 5px 20px 20px">

Um sich einen Überblick über den Datensatz zu verschaffen, ist es hilfreich, folgende Methode/Property von DataFrames anzuwenden:

Mit der Methode <code>head()</code> des <code>DataFrames</code> kann man sich einen Überblick über die ersten fünf Zeilen des Datensatzes verschaffen. Die Methode wird über <code>df.head()</code> aufgerufen.

Mit der Property <code>dtypes</code> des <code>DataFrames</code> bekommt man eine Übersicht der Datentypen der einzelnen Tabellenspalten. Die Property wird über <code>df.dtypes()</code> aufgerufen.

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Lassen Sie sich die ersten fünf Zeilen Ihres oben erstellten DataFrames und die Datentypen der einzelnen Tabellenspalten anzeigen, indem Sie die unteren beiden Codezellen ausführen.

In [42]:
df.head()

Unnamed: 0,timestamp,temperature,humidity,particulate_matter,longitude,latitude,hight
0,2020-09-10T13:22:17.000Z,18.11,49.97,3.4,8.71,51.74,102.0
1,2020-09-10T13:27:17.000Z,18.09,47.15,2.9,8.71,51.74,102.0
2,2020-09-10T13:32:17.000Z,17.84,49.39,1.9,8.71,51.74,102.0
3,2020-09-10T13:37:17.000Z,17.66,49.82,2.5,8.71,51.74,102.0
4,2020-09-10T13:42:17.000Z,17.6,50.82,2.3,8.71,51.74,102.0


In [43]:
df.dtypes

timestamp              object
temperature           float64
humidity              float64
particulate_matter    float64
longitude             float64
latitude              float64
hight                 float64
dtype: object

<h2>Daten bereinigen und indizieren</h2>

<div style="background-color: gainsboro; padding: 5px 20px 20px">

Beim Explorieren der ersten fünf Zeilen und mit einem Blick auf die Datentypen der einzelnen Spalten fällt ein größeres Problem ins Auge:

- Der **TimeStamp** wird noch nicht als eigener Datentyp erkannt.
    - Um dies zu verändern, wird die Methode <code>pd.to_datetime(TABELLENSPALTE, dayfirst=True, errors='coerce')</code> benötigt, wobei TABELLENSPALTE durch die entsprechende Tabellenspalte zu ersetzen ist, deren Datentyp in TimeStamp geändert werden soll.

Um eine Tabellenspalte eines DataFrames' <code>df</code> anzusprechen, schreibt man den Namen der Tabellenspalte in eckige Klammern und Hochkommata hinter den Namen des zugehörigen DataFrames' (hier also <code>df['timestamp']</code>).

Um nun die object-Tabellenspalte mit dem Namen <code>'timestamp'</code> in eine TimeStamp-Tabellenspalte umzuwandeln, muss vor den oben genannten Befehl noch <code>df['timestamp'] =</code> geschrieben werden, damit die Spalte überschrieben werden kann.


<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Verändern Sie den Datentyp der Tabellenspalte <code>'timestamp'</code> des DataFrames <code>df</code> in <i>TimeStamp</i>, indem Sie die folgende Codezelle ausführen.

Kontrollieren Sie auch mithilfe der Property <code>dtypes</code>, ob die Konvertierung funktioniert hat.

In [44]:
df['timestamp'] = pd.to_datetime(df['timestamp'], dayfirst=True,errors='coerce')

In [45]:
df.dtypes

timestamp             datetime64[ns, UTC]
temperature                       float64
humidity                          float64
particulate_matter                float64
longitude                         float64
latitude                          float64
hight                             float64
dtype: object

<div style="background-color: gainsboro; padding: 5px 20px 20px">

Nachdem nun der Datentyp der Spalte <code>'timestamp'</code> richtig gesetzt wurde, können die einzelnen Daten über diesen Timestamp indiziert werden. 

Ein Index (oder auch Schlüssel) identifiziert jede Zeile des DataFrames eindeutig. Derzeit wird der Index noch inkrementell generiert (siehe Spalte ganz links in der Ansicht bei <code>df.head()</code>).

Um den Index neu zu setzen, verwendet man die Methode <code>set_index('INDEX')</code>, wobei <i>INDEX</i> durch den Namen der Tabellenspalte ersezt werden muss, die als Index gesetzt werden soll (hier also <code>timestamp</code>).

Wie auch <code>head()</code>, wird diese Methode auf dem DateFrame <code>df</code> mit <code>df.set_index('INDEX')</code> aufgerufen. Dieser Aufruf liefert ein DataFrame zurück, welches denselben Inhalt wie <code>df</code> besitzt, jedoch als Index die in der Klammer geschriebene Tabellenspalte 'INDEX' hat. Folglich muss <code>df</code> mit diesem DataFrame (bzw. in Python mit dem oben genannten Befehl) gleichgesetzt werden (mit <code>df = </code>).

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Setzen Sie den Index des DataFrames <code>df</code> auf die Tabellenspalte <code>'timestamp'</code>, indem Sie die folgende Codezelle ausführen.

In [46]:
df = df.set_index('timestamp')

<div style="background-color: gainsboro; padding: 5px 20px 20px">

Es ist sinnvoll, den Index des Datensatzes auf die Tabellenspalte <code>'timestamp'</code> zu setzen, um den Datensatz später hinsichtlich dieses Wertes zu filtern und beispielsweise in Zeitreihendarstellung (mit <code>'timestamp'</code> auf der x-Achse) darzustellen.

<h2>Daten auswerten und visualisieren</h2>

<div style="background-color: gainsboro; padding: 5px 20px 20px">

Nachdem die Daten im vorherigen Abschnitt in ein passendes Format (DataFrame) gebracht wurden, kann nun mit der Auswertung und der Visualisierung der Daten begonnen werden. Im Folgenden werden Ihnen hierzu verschiedene Methoden/Properties vorgestellt.

<div style="background-color: gainsboro; padding: 5px 20px 20px">
    
- Methode <code>iplot()</code> auf einem Dataframe df (Aufruf: <code>df['TABSPALTE'].iplot()</code> - z.B. für die Temperatur: <code>df['temperature'].iplot()</code>)
    - erstellt spezifische Plots des Datensatzes df - abhängig vom übergebenen Wert beim Parameter <code>kind</code>:
        - keine Angabe - also Klammer leer bzw. ohne den Parameter <code>kind</code>: Erstellt eine Zeitreihenanalyse der Daten - mit dem Timestamp auf der x-Achse und dem gemessenen Wert auf der y-Achse
        - <code>kind='box'</code>: erstellt einen Boxplot aus den gemessenen Werten
        - <code>kind='bar'</code>: erstellt ein Säulendiagramm aus den gemessenen Werten
    - Zusätzlich lassen sich noch der Titel und Beschriftungen für die x-/y-Achse der Visualisierung über weitere Parameter in der Klammer festlegen:
        - <code>title = 'Insert Title Here'</code>
        - <code>xTitle = 'Insert x-axis-title here'</code>
        - <code>yTitle = 'Insert y-axis-title here'</code>
        
        
- Methode <code>mean()</code> auf einer Tabellenspalte 'TABSPALTE' des Dataframes df (Aufruf: <code>df['TABSPALTE'].mean()</code> - z.B. für die Temperatur: <code>df['temperature'].mean()</code>)
    - gibt den Mittelwert aller Einträge aus der Spalte 'TABSPALTE' zurück
    - über die <code>print()</code>-Methode (Aufruf: <code>print(df['TABSPALTE'].mean())</code>) lässt sich dieser Wert ausgeben.
    
    
- Methode <code>min()</code> auf einer Tabellenspalte 'TABSPALTE' des Dataframes df (Aufruf: <code>df['TABSPALTE'].min()</code>  - z.B. für die Temperatur: <code>df['temperature'].min()</code>)
    - gibt das Minimum aller Einträge aus der Spalte 'TABSPALTE' zurück
    - über die <code>print()</code>-Methode (Aufruf: <code>print(df['TABSPALTE'].min())</code>) lässt sich dieser Wert ausgeben.
    
    
- Methode <code>max()</code> auf einer Tabellenspalte 'TABSPALTE' des Dataframes df (Aufruf: <code>df['TABSPALTE'].max()</code> - z.B. für die Temperatur: <code>df['temperature'].max()</code>)
    - gibt das Maximum aller Einträge aus der Spalte 'TABSPALTE' zurück
    - über die <code>print()</code>-Methode (Aufruf: <code>print(df['TABSPALTE'].max())</code>) lässt sich dieser Wert ausgeben.
  
  
- Methode <code>quantile(SOME_NUMBER_BETWEEN_0_AND_1)</code> auf einer Tabellenspalte 'TABSPALTE' des Dataframes df mit Parameter q (Aufruf: <code>df['TABSPALTE'].quantile(SOME_NUMBER_BETWEEN_0_AND_1)</code> - z.B. für die Temperatur: <code>df['temperature'].quantile(SOME_NUMBER_BETWEEN_0_AND_1)</code>)
    - gibt das entsprechende <code>SOME_NUMBER_BETWEEN_0_AND_1</code>-Quantil der Spalte 'TABSPALTE' zurück
    - <code>SOME_NUMBER_BETWEEN_0_AND_1</code> ist im Aufruf zu ersetzen durch den gewünschten Anteil des Datensatzes, der kleiner sein soll, als der Rückgabewert (Beispiel: Übergibt man als Parameter den Wert 0.25, sind 25% der Daten aus der Spalte 'TABSPALTE' kleiner als der Wert, der zurückgegeben wird.)
    - über die <code>print()</code>-Methode (Aufruf: <code>print(df['TABSPALTE'].quantile(SOME_NUMBER_BETWEEN_0_AND_1))</code>) lässt sich dieser Wert ausgeben.

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Probieren Sie ein wenig mit den oben genannten Methoden herum. Visualisieren Sie die Daten Ihres DataFrames <code>df</code> und erstellen Sie damit und mithilfe der statistischen Kenngrößen eine erste grobe Datenauswertung.

<i>Hinweis</i>: Sie können auch mehrere Befehle und Methodenaufrufe in einer einzelnen Zelle ausführen.

In [48]:
#Platz für die statistischen Kenngrößen

In [50]:
#Platz für Ihre Visualisierungen

<div style="background-color: lightblue; padding: 5px 20px 20px">

**Aufgabe:** 

Beschreiben Sie kurz, welche Erkenntnisse Sie aus der Datenanalyse und Datenvisualisierung gewinnen konnten.

"#Platz für Ihre Vermutung" (Doppelklick auf diese Zelle, um sie zu editieren)