# Raumklimaanalyse in unserem Klassenraum

<div class = "alert alert-warning">
    <h3>Meta-Bemerkung</h3><br>
    Das hier ist ein <b>Computational Essay</b> in Form eines Jupyter Notebooks.
    In diesem Computational Essay/Jupyter Notebook wird eine beispielhafte Datenanalyse zu einer gestellten Forschungsfrage mit exemplarischen Daten und Auswertungsmethoden gezeigt - und im Laufe der Analysen die Forschungsfrage beantwortet. Dabei werden unter anderem auch Auswertungsmethoden für die Analyse einer einzelnen Variablen sowie für den Zusammenhang zwischen mehreren Variablen vorgestellt. Gerne kann man mit den einzelenen Codezellen herumexperimentieren, um die Funktionsweisen genauer verstehen zu können.<br><br>
    Für welche Variablen und Auswertungsmethoden man sich entscheidet, hängt wesentlich von der <b>Forschungsfrage</b> ab, die durch die Datenanalyse beantwortet werden soll.<br><br>
    Ein Computational Essay zu einem Data Science Thema enthält im Wesentlichen die folgenden Elemente:
    <ul>
        <li><b>Problembeschreibung:</b> Hier wird erläutert, worum es geht und wieso es sich um ein wichtiges Thema handelt</li>
        <ul>
        <li><b>Fragestellung:</b> In der Problembeschreibung wird eine Forschungsfrage gestellt, die mit dem Computational Essay beantwortet werden soll. Dazu können auch Unterfragen gestellt werden.</li>
        </ul>
        <li><b>Planbeschreibung:</b> Hier wird beschrieben, wie der Plan aussieht, um die Forschungsfrage zu beantworten, beispielsweise, welche Daten man nutzen möchte</li>
        <li><b>Daten:</b> Hier werden die Daten in das Jupyter Notebook geladen und für die Programmierung nötige Bibliotheken</li>
        <li><b>Datenanalyse:</b> Hier beginnt die Analyse der Daten im Hinblick auf die Forschungsfrage. Dazu kann es sinnvoll sein, sich zunächst einen allgemeinen Überblick über die einzelnen Variablen zu verschaffen und daraus weitere Schritte für die Datenanalyse abzuleiten. Auch Interpretationen der gefundenen Ergebnisse sind hier wichtig!</li>
        <li><b>Schlussfolgerung/Empfehlungen:</b> Am Ende des Computational Essays wird die eingangs gestellte Forschungsfrage beantwortet. Dabei nimmt man Bezug zu den gefundenen Ergebnissen der Datenanalyse. Ein Fazit rundet das Computational Essay ab.</li><br>
    Konkret soll dieses Jupyter Notebook  zeigen, wie ein Computational Essay aufgebaut sein kann - wichtig sind neben den Code-Zellen insbesondere Zellen mit:
    <ul>
        <li><b>Erklärungen</b>, die beschreiben, wie ihr bei der Datenanalyse vorgegangen seid,</li>
        <li><b>Interpretationen der Ergebnisse</b> - insbesondere der Visualisierungen und statistischen Kenngrößen im Hinblick auf die Forschungsfrage und</li>
        <li><b>Erläuterungen zum verwendeten Programmcode</b> und ggf. zu benutzten Bibliotheken.</li>
    </ul><br><br>
    Und nun viel Erfolg beim Nachvollziehen dieses Computational Essays! Es kann als Vorlage für eigene Computational Essays benutzt werden!
</div> 


## >>Problembeschreibung<<

<div class="alert alert-success">
Eine gute Raumluftqualität ist Voraussetzung dafür, dass sich Menschen in Innenräumen gut konzentrieren können (siehe <a href="https://www.svlw.ch/component/easyfolderlistingpro/?view=download&format=raw&data=eNpFUM1OBCEMfhXCCww4yajdkwdjTDzpA0xwpywkwE4KrJsY390OzOqJ9vvp12JAa_jOMIG057AgyUMGzZ2P5oR5CL4gmVI7rkHWjNSVuUEg1Y06Vczlf8o9yHlu2NY9dGsyEbdWgdyeqaN-kQcPqpsIw2qKa_QdyGFUSrxQTUvgjdIwTkp8HF0NrdbiKdkzcWRNzAqWiee4WnShAXu09Szfo0cO7QP-dPO7qTFUW-Y3dIT0mlK3jiDxWvZqXex-F15XT5hvS2u-xpRiji5iYvVnQx_ZQXjx-NX_g2OTKf7CS_z8Avs5emA">Empfehlungen des österreichischen Bundesministeriums für Bildung und Frauen und der Plattform MeineRaumluft</a>).<br>
Da insbesondere in der Schule viele Menschen für eine lange Zeit in einem Klassenraum lernen, sollte besonders auch hier sichergestellt werden, dass die Raumluftqualität gut ist, sodass sich die Personen im Klassenraum gut konzentrieren können.<br>
In dieser Analyse wollen wir deshalb in unseren Klassenraum schauen und anhand von Daten zur unserer Raumluft überprüfen, wo es möglicherweise Verbesserungsbedarf gibt. Aufbauend darauf sollen dann Handlungsmöglichkeiten gefunden werden, um die Raumluftqualität in unserem Klassenraum zu verbessern.
</div>

### Fragestellung

<div class="alert alert-success">Da das Thema der Raumluftanalyse aufgrund der vielen messbaren Daten sehr komplex ist, wollen wir uns im folgenden auf die <b>CO2 Werte</b> im Klassenraum fokussieren.<br>
Laut den Empfehlungen des österreichischen Bundesministeriums für Bildung und Frauen und der Plattform MeineRaumluft sollten die Werte für CO2 im Klassenraum unter 1000 ppm liegen, um die Konzentrationsfähigkeit nicht durch schlechte Raumluft zu beeinträchtigen.<br><br>
    <small>Zusätzlich kann es sinnvoll sein, sich zum Beispiel mit den Daten zu Temperatur und Luftfeuchtigkeit zu beschäftigen!</small>
    </div>

<div class = "alert alert-warning">
Für Dein eigenes Computational Essay solltest Du Deine eigenen Fragen formulieren. Trage diese in eine eigene Markdown-Zelle ein.
</div>

<div class="alert alert-success">
<b>Forschungsfragen</b>:
<ul>
    <li>Wie sieht der zeitliche Verlauf der CO$_2$-Werte an den verschiedenen Wochentagen in meinem Klassenraum aus?</li>
    <li>Zu welchen Zeitpunkten liegt der CO$_2$-Wert oberhalb der empfohlenen Grenze von 1000 ppm?
    <ul>
        <li>Welche Ursachen könnte dies haben?</li>
        <li>Was können wir tun?</li>
    </ul>
    </li>
</ul>
</div>

## >>Planbeschreibung<<

<div class ="alert alert-success">
Um die oben genannten Fragen beantworten zu könnnen, werden einerseits natürlich CO$_2$Daten für einen Zeitraum von mindestens einer Woche benötigt, um den CO$_2$-Wert an verschiedenen Wochentagen zu visualisieren. Vielleicht kann man auch auf unterschiedliche Belegungen des Klassenraums eingehen.<br>
Dazu müssen diese verschiedenen Belegungen nachgehalten werden. Diese werden in diesem <a href = "Basisinformationen.ipynb"><b>Jupyter Notebook</b></a> neben weiteren Informationen über die Raumbeschaffenheit festgehalten.
</div>

## >>Daten<<

<div class = "alert alert-success">
In diesem Abschnitt werden die gesammelten Daten eingelesen.<br><br>
Alle Daten wurden im Zeitraum vom 08.02.2022 bis zum 15.02.2022 im Klassenraum R2.02 der Albert-Einstein-Schule mithilfe einer Sensebox aufgenommen.  Alle aufnehmenden Sensoren befanden sich an der Rückseite des Raums, zwischen der Tür und den Fenstern in ca. 1 Meter Höhe (siehe auch Foto unten).<br><br>
    (Weitere Informationen zur Sensebox erhät man <a href = "https://www.sensebox.de"><b>hier</b></a>).
</div>

![Bild](res/Bild_Sensor.png)

### Imports

<div class = "alert alert-success">
Für die Datenanalyse benötigen wir Zugriff auf einige Methoden aus externen Bibliotheken (= Sammlungen an Methoden, die man anwenden möchte, ohne sie noch einmal neu zu schreiben). Dazu führen wir im Folgenden einige Imports durch:
</div>

<div class = "alert alert-warning">
Die folgende Zelle ist eine Code-Zelle. Dort werden die Bibliotheken geladen, die in diesem Jupyter Notebook verwendet werden. <br><br>
    <b>pandas</b> ist eine Bibliothek, die statistische Methoden enthält. <br>
    <b>numpy</b> ist eine Bibliothek, die ein einfacheres Umgehen mit großen Datenarrays ermöglicht.<br>
    <b>plotly</b> ist eine Bibliothek, mit der interaktive Visualisierungen erstellt werden können. Dabei ermöglicht die "Untersammlung" <code>graph_objects</code> das Erstellen einer Vielzahl an Plots und deren Beschriftungen, während es die "Untersammlung" <code>subplots</code> ermöglicht, Graphen zu verschiedenen Variablen in ein gemeinsames Diagramm zu zeichnen.<br>
    <b>datetime</b> ist eine Bibliothek, die es ermöglicht, Daten und Uhrzeiten in Datensätzen einzutragen und danach zu sortieren und zu filtern.<br><br>
    Mit <b>pd, np, go, sp und dati</b> rufst Du die verschiedenen Bibliotheken auf.<br><br>
    Bitte führe nun die folgende Code-Zelle aus, um die Bibliotheken zu laden! (Tipp: Das geht mit Shift+Enter!)
</div>

In [1]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.subplots as sp
from datetime import datetime as dati

### Daten einlesen

<div class = "alert alert-success">
Nun müssen wir erst einmal die Daten hier in das Jupyter Notebook hineinbekommen, um diese dann später analysieren und interpretieren zu können. Dazu lesen wir die Daten als sogenannte <b>csv-Datei</b> (csv = comma-separated values, zu Deutsch: durch Komma getrennte Werte) in ein <b>Dataframe</b> ein, welches wir <code>df</code> nennen. Ein Dataframe kann man sich vorstellen wie eine Tabelle, in der die Zeilen jeweils den aufgenommenen Datensätzen entsprechen und die Spalten die einzelnen Attribute/Variablen - wie z.B. "Datum" oder "gemessener Temperaturwert" darstellen.
</div>

In [2]:
df = pd.read_csv('data_complete_hPa.csv', sep =';')

<div class = "alert alert-success">
Um zu überprüfen, ob das Einlesen der Daten funktioniert hat, können wir uns mithilfe der Methode <code>head()</code> die ersten 5 Zeilen - also Datensätze - des Dataframes anzeigen lassen:
</div>

In [3]:
df.head()

Unnamed: 0,timestamp,value_co2,value_temp,value_hum,value_airpressure,value_light
0,2022-02-08T09:31:36.000Z,1008,24.26,34.57,1010.9109,0
1,2022-02-08T09:32:06.000Z,1014,24.35,34.16,1010.8366,48
2,2022-02-08T09:32:36.000Z,1023,24.52,33.95,1010.8469,48
3,2022-02-08T09:33:06.000Z,1028,24.54,33.75,1010.8881,48
4,2022-02-08T09:33:37.000Z,1047,24.42,33.92,1010.8738,49


<div class = "alert alert-success">
    Die eingelesenen Datensätze in unserem <code>df</code> bestehen aus Daten über...
    <ul>
        <li>den CO$_2$-Wert (=<b>value_co2</b>)</li>
        <li>die Temperatur (=<b>value_temp</b>)</li>
        <li>die Luftfeuchtigkeit (=<b>value_hum</b>)</li>
        <li>den Luftdruck (=<b>value_airpressure</b>)</li>
        <li>die Helligkeit (=<b>value_light</b>)</li>
    </ul>
    im Klassenraum. Bei timestamp lässt sich erkennen, dass <b>alle 30 Sekunden</b> ein Wert gemessen wurde.<br><br>
    Der <b>CO$_2$-Wert</b> wurde in der Einheit ppm (parts per million; als Anteil pro Million) gemessen. <br>
    Die <b>Temperatur</b> wurde in Grad Celsius gemessen.<br>
    Die <b>Luftfeuchtigkeit</b> wurde als relativer Anteil des Wasserdampfs am Gasgemisch der Luft gemessen.<br>
    Der <b>Luftdruck</b> wurde in Hektopascal gemessen und beschreibt den Druck, den die Luft auf eine bestimmte Fläche auswirkt.<br>
    Die <b>Helligkeit</b> wurde in der Einheit der Beleuchtungsstärke lux gemessen.
</div>

<div class = "alert alert-success">
Um statistisch mit den gemessenen Werten arbeiten zu können, müssen diese als numerische Daten behandelt werden. Folglich muss ihnen ein entsprechender <b>Datentyp</b> zugewiesen werden. Zudem soll das Datum (=<b>timestamp</b>) auch als Datum erkannt werden und benötigt deshalb ebenfalls einen besonderen Datentyp (datetime). Daher ändern wir in der nächsten Code-Zelle die Datentypen der 
<ul>
    <li>CO$_2$-Daten</li>    
    <li>Luftfeuchtigkeits-Daten</li>
    <li>Temperatur-Daten</li>
    <li>Luftdruck-Daten</li>
    <li>Helligkeits-Daten</li>
    </ul><br>
   zu numerischen Werten. Das 
    <ul>
    <li>Datum</li>
    </ul><br>
    wird zu einem datetime-Objekt.
</div>

In [4]:
df['value_co2'] = pd.to_numeric(df['value_co2'], errors='coerce')
df['value_temp'] = pd.to_numeric(df['value_temp'], errors='coerce')
df['value_hum'] = pd.to_numeric(df['value_hum'], errors='coerce')
df['value_light'] = pd.to_numeric(df['value_light'], errors='coerce')
df['value_airpressure'] = pd.to_numeric(df['value_airpressure'], errors='coerce')
df['timestamp'] = pd.to_datetime(df['timestamp'], dayfirst=True,errors='coerce')

<div class = "alert alert-success">
Weiterhin muss nun noch der Index des Datensatzes festgelegt werden, bezüglich dessen die Daten gefiltert und sortiert werden sollen. Normalerweise werden die Datensätze von 0 bis zum Ende durchnummeriert, sodass man die Datensätze anhand dieser verschiedenen Nummern addressieren kann. In unserem Fall können wir aber sogar über das jeweilige Datum auf die Datensätze zugreifen. Deswegen setzen wir den Index hier auf das Datum:
</div>

In [5]:
df = df.set_index('timestamp')

## >>Datenanalyse<<

### Analyse der CO$_2$-Daten

#### Ein erster Überblick

<div class = "alert alert-success">
    <b>Jetzt geht es los - wir starten damit, uns die Daten anzuschauen!</b>
    <br><br>
Nun wollen wir uns zunächst einen Überblick über die CO2-Daten verschaffen. Dazu erstellen wir ein Streudiagramm. Als erstes muss  eine Graphik (engl. figure) <code>fig</code> erstellt werden, in die dann die Graphen nach und nach eingetragen werden.
</div>

In [8]:
fig = go.Figure()

<div class = "alert alert-success">
   Mithilfe der Methode <code>add_trace(..)</code> kann zu der angelegten Figure (=Graphik) nun eine Darstellung hinzugefügt werden. <br>
Da es sich hier um eine Art von Streudiagramm (engl. scatter plot) handeln soll, wird die Methode <code>Scatter</code> aus der <code>plotly.graph_objects</code>-Bibliothek benötigt. Dieser muss dann noch übergeben werden, was die x-Werte und was die y-Werte der einzutragenden Punkte sein sollen.
In unserem Fall ist der x-Wert der Index (also das Datum). Dementsprechend muss auf diese Werte - mit <code>df.index</code> - zugegriffen werden. Die y-Werte (=CO2 Werte) befinden sich in der Spalte <code>'value_co2'</code> unseres Datensatzes <code>df</code>. Auf diese kann mit <code>df['value_co2']</code> zugegriffen werden.<br>
Abschließend wird die Graphik mithilfe der Methode <code>show()</code> angezeigt.
</div>

In [9]:
fig.add_trace(go.Scatter(x=df.index, y=df['value_temp']))
fig.show()

#### Filtern der Unterrichtzeiten

<div class = "alert alert-success">
    Nun haben wir einen ersten Überblick über den gesamten CO$_2$-Verlauf. Wie wir sehen, beinhaltet dieser auch ein Wochenende (woran sieht man das?!) sowie generell den gesamten Zeitraum von 0:00 Uhr bis 23:59 Uhr für jeden Tag vom 8.2.22 bis 15.2.22. Man sieht, dass der CO$_2$-Wert täglich vormittags schwankt und nach 13 Uhr bis zum nächsten Tag konstant abnimmt.<br><br>
<b>Filtern</b><br><br>
Das legt eine Verbindung zu den Unterrichtszeiten nahe. Diese sind an der Schule von Montag bis Freitag, 07:50 Uhr bis 13:05 Uhr. Auf diese wollen wir uns nun konzentrieren. Dazu wird der Datensatz im Folgenden auf diese Zeiträume gefiltert. Um einen Datensatz zu filtern, werden die "Filterbedingungen" in eckige Klammern hinter den Namen des Datensatzes geschrieben. Der gefilterte Datensatz kann dann in einer (neuen) Variable gespeichert werden. Der allgemeine Aufbau einer Filteranweisung sieht also so aus:<br> 
    <center><code>Neuer_Datensatz = Alter_Datensatz["Filterbedingung"]</code></center><br>
    wobei <code>Neuer_Datensatz</code> der Name ist, unter der der neue Datensatz gespeichert wird.<br><br>
Um nun nur die fünf Werktage für den Datensatz herauszufiltern, muss in der Filterbedingung geprüft werden, ob der aktuell betrachtete Datensatz einen Zeitstempel hat, bei dem der Wochentag Montag bis Freitag ist. Den Wochentag kann man sich über das Attribut <code>weekday</code> als Zahl ausgeben lassen. Montag entspricht der 0, Dienstag der 1, Mittwoch der 2, usw.  Da wir den Zeitstempel oben ja als Index festgelegt haben, können wir mit <code>df.index</code> darauf zugreifen und über <code>df.index.weekday</code> dann auf den Wochentag als Zahl. Um nun nur die Wochentage von Montag (0) bis Freitag (4) zu filtern, muss folglich <code>df.index.weekday &#060; 5</code> gelten. Zusammengesetzt filtert man die Wochentage von Montag bis Freitag also mit <code>df[(df.index.weekday &#060; 5)]</code>.<br><br>
Für die Uhrzeit muss nun geprüft werden, ob die Uhrzeit des jeweiligen Zeitstempels eines Datensatzes zwischen 07:50 Uhr und 13:05 Uhr liegt. Im Vorfeld erstellen wir uns die Variablen <code>start</code> und <code>ende</code>, in der wir die Zeiten 07:50 Uhr bzw. 13:05 Uhr speichern - dies funktioniert über die Methode <code>strptime</code> aus der Datetime-Bibliothek, die einen String in einen Zeitstempel umwandelt. Um daraus nun noch die Uhrzeit zu erhalten, wird die Methode <code>time</code> abschließend darauf angewendet.<br>
    Um nun in der "Filterbedingung" zu prüfen, ob eine Uhrzeit zwischen <code>start</code> und <code>end</code> liegt, wird die Methode <code>between</code> genutzt. Dieser muss ein Start und ein Endpunkt übergeben werden, zwischen denen die Uhrzeit liegen soll. Die Uhrzeit ist im Datensatz ja bereits als Teil des Zeitstempels im Index gespeichert, auf den man mit <code>df_wochentage.index</code> zugreifen kann. Allerdings kann die Methode <code>between</code> nur auf Uhrzeiten angewandt werden. Daher muss der Zeitstempel im Index zuvor in das passende Uhrzeit-Format umgewandelt werden. Dies geschieht mithilfe der <code>to_series()</code>-Methode, die aus dem Index eine eigene Series erzeugt, aus der man dann mithilfe der <code>time</code>-Methode aus der Datetime-Bibliothek die Uhrzeit extrahieren kann. Diese Uhrzeit kann dann über die <code>between</code>-Methode mit dem dort übergebenen Zeitraum abgeglichen werden. Der gesamte Befehl zum Filtern des Wochentag-Datensatzes im Hinblick auf den Zeitraum zwischen 07:50 Uhr und 13:50 Uhr lautet also:<br>
    <center><code>df_schulzeit = df_wochentage[df_wochentage.index.to_series().dt.time.between(start, ende)]</code></center>
</div>

In [8]:
#Filtere Wochentag:
df_wochentage = df[(df.index.weekday < 5)]
#Filtere Uhrzeit:
start = dati.strptime('07:50:00', '%H:%M:%S').time()
ende = dati.strptime('13:05:00', '%H:%M:%S').time()
df_schulzeit = df_wochentage[df_wochentage.index.to_series().dt.time.between(start, ende)]

<div class = "alert alert-success">
    Weiterhin wollen wir für jeden Wochentag einen neuen Teil-Datensatz erstellen. Unser gesamter Datensatz enthält die Wochentage...
    <ul>
        <li>08.02.2022</li>
        <li>09.02.2022</li>
        <li>10.02.2022</li>
        <li>11.02.2022</li>
        <li>14.02.2022</li>
        <li>15.02.2022</li>
    </ul>
Im folgenden erstellen wir nun einen entsprechenden Teil-Datensatz für jeden dieser Tage. Dabei benennen wir die Teil-Datensätze df_0802, df_0902, df_1002,...<br>
Um nun die Teildatensätze zu erstellen, müssen wir die Daten aus dem gesamten Datensatz filtern - und zwar nach dem Zeitpunkt bzw. dem Datum. Da wir diesen Wert ja als Index festgelegt haben, können wir mit <code>df.index</code> darauf zugreifen und über <code>df.index.day</code> auf den Tag und über <code>df.index.month</code> auf den Monat.<br>
Beispielsweise muss für den 08.02. muss nun also <code>df.index.day == 8</code> und <code>df.index.month == 2</code> erfüllt sein. Für die anderen Tage läuft das Filtern dann ähnlich:

In [9]:
df_0802 = df_schulzeit[(df_schulzeit.index.hour >= 8) & (df_schulzeit.index.month <= 13)]
df_0902 = df_schulzeit[(df_schulzeit.index.day == 9) & (df_schulzeit.index.month == 2)]
df_1002 = df_schulzeit[(df_schulzeit.index.day == 10) & (df_schulzeit.index.month == 2)]
df_1102 = df_schulzeit[(df_schulzeit.index.day == 11) & (df_schulzeit.index.month == 2)]
df_1402 = df_schulzeit[(df_schulzeit.index.day == 14) & (df_schulzeit.index.month == 2)]
df_1502 = df_schulzeit[(df_schulzeit.index.day == 15) & (df_schulzeit.index.month == 2)]

#### Visualisierung der einzelnen Wochentage

<div class = "alert alert-success">
    Nun kann - wie bereits zuvor gesehen - eine neue Graphik <code>fig_dates</code> erstellt werden, in die die Daten nach Tagen gefiltert eingetragen werden. Automatisch wird dabei auch eine Legende erstellt, in der man dann durch Klicken einzelne Tage auswählen kann, die angezeigt oder ausgeblendet werden können. Um die Teildatensätze in der Legende passend zu benennen, verwendet man das Attribut <code>name</code>.

In [10]:
fig_dates = go.Figure()
fig_dates.add_trace(go.Scatter(x=df_0802.index, y=df_0802['value_co2'], name = 'Dienstag, 08.02.2022'))
fig_dates.add_trace(go.Scatter(x=df_0902.index, y=df_0902['value_co2'], name = 'Mittwoch, 09.02.2022'))
fig_dates.add_trace(go.Scatter(x=df_1002.index, y=df_1002['value_co2'], name = 'Donnerstag, 10.02.2022'))
fig_dates.add_trace(go.Scatter(x=df_1102.index, y=df_1102['value_co2'], name = 'Freitag, 11.02.2022'))
fig_dates.add_trace(go.Scatter(x=df_1402.index, y=df_1402['value_co2'], name = 'Montag, 14.02.2022'))
fig_dates.add_trace(go.Scatter(x=df_1502.index, y=df_1502['value_co2'], name = 'Dienstag, 15.02.2022'))
fig_dates.show()

<div class = "alert alert-success">
Hier sieht man nun den Verlauf der CO$_2$-Werte - getrennt nach den einzelnen Tagen. Als erstes solltest Du ein bisschen bei dieser Graphik bleiben und Dir die verschiedenen Tage einzeln anschauen in der interaktiven Graphik.<br>
    Wenn man einen Tag isoliert betrachtet (durch Anklicken und Vergrößern in der interaktiven Graphik), sieht man sehr gut die Schwankungen des CO2-Werts an den Vormittagen. Beispielsweise am 10.Februar sieht man starke Schwankungen und könnte vermuten, dass zwischendrin immer wieder gelüftet wurde, wodurch die CO2-Konzentration wieder gefallen ist. Finde doch einmal heraus, an welchem Tag ab 9 Uhr vermutlich kein Unterricht mehr in diesem Raum stattgefunden hat!<br><br>
    <b>Zur weiteren Analyse</b><br><br>
    Allerdings ist diese Graphik noch nicht so aussagekräftig - insbesondere fällt es aufgrund der Lücken zwischen den Einzelgraphen schwer, Vergleiche zwischen diesen ziehen zu können. Um dies zu ermöglichen, muss das Datum aus dem Zeitstempel ignoriert werden. Da der Zeitstempel im Index der Datensätze gespeichert ist, kann über <code>df_0802.index</code> auf den Zeitstempel zugegriffen werden. Mithilfe des Attributes <code>time</code> kann dann auf die Uhrzeit zugegriffen werden.<br>
    Allerdings muss diese nun wieder in ein Zeitstempelformat mit einem "Dummy-Datum" (entspricht dann dem heutigen Datum) gebracht werden, damit die Daten chronologisch auf der x-Achse angeordnet werden können. Dazu wenden wir erneut die Methode <code>pd.to_datetime</code> an, nachdem wir die Uhrzeit vorher noch mithilfe der Methode <code>astype(str)</code> in einen String umgewandelt haben.
    </div>

In [25]:
fig_dates = go.Figure()
fig_dates.add_trace(go.Scatter(x=pd.to_datetime(df_0802.index.time.astype(str)), y=df_0802['value_co2'], name = 'Dienstag, 08.02.2022'))

fig_dates.show()

<div class = "alert alert-success">
    <b>Beschriftung der Graphik</b><br><br>
    Für eine vernünftige Graphik fehlen noch ein Titel und die Achsenbeschriftungen. Dazu kann innerhalb der Funktion <code>update_layout</code> noch ein Titel für die Graphik festgelegt werden. Die Achsen lassen sich mithilfe der Methoden <code>update_xaxes</code> bzw. <code>update_yaxes</code> beschriften.
</div>

In [12]:
fig_dates = go.Figure()
fig_dates.add_trace(go.Scatter(x=pd.to_datetime(df_0802.index.time.astype(str)), y=df_0802['value_co2'], name = 'Dienstag, 08.02.2022'))
fig_dates.add_trace(go.Scatter(x=pd.to_datetime(df_0902.index.time.astype(str)), y=df_0902['value_co2'], name = 'Mittwoch, 09.02.2022'))
fig_dates.add_trace(go.Scatter(x=pd.to_datetime(df_1002.index.time.astype(str)), y=df_1002['value_co2'], name = 'Donnerstag, 10.02.2022'))
fig_dates.add_trace(go.Scatter(x=pd.to_datetime(df_1102.index.time.astype(str)), y=df_1102['value_co2'], name = 'Freitag, 11.02.2022'))
fig_dates.add_trace(go.Scatter(x=pd.to_datetime(df_1402.index.time.astype(str)), y=df_1402['value_co2'], name = 'Montag, 14.02.2022'))
fig_dates.add_trace(go.Scatter(x=pd.to_datetime(df_1502.index.time.astype(str)), y=df_1502['value_co2'], name = 'Dienstag, 15.02.2022'))

fig_dates.update_layout(title="CO2-Werte in unserem Klassenraum")
fig_dates.update_xaxes(title_text = "Zeit")
fig_dates.update_yaxes(title_text = "CO2-Wert in ppm")

fig_dates.show()

<div class = "alert alert-success">
    In den obigen 6 Graphen sieht man den Verlauf des CO$_2$-Wertes innerhalb des Unterrichtszeitraums an 6 verschiedenen Messtagen (08.-11. und 14.-15. Februar). Blende nun durch Anklicken in der Legende immer nur einen Tag auf einmal ein. An welchen Tagen hat hier wohl in der ersten Stunde kein Unterricht stattgefunden?<br><br>
    Die Werte bewegen sich etwa in der Spannweite zwischen 500 und 1300 ppm und schwanken zwischendurch teilweise stark. Dies hat vermutlich damit zu tun, dass bei einem Wert von 1000ppm die CO$_2$-Ampel in der Klasse gelb wird und daraufhin die Fenster geöffnet werden, bis die CO$_2$-Ampel wieder grün wird.
    Empfohlen wird ein CO$_2$-Wert von unter 1000 ppm im Klassenraum. Man sieht schon anhand der Graphik oben, dass der CO$_2$-Gehalt ziemlich häufig oberhalb dieser Grenze liegt. Um genauere Analysen machen zu können, sollen diese Zeiträume, zu denen die gemessenen Werte oberhalb des "guten" Bereichs liegen, in einen separaten Datensatz übernommen werden. Dadurch möchten wir genau lokalisieren, wann zu hohe CO$_2$-Werte auftreten. <br><br>
Dazu filtern wir - analog zum Vorgehen oben - zunächst zwei Teildatensätze aus dem <code>df_schulzeit</code>-Datensatz. Dabei soll der eine Datensatz all die Datenpunkte enthalten, bei denen der CO$_2$-Wert unter 1000 ppm lag und der andere Datensatz jeweils diejenigen, bei denen der Wert bei mindestens 1000 ppm lag.
</div>

#### Filtern nach Werten über und unter 1000ppm

In [13]:
df_under1000 = df_schulzeit[(df_schulzeit['value_co2'] < 1000)]
df_over1000 = df_schulzeit[(df_schulzeit['value_co2'] >= 1000)]

<div class = "alert alert-success">Nun sollen beide Datensätze in ein gemeinsames Koordinatensystem eingetragen werden. <br>Hinweis: Hierbei werden keine Verbindungslinien verwendet, welche die einzelnen Punkte miteinander verbinden, da dann zwei Punkte miteinander verbunden werden könnten, die nicht aufeinander folgen: Wenn beispielsweise der CO$_2$-Wert zu einem Zeitpunkt A unter 1000 ppm liegt, dann kurzzeitig über 1000 ppm steigt und dann zu einem Zeitpunkt B wieder unter 1000 ppm liegt, würden die Punkte bei A und B miteinander verbunden, was den Eindruck erwecken könnte, der Wert hätte in der Zwischenzeit auch immer unter 1000 ppm gelegen. Aus diesem Grund sollen hier Puinkte ohne Linien verwendet werden, was durch Belegung des Attributs <code>mode</code> mit dem Wert <code>'markers'</code> gelöst werden kann.<br>
Um die beiden Datensätze noch besser unterscheiden zu können, werden die jeweiligen Punkte in verschiedenen Farben gefärbt. Dies funktioniert über das Festlegen einer Farbe im Attribut <code>marker</code>. Diesem wird ein dictionary-Objekt übergeben, in dem verschiedene Eigenschaften der Marker - unter anderem eben auch die Farbe - festgelegt werden können.</div>

In [14]:
fig_grenze = go.Figure()
fig_grenze.add_trace(go.Scatter(x=df_under1000.index, y=df_under1000['value_co2'], mode = 'markers', name = 'CO2-Wert unter 1000ppm', marker=dict(color='Darkgreen')))
fig_grenze.add_trace(go.Scatter(x=df_over1000.index, y=df_over1000['value_co2'], mode = 'markers', name = 'CO2-Wert 1000ppm und größer', marker=dict(color='red')))
fig_grenze.show()

<div class="alert alert-success">
Zusätzlich zur farblichen Trennung kann der Graphik auch eine Trennlinie hinzugefügt werden. Hierzu verwendet man die Methode <code>add_hline</code>, der man im Attribut <code>y</code> den Wert <code>1000</code> übergibt.<br>
<i>Tipp: Analog kann man auch vertikale Linien mit der Methode <code>add_vline</code> (und dem Attribut <code>x</code>) hinzufügen.</i>
    </div>

In [15]:
fig_grenze = go.Figure()
fig_grenze.add_trace(go.Scatter(x=df_under1000.index, y=df_under1000['value_co2'], mode = 'markers', name = 'CO2-Wert unter 1000ppm', marker=dict(color='Darkgreen')))
fig_grenze.add_trace(go.Scatter(x=df_over1000.index, y=df_over1000['value_co2'], mode = 'markers', name = 'CO2-Wert über 1000ppm', marker=dict(color='red')))
fig_grenze.add_hline(y=1000)
fig_grenze.show()

<div class = "alert alert-success">
    <b>Schlussfolgerung/Empfehlung</b><br><br>
    Zoomt man in die einzelnen Tage hinein, lässt sich erkennen, dass am 
    <ul>
        <li>08.02.</li>
        <li>10.02.</li>
        <li>14.02.</li>
        <li>15.02.</li>
    </ul>
    Zeiträume, in denen der CO$_2$-Wert über 1000 ppm lag, sehr eng aufeinander folgen. Das sieht man daran, dass zwischen zwei solcher "roten Zeiträume" nur wenige "grüne Punkte" liegen, bei denen der CO$_2$-Wert unter 1000 ppm lag. Vermutlich sind die Fenster sehr schnell wieder geschlossen worden. Folglich könnte es sinnvoll sein, die Fenster noch ein wenig länger offen zu halten, um den CO$_2$-Wert zunächst noch weiter zu verringern, sodass die nächste "rote Phase" erst später auftritt. <br>
    Nachdem diese Handlungsempfehlung ausprobiert wurde, könnte es sinnvoll sein, anhand neuer Daten noch genauer zu analysieren, wie viel Zeit zwischen den "roten Phasen" liegt, um ggf. "präventiv" lüften zu können und nicht erst, wenn der CO$_2$-Wert über 1000 ppm liegt. Da die "roten Phasen" aktuell teilweise sehr schnell aufeinander folgen, ergibt dies jetzt noch keinen Sinn (man müsste dann dauerhaft lüften), sondern erst dann, wenn diese Phasen in etwas größeren/regelmäßigeren Abständen zueinander liegen, die man dann abschätzen kann. 

        
</div>

#### Gruppierung der Daten nach Menge an Zeitpunkten, zu denen der CO$_2$-Wert über 1000ppm lag

<div class ="alert alert-success">
    <b>Weiterführende Analysen</b><br><br>
    Nun könnte noch interessant sein, zu analysieren, zu welchen Tageszeiten der CO$_2$-Wert besonders häufig über 1000 ppm liegt. Auf diese Weise könnten Zeiträume identifiziert werden, zu denen besonders häufig gelüftet werden sollte. Zunächst werden dafür die Datenpunkte, bei denen der CO$_2$-Wert über 1000 ppm lag, gruppiert. Als Ergebnis soll dann eine Liste mit 30 min Zeitintervallen herauskommen, in der für jedes Intervall notiert ist, wie viele Werte darin über 1000 ppm lagen.<br>
Dazu werden zunächst alle Datensätze, die in einem 30 min Zeitintervall liegen, gezählt und so zu einem Datensatz zusammengefasst. Hierfür werden die Funktionen <code>resample</code> mit dem Parameterwert <code>'30Min'</code> zum Zusammenfassen der 30min-Intervalle und die Funktion <code>count</code> zum Zählen der Datensätze genutzt. Es ergibt sich das DataFrame <code>grouped</code>, welches für jedes 30 min Intervall von Messbeginn bis Messende die Anzahl der CO$_2$-Werte über 1000 ppm enthält.<br>
Da diese Anzahl allerdings basierend auf der Uhrzeit - ohne das Datum zu berücksichtigen - erhoben werden soll, wird anschließend der Index des neuen Dataframes auf die Uhrzeit gesetzt. Anschließend können dann mithilfe der <code>grouped</code>-Methode und der <code>sum</code>-Methode die gleichen Zeitintervalle für die verschiedenen Tage zusammengefasst werden.
</div>

In [16]:
grouped = df_over1000['value_co2'].resample('30Min').count()
grouped.index = grouped.index.time
grouped = grouped.groupby(grouped.index).sum()
print(grouped)

00:00:00      0
00:30:00      0
01:00:00      0
01:30:00      0
02:00:00      0
02:30:00      0
03:00:00      0
03:30:00      0
04:00:00      0
04:30:00      0
05:00:00      0
05:30:00      0
06:00:00      0
06:30:00      0
07:00:00      0
07:30:00     46
08:00:00     59
08:30:00     73
09:00:00    175
09:30:00    129
10:00:00    201
10:30:00    105
11:00:00     85
11:30:00    167
12:00:00    112
12:30:00     91
13:00:00     10
13:30:00      0
14:00:00      0
14:30:00      0
15:00:00      0
15:30:00      0
16:00:00      0
16:30:00      0
17:00:00      0
17:30:00      0
18:00:00      0
18:30:00      0
19:00:00      0
19:30:00      0
20:00:00      0
20:30:00      0
21:00:00      0
21:30:00      0
22:00:00      0
22:30:00      0
23:00:00      0
23:30:00      0
Name: value_co2, dtype: int64


<div class = "alert alert-success">
    Zusätzlich zur bloßen Ausgabe wie gerade geschehen, soll dies auch noch in einem Balkendiagramm (engl. bar chart) visualisiert werden. Damit wollen wir (leichter) erkennen, zu welchen Zeiten die Werte besonders häufig über 1000 ppm lagen - also wann noch häufiger gelüftet werden müsste.
    </div>

In [17]:
fig = go.Figure()
fig.add_trace(go.Bar(x=grouped.index, y=grouped))

fig.update_layout(title="Anzahl der Zeitpunkte, zu denen der CO2-Wert über 1000 ppm lag für 30 min-Intervalle")
fig.update_xaxes(title_text = "Zeit")
fig.update_yaxes(title_text = "Anzahl der Zeitpunkte, zu denen der CO2-Wert über 1000 ppm lag")

fig.show()



<div class = "alert alert-success">
Nimmt man alle Tage zusammen, dann ergibt sich insbesondere zwischen 09:00 Uhr und 09:30 Uhr, zwischen 10:00 Uhr und 10:30 Uhr und zwischen 11:30 Uhr und 12:00 Uhr besonders häufig, dass die CO$_2$-Werte die 1000 ppm Grenze überschritten haben.<br>
    <i>Zur Erinnerung: Die Daten wurden alle 30 Sekunden protokolliert. In dieser Graphik wurden die Daten von allen sechs Tagen zusammengefasst, jedes 30 Minuten Intervall enthält also 360 Messwerte. Davon haben im schlimmsten Fall 201, also ein Drittel (von 10 bis 10:30 Uhr) über 1000 ppm gelegen.</i><br>
  Zu den o.g. Zeiten sollte daher vermutlich häufiger gelüftet werden.
</div>

<div class = "alert alert-success">
    Dies ist eine mehrerer Handlungsempfehlungen, die wir aus der Analyse des CO$_2$-Wertes ableiten konnten. Nachfolgend sind noch einmal alle aufgelistet, die wir aus den Daten schließen:
</div>

<div class = "alert alert-success">

## Handlungsempfehlung 01:
Um die Häufigkeit der Phasen mit einem CO$_2$-Wert von mehr als 1000 ppm zu reduzieren, kann es sinnvoll sein, in dieser konkreten Klasse die Fenster bei jedem Lüften ein wenig länger offen zu halten.
    
## Handlungsempfehlung 02:
Zwischen 09:00 Uhr und 09:30 Uhr, zwischen 10:00 Uhr und 10:30 Uhr und zwischen 11:30 Uhr und 12:00 Uhr sollte häufiger gelüftet werden.
    
  
## Handlungsempfehlung 03: Weitere Daten sammeln und analysieren
Nachdem diese Handlungsempfehlungen ausprobiert wurden, könnte es sinnvoll sein, anhand neuer Daten noch genauer zu analysieren, wie viel Zeit dann zwischen den "roten Phasen" liegt, um ggf. "präventiv" lüften zu können und nicht erst, wenn der CO$_2$-Wert über 1000 ppm liegt.
</div>

### Analyse der Temperaturdaten

<div class = "alert alert-success">
    Genau wie die CO$_2$ Daten können auch die Temperaturdaten in einem Zeitdiagramm dargestellt werden:
    </div>

In [18]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=df.index, y=df['value_temp']))
fig.show()

<div class = "alert alert-success">
    Die gemessenen Temperatur-Werte im Klasssenraum schwanken meist zwischen 22 und 27 Grad. Allerdings gibt es am 11.02. zwischen ca. 8 Uhr und 9 Uhr stark abweichende Werte, die bis auf 19 Grad heruntergehen. Zunächst sollen nun aber die einzelnen Wochentage zu den Schulzeiten genauer betrachtet werden. Der Vorteil ist, dass wir oben bereits die passenden Datensätze gefiltert haben (<code>df_0802, df_0902,...</code>). Folglich müssen wir nur noch die Visualisierung anpassen:
    </div>

In [19]:
fig_dates_temp = go.Figure()
fig_dates_temp.add_trace(go.Scatter(x=pd.to_datetime(df_0802.index.time.astype(str)), y=df_0802['value_temp'], name = 'Dienstag, 08.02.2022'))
fig_dates_temp.add_trace(go.Scatter(x=pd.to_datetime(df_0902.index.time.astype(str)), y=df_0902['value_temp'], name = 'Mittwoch, 09.02.2022'))
fig_dates_temp.add_trace(go.Scatter(x=pd.to_datetime(df_1002.index.time.astype(str)), y=df_1002['value_temp'], name = 'Donnerstag, 10.02.2022'))
fig_dates_temp.add_trace(go.Scatter(x=pd.to_datetime(df_1102.index.time.astype(str)), y=df_1102['value_temp'], name = 'Freitag, 11.02.2022'))
fig_dates_temp.add_trace(go.Scatter(x=pd.to_datetime(df_1402.index.time.astype(str)), y=df_1402['value_temp'], name = 'Montag, 14.02.2022'))
fig_dates_temp.add_trace(go.Scatter(x=pd.to_datetime(df_1502.index.time.astype(str)), y=df_1502['value_temp'], name = 'Dienstag, 15.02.2022'))

fig_dates_temp.update_layout(title="Temperatur-Werte in unserem Klassenraum")
fig_dates_temp.update_xaxes(title_text = "Zeit")
fig_dates_temp.update_yaxes(title_text = "Temperatur in °C")

fig_dates_temp.show()

<div class = "alert alert-success">
An den einzelnen Tagen lassen sich einige Temperaturschwankungen erkennen. Besonders stark ist diese Schwankung - wie bereits oben angesprochen - am 11.02. zwischen 8 und 9 Uhr. Doch auch an den anderen Tagen gibt es Phasen, in denen die Temperatur teilweise um zwei Grad oder mehr in kurzer Zeit abnimmt und dann wieder zunimmt. Vermutlich wurde in diesen Phasen jeweils gelüftet, sodass auch der CO$_2$-Wert in diesen Phasen gefallen sein müsste.
</div>

<div class = "alert alert-warning">
    Ähnlich wie oben gesehen, kannst Du bei der Auswertung einzelner Variablen (hier für die Temperatur) vorgehen. Dabei hängt die Wahl der Filter, aggregierten Daten und der Visualisierungen von Deiner Forschungsfrage ab. Probiere für eine ausgewählte Variable eine eigene Datenanalyse mit derartigen Visualisierungen und begleitenden Erläuterungen zu erstellen.
    </div>

### Analyse des Zusammenhangs zweier Variablen

<div class = "alert alert-success"> Gerade haben wir vermutet, dass es einen (statistischen) Zusammenhang zwischen der Temperatur und dem CO$_2$ Gehalt im Klassenzimmer gibt. Dies soll nun weiter untersucht werden. <br><br> 
    <b>Zwei Variablen in einer Graphik darstellen</b><br><br>
    Um den Zusammenhang von CO$_2$-Wert und Temperaturwert zu überprüfen, sollen im Folgenden Graphen für beide Größen in ein gemeinsames Diagramm gezeichnet werden. Hierbei muss man allerdings darauf achten, dass beide Größen in verschiedenen Einheiten dargestellt werden (CO$_2$-Werte in ppm und Temperaturwerte in °C). Aus diesem Grund muss der zweite Graph als sogenannter subplot (engl. für "Neben-Plot" oder "Nebenbereich") eingezeichnet werden. Dies funktioniert, indem man mithilfe der Methode <code>make_subplots</code> aus der plotly.subplots-Bibliothek eine Figure-Umgebung mit Subplots erstellt. Dabei muss in den Spezifikationen (engl. kurz specs genannt) die Property <code>secondary_y</code> auf <code>True</code> gesetzt werden. In der <code>add_trace</code>-Methode wird dann für den als Subplot einzuzeichnenden Graphen (Hier für die CO$_2$-Werte) der Parameter <code>secondary_y</code> auf <code>True</code> gesetzt. So wird automatisch eine zweite y-Achse rechts am Rande des Plots eingefügt, auf der dann die y-Werte für den Subplot-Graphen angeordnet werden.<br>
Da die Schwankungen für den 11.02. bei der Temperatur besonders deutlich waren, haben wir die Gegenüberstellung von Temperatur und CO$_2$ einmal exemplarisch für diesen Tag umgesetzt. Dabei haben wir - wie bereits oben gesehen - mithilfe des <code>marker</code>-Attributes die Farbe für die beiden Graphen festgelegt, um sie besser voneinander unterscheiden zu können.<br>
    Beachte: Die Achsenbeschriftung für die Termperatur befindet sich links, die für CO2 rechts am Diagramm!
</div>

In [20]:
fig_comp = sp.make_subplots(specs=[[{"secondary_y": True}]])
fig_comp.add_trace(go.Scatter(x=pd.to_datetime(df_1102.index.time.astype(str)), y=df_1102['value_temp'], name = 'Temperatur', marker=dict(color='Darkgreen')))
fig_comp.add_trace(go.Scatter(x=pd.to_datetime(df_1102.index.time.astype(str)), y=df_1102['value_co2'], name="CO2", marker = dict(color='Deepskyblue')),secondary_y=True)
fig_comp.update_layout(title="Temperatur und CO2-Werte am 11.02.")
fig_comp.show()

<div class = "alert alert-success">
Man sieht, dass die Verläufe der beiden Variablen Temperatur und CO2 am 25.2. sehr ähnlich aussehen. Sie fallen und steigen fast gleichzeitig. <br><br>
    <b>Getrennte Achsenbeschriftungen</b><br><br>
    Um nun die Zuteilung der beiden Graphen zu ihren jeweiligen Achsen noch besser verdeutlichen zu können, sollen auch die y-Achsen beschriftet werden. Dies funktioniert ähnlich, wie oben gezeigt, nur dass man bei der y-Achse zum Subplot (hier CO$_2$-Werte) den Parameter <code>secondary_y</code> auf <code>True</code> setzen muss und bei der anderen y-Achse im primären Plot (hier Temperaturwerte) auf <code>False</code>.<br>
Um die Zuteilung der Graphen zu den jeweiligen Achsen noch weiter zu verdeutlichen, haben wir mithilfe des <code>color</code>-Attributs die Farbe der Achsen auf die Farbe der Graphen gesetzt.
</div>

In [21]:
fig_comp = sp.make_subplots(specs=[[{"secondary_y": True}]])
fig_comp.add_trace(go.Scatter(x=pd.to_datetime(df_1102.index.time.astype(str)), y=df_1102['value_temp'], name = 'Temperatur', marker=dict(color='Darkgreen')))
fig_comp.add_trace(go.Scatter(x=pd.to_datetime(df_1102.index.time.astype(str)), y=df_1102['value_co2'], name="CO2", marker = dict(color='Deepskyblue')),secondary_y=True)
fig_comp.update_layout(title="Temperatur und CO2-Werte am 11.02.")
fig_comp.update_yaxes(title_text="Temperaturwerte in °C", secondary_y=False, color = "Darkgreen")
fig_comp.update_yaxes(title_text="CO2-Werte in ppm", secondary_y=True, color = "Deepskyblue")
fig_comp.show()

<div class = "alert alert-success">
Im gemeinsamen Diagramm lässt sich erkennen, dass die Temperatur und der CO$_2$-Wert am 11.02. einen sehr ähnlichen Verlauf haben: Gegen kurz vor 8 fangen beide Werte an zu sinken bis ca. um 08:04 Uhr. Während die Temperatur von etwa 25,5 °C auf ca. 22,8°C sinkt, fällt der CO$_2$-Wert von ca. 1280 pmm auf etwa 743 ppm. Anschließend steigt die Temperatur bis um etwa 08:19 Uhr auf 23,87 °C, während auch der CO$_2$-Wert wieder steigt, und zwar auf ca. 831 ppm. Anschließend fallen beide Werte wieder bis ca. um 08:40 Uhr auf 18,83°C  bzw. auf ca. 600 ppm. Anschließend steigen beide Werte wieder bis ca. um 09:00 Uhr (CO$_2$) bzw. 09:15 Uhr (Temperatur), bevor sie sich etwa auf einem Level von ca. 25,3°C bzw. zwischen 1100 und 1200 ppm einpendeln.<br>
    Der Verlauf lässt sich damit erklären, dass am 11.02. im Klassenraum nur in der ersten Stunde Unterricht war. Vermutlich wurde dort dann zweimal gelüftet (einmal ca. von 07:58 Uhr bis 08:05 Uhr und einmal ca. von 08:18 Uhr bis 08:40 Uhr).<br>
Der ähnliche Verlauf der Werte für den CO$_2$-Gehalt und die Temperatur ist an diesem Tag besonders auffällig. Um ihn noch weiter untersuchen zu können, wollen wir im Folgenden feststellen, inwiefern die beiden Werte statistisch miteinander zusammenhängen (d.h. <b>korrellieren</b>). wir untersuchen also die <b>Korrelation</b> zwischen Temperatur und CO2 am 25.2.22.
</div>

<div class = "alert alert-success">
Um zu erkennen, inwiefern die beiden Variablen CO$_2$-Wert und Temperatur zusammenhängen, kann zunächst ein Scatterplot erstellt werden, bei dem der eine Wert auf der x-Achse ist (CO$_2$-Wert), während der andere Wert (Temperatur) auf der y-Achse angeordnet wird. Dies funktioniert am übersichtlichsten mit einem Punktdiagramm, weswegen das Attribut <code>mode</code> wieder auf en Wert <code>'markers'</code> gesetzt wird.
</div>

In [22]:
fig_zushg = go.Figure()
fig_zushg.add_trace(go.Scatter(x=df_1102['value_co2'], y=df_1102['value_temp'], name = 'Zusammenhang CO2 => Temp', mode = 'markers', marker=dict(color='Darkgreen')))
fig_zushg.update_layout(title="Zusammenhang zwischen CO2-Werten und Temperaturwerten am 11.02.")
fig_zushg.update_xaxes(title_text="CO2-Werte in ppm")
fig_zushg.update_yaxes(title_text="Temperaturwerte in °C")
fig_zushg.show()

<div class = "alert alert-success">
Es ergibt sich eine Punktwolke für die Abhängigkeit der Temperatur von den CO2 Werten. Wie man in der Graphik erkennen kann, verlaufen die Punkte "grob" gesprochen von links unten nach rechts oben. Also in etwa: Je niedriger der CO2 Wert ist, desto niedriger ist auch die Temperatur und je höher der CO2 Wert ist, desto höher ist auch die Temperatur.<br> Man kann hier dann auf eine sogenannten positive Korrelation zwischen diesen beiden Variablen schließen, die genau dies aussagt. Um dies zu überprüfen, kann man mit der Methode <code>corr</code> auch die Korrelationskoeffizienten zwischen den verschiedenen Variablen eines Dataframes berechnen. Dies wird nun exemplarisch für den Datensatz am 11.02. gemacht für die Variablen Temperatur (<code>value_temp</code>) und CO2 (<code>value_co2</code>):
</div>

In [23]:
df_1102.corr()

Unnamed: 0,value_co2,value_temp,value_hum,value_airpressure,value_light
value_co2,1.0,0.927044,-0.551405,0.459803,-0.728452
value_temp,0.927044,1.0,-0.624419,0.493768,-0.701468
value_hum,-0.551405,-0.624419,1.0,-0.334461,0.611088
value_airpressure,0.459803,0.493768,-0.334461,1.0,-0.471659
value_light,-0.728452,-0.701468,0.611088,-0.471659,1.0


<div class = "alert alert-success">
In der Tabelle sind die Korrelationskoeffizienten zwischen allen möglichen Kombinationen von zwei Variablen berechnet. Natürlich liegt der Korrelationskoeffizient bei einer Variable mit sich selbst immer bei 1. Das sieht man auf der Diagonalen. Dies ergibt Sinn, da die Variable natürlich direkt von sich abhängt - z.B. "je höher <code>value_temp</code> ist, desto höher ist auch <code>value_temp</code>".<br><br>
    <b>Der Korrelationskoeffizient</b><br><br>
Allgemein liegt der sogenannte Korrelationskoeffizient von zwei Variablen A und B immer zwischen -1 und 1. Bei einem Wert nahe an -1 spricht man von einer starken negativen Korrelation. Das bedeutet in etwa: Je höher der Wert von Variable A, desto niedriger ist der Wert von Variable B. <br>
    Bei einem Wert nahe an 1 spricht man dagegen von einer hohen positiven Korrelation - je höher der Wert von Variable A, desto höher ist auch der Wert von Variable B. <br>Bei einem Wert nahe an 0 lässt sich kein solches Muster bzw. kein Zusammenhang zwischen den Variablen A und B erkennen.<br>
<b>Allgemein spricht man von einer statistisch signifikaneten Korelation, wenn der Korrelationskoeffizient zwischen zwei Variablen größer als 0,6 oder kleiner als -0,6 ist.</b> <br>
Allerdings muss man im Allgemeinen aufpassen, wenn man vom statistischen Zusammenhang auf den ursächlichen (kausalen) Zusammenhang schließen möchte: Nur weil es eine hohe Korrelation zwischen zwei Variablen gibt, heißt das noch nicht, dass diese auch inhaltlich (kausal) zusammenhängen.<br><br>
    <b>Unterschied zwischen Korrelation und Kausalität</b><br><br>
Auf folgender Website gibt es ein gutes Video, in dem der Unterschied zwischen Kausalität und Korrelation gut erklärt wird: <a href =https://studyflix.de/statistik/korrelation-und-kausalitat-2216?topic_id=9>https://studyflix.de/statistik/korrelation-und-kausalitat-2216?topic_id=9</a><br>
Das Beispiel aus dem Video soll hier kurz aufgegrifen werden: Die Anzahl an Personen mit einem Sonnenbrand und die Anzahl der verkauften Eiskugeln in einer Eisdiele korrelieren statistisch gesehen zwar stark miteinander, die Anzahl der Sonnenbrände ist aber nicht für die Menge an verkauften Eiskugeln verantwortlich und andersherum ebenfalls nicht. Aus diesem Grund bringt es nichts, wenn man die Anzahl der verkauften Eiskugeln verringert, um weniger Menschen mit einem Sonnenbrand zu haben. Durch weniger verkauftes Eis werden nicht automatisch weniger Menschen einen Sonnenbrand bekommen.<br><br>
<i>Hinweis: Da in unserem Datensatz jeweils zueinander gehörige Wetterdaten vorhanden sind, kann man in vielen Fällen schon von einer zutreffenden Kausalität ausgehen. Diese muss aber immer auch begründet werden.</i>
</div>

<div class = "alert alert-success">
    <b>Interpretation unserer Werte</b><br><br>Zwischen den Temperaturwerten und den CO$_2$-Werten besteht für den 11.02. eine hohe Korrellation mit einem Korrellationskoeffizienten von ca. 0,927. Zudem lässt sich die Kausalität des Zusammenhangs zwischen dem gemessenen Temperaturwert und dem gemessenen CO$_2$-Wert damit begründen, dass bei einem Anstieg beider Werte die Fenster geschlossen waren und bei einem Abfall der Werte das Fenster geöffnet war.<br>

</div>

<div class = "alert alert-success">Nun soll noch geprüft werden, ob es weitere signifikante Korrelationen zwischen Variablen in unserem Datensatz gibt und ob die hohe Korrellation der Temperatur und des CO2-Wertes auch an den anderen Tagen besteht. Dazu rufen wir die <code>corr</code>-Methode nun auf dem gesamten Datensatz für die Schulzeit (<code>df_schulzeit</code>) auf:
</div>

In [24]:
df_schulzeit.corr()

Unnamed: 0,value_co2,value_temp,value_hum,value_airpressure,value_light
value_co2,1.0,0.311495,0.13952,0.163336,0.042432
value_temp,0.311495,1.0,-0.416235,-0.522674,0.247323
value_hum,0.13952,-0.416235,1.0,0.666526,-0.392978
value_airpressure,0.163336,-0.522674,0.666526,1.0,-0.599977
value_light,0.042432,0.247323,-0.392978,-0.599977,1.0


<div class = "alert alert-success">
Wie wir in der obigen Tabelle sehen, liegt der Korrelationskoeffizient zwischen <code>value_temp</code> und <code>value_co2</code> über alle Tage hinweg nur bei ca. 0,31. Man kann hier also nicht von einem statistischen Zusammenhang der beiden Variablen im Allgemeinen sprechen. Die einzige signifikante Korrelation besteht zwischen der Luftfeuchtigkeit und dem Luftdruck (Korrellationskoeffizient von ca. 0,6665). Diesen Zusammenhang könnte man in der Zukunft noch genauer untersuchen.
</div>

<div class = "alert alert-warning">
    Ähnlich wie oben gesehen, kannst Du bei der Analyse des Zusammenhangs zweier Variablen vorgehen. Dabei hängt die Wahl der Filter, aggregierten Daten und der Visualisierungen immer von Deiner Forschungsfrage ab. Probiere, für zwei ausgewählte Varialbe eine eigene Analyse des Zusammenhangs mit passenden Visualisierungen und begleitenden Erläuterungen zu erstellen.
    </div>

## >>Schlussfolgerungen/Empfehlungen<<

<div class = "alert alert-warning">
    Im Folgenden werden die wesentlichen Erkenntnisse und Handlungsempfehlungen festgehalten, die innerhalb dieses Computational Essays gewonnen werden konnten.
</div>

### Erkenntnisse:

<div class = "alert alert-success">
<ul>
    <li>Die CO$_2$-Werte bewegten sich zwischen 500 und 1300 ppm und schwankten zwischendurch teilweise relativ stark. Dies hat vermutlich damit zu tun, dass bei einem Wert von 1000ppm die CO$_2$-Ampel in der Klasse gelb wurde und daraufhin die Fenster geöffnet wurden, bis die CO$_2$-Ampel wieder grün wurde.</li>
<li> Die Zeiträume, in denen die CO$_2$-Werte zu hoch waren (> 1000ppm) folgen im Klassenraum sehr schnell aufeinander. </li>
<li> Die gemessenen Temperatur-Werte im Klasssenraum schwankten meist zwischen 22 und 27 Grad (im Februar). Allerdings gab es am 11.02. zwischen ca. 8 Uhr und 9 Uhr stark abweichende Werte, die bis auf 19 Grad sanken.</li>
<li> Zwischen 09:00 Uhr und 09:30 Uhr, zwischen 10:00 Uhr und 10:30 Uhr und zwischen 11:30 Uhr und 12:00 Uhr lagen die CO$_2$-Werte besonders häufig über 1000 ppm. </li>   
<li> An den einzelnen Tagen ließen sich einige Temperaturschwankungen erkennen. Besonders stark war diese Schwankung - wie bereits oben angesprochen - am 11.02.22 zwischen 8 und 9 Uhr. Doch auch an den anderen Tagen gab es Phasen, in denen die Temperatur teilweise um zwei Grad oder mehr in kurzer Zeit abnahm und dann wieder zunahm. Vermutlich wurde in diesen Phasen jeweils gelüftet, sodass auch der CO$_2$-Wert in diesen Phasen gefallen sein müsste.</li>
<li> Am 11.02. hatten die Temperatur und der CO$_2$-Wert einen sehr ähnlichen Verlauf
    <ul>
        <li> je höher die CO$_2$-Werte waren, umso höher lagen auch die Temperaturwerte.</li>
        <li> Zwischen den Temperaturwerten und den CO$_2$-Werten besteht für den 11.02. eine hohe Korrelation mit einem Korrellationskoeffizienten von ca. 0,927.</li>
        <li>Weiterhin bestehen folgende signifikante Korrellationen für die Daten am 11.02.:
        <ul>
            <li>negativer Zusammenhang zwischen CO$_2$-Wert und Helligkeit (Korrelationskoeffizient ca. -0,7284)</li>
            <li>negativer Zusammenhang zwischen Temperatur und Luftfeuchtigkeit (Korrelationskoeffizient ca. -0,6244)</li>
            <li>negativer Zusammenhang zwischen Temperatur und Helligkeit (Korrelationskoeffizient ca. -0,7014)</li>
            <li>positiver Zusammenhang zwischen Luftfeuchtigkeit und Helligkeit (Korrelationskoeffizient ca. 0,6111)</li>
        </ul>
        </li>
        <li> Für den gesamten Datensatz zur Schulzeit lag der Korrelationskoeffizient zwischen <code>value_temp</code> und <code>value_co2</code> nur bei ca. 0,31. Man kann hier also nicht von einem statistischen Zusammenhang der beiden Werte im Allgemeinen sprechen.</li>
    </ul>

</ul>
</div>    

### Handlungsempfehlungen und weitere Analyseinteressen:

<div class = "alert alert-success">
<ul>
    <li>Um die Häufigkeit der Phasen mit einem CO$_2$-Wert von mehr als 1000 ppm zu reduzieren, kann es sinnvoll sein, die Fenster länger offen zu halten.</li>
       <li>Zwischen 09:00 Uhr und 09:30 Uhr, zwischen 10:00 Uhr und 10:30 Uhr und zwischen 11:30 Uhr und 12:00 Uhr  sollte häufiger gelüftet werden.</li>
    <li>Nachdem diese Handlungsempfehlung ausprobiert wurde, könnte es sinnvoll sein, anhand neuer Daten noch genauer zu analysieren, wie viel Zeit dann zwischen den "roten Phasen" liegt, um ggf. "präventiv" lüften zu können und nicht erst, wenn der CO$_2$-Wert über 1000 ppm liegt.</li>
     <li>Ein weiterer, interessanter, zu analysierender Zusammenhang für weitere Untersuchungen könnte der zwischen Luftfeuchtigkeit und Luftdruck sein - hier scheint es eine signifikante Korrelation zu geben.</li>
    <li>Weiterhin könnten auch die Zusammenhänge, die für den 11.02. signifikant waren, mit weiteren Daten analysiert werden.</li>
    <li>Interessant könnte auch sein, wenn man zusätzlich erhebt oder analysiert, wie oft gelüftet wurde und wann zusätzlich hätte gelüftet werden sollen. Daraus könnte ggf. auch ein "Lüftungsplan" entstehen.</li>
</ul>
</div>