# <font color='darkblue'>Wetter-Daten und Luftqualität kombinieren</font>

Mit Ihren grundlegenden Python-Fähigkeiten sollen Sie jetzt eine kleine Analyse von zwei Datensätzen durchführen.

Bei dem ersten Datensatz handelt es sich um Werte, welche in ihrer ursprünglichen Form von Meteostat <a href="https://meteostat.net/de/place/45I0JU?t=2020-11-01/2021-10-31">auf dieser Seite</a> zur Verfügung gestellt werden. Die Daten aus dem zweiten Datensatz werden vom Umweltbundesamt <a href="https://www.umweltbundesamt.de/daten/luft/luftdaten">auf dieser Seite</a> zur Verfügung gestellt. 


Hierbei nutzen Sie das populäre Package `pandas`, das besonders zum Einlesen und bearbeiten von tabelarischen Daten sinnvoll ist. Häufig werden hier Abkürzungen für die geladenen Packages vergeben. Für `pandas` ist `pd` üblich.

In [None]:
import pandas as pd

Zu allererst nutzen Sie die Funktion `read_csv` aus `pandas`, was Sie mit pd abgekürzt haben,
um die Datei `weather_cologne_selected.csv` einzulesen. In diesem Fall
trennt der Punkt nicht Objekt von einer Methode ab, sondern den Package-Namen 
bzw. dessen Abkürzung von einer Funktion.

In [None]:
weather = pd.read_csv("weather_cologne_selected.csv")

Die Funktion gibt eine Datenstruktur, die DataFrame genannt wird, zurück, die Sie in 
der Variablen `weather` ablegen. Diese können Sie sich jetzt anzeigen lassen, bei dieser Art der Darstellung
werden nur die ersten 5 und letzten 5 Zeilen dargestellt.

In [None]:
weather

Mit der Methode `describe` können Sie sich für alle numerischen Spalten - in diesem Fall `tmin` für die Minimaltemperatur und `tmax` für die Maximaltemperatur -  statistische Kennziffern wie den Mittelwert (`mean`), die Standardabweichtung (`std`) u.ä.  anzeigen lassen.

In [None]:
weather.describe()

Mit `pandas` können Sie sogar Graphiken erzeugen, hier zum Beispiel den Zusammenhang von der Minimal- und Maximaltemperatur eines Tages durch ein Streudiagramm.

In [None]:
fig = weather.plot.scatter(x="tmin", y="tmax")

Nun soll ein zweiter Datensatz zur Luftqualität hinzugefügt werden. Auch hier nutzen Sie die Funktion `read_cs` von `panda` um die Daten aus der Datei `air_qualities_cologne.csv` einzulesen.

In [None]:
air_quality = pd.read_csv("air_qualities_cologne.csv")

Schauen Sie sich den Inhalt des DataFrames an. Hier sind neben Datum und Uhrzeiten unter anderen Feinstaub- und Ozonwerte zu finden.

In [None]:
air_quality

Auch hier können Sie sich für die numerischen Spalten die statistischen Kennzahlen anzeigen lassen.

In [None]:
air_quality.describe()

Einzelne Spalten, in '`pandas` Series genannt, können durch eckige Klammern und den Spaltennamen angesprochen werden. Hier am Beispiel der Feinstaubspalte.

In [None]:
air_quality["Feinstaub"]

Einzelne Spalten besitzen eine Methode names `hist`, mit der die Verteilung der Werte als Histogramm dargestellt werden können. Dabei wird der Wertebereich alle Werte in der Spalte in 10 gleich große Bereiche aufgeteilt. Es wird dann gezählt wie viele der Werte in den jeweiligen Bereich fallen und dies als Balkenlänge dargestellt.

In [None]:
fig_2 = air_quality["Feinstaub"].hist()

Als letzte werden die beiden DataFrames an Hand einer gemeinsamen Spalte, hier die Datums-Spalte, zusammengefügt. Dabei ist zu beachten, dass der DataFrame mit den Luftqualitätsdaten sehr viel mehr Einträge besitzt als der Temperatur-DataFrame. 

Hierzu nutzen Sie die Methode `merge` des DataFrames `air_quality` und übergeben den anderen DataFrame `weather` als erstes Argument. Als sogenannte Keyword-Argumente geben Sie die Namen der beiden Spalten mit. `left_on` mit dem Spaltennamen im `air_quality`-DataFrame und `right_on` mit dem Spaltennamen im `weather`-DataFrame.

In [None]:
air_quality_and_weather = air_quality.merge(weather, left_on="Datum", right_on="date")

Das Ergebnis speichern Sie in der Variable `air_quality_and_weather`. Schauen Sie sich das Ergebnis einmal an:

In [None]:
air_quality_and_weather

Jetzt können Sie Wert beider Datensätze in Zusammenhang bringen. Ist bei hoher Temperatur auch der Feinstaubgehalt hoch? Dies scheint nicht der Fall zu sein.

In [None]:
fig_3 = air_quality_and_weather.plot.scatter(x="Feinstaub", y="tmin")