# Kapitel 1 - Einleitung

# *Was kann man eigentlich alles so machen mit den Daten einer Wetterstation?*

Willkommen!

In diesem Tutorial schauen wir uns die Daten einer Wetterstation "um die Ecke" an. Am Ende wirst du einige Fragen über das Wetter vor Ort beantworten, die du dir vielleicht auch schonmal gestellt hast:
- Wie warm ist es eigentlich im Durchschnitt so in Leipzig?
- Wie verändert sich die Temperatur normalerweise im Laufe des Jahres?
- Was sind die Hitze- und Kälterekorde?
- Können wir anhand der Daten einer einzelnen Wetterstation den Klimawandel erkennen? Können wir ablesen, wie viel es pro Jahr im Durchschnitt wärmer wird?

Unterwegs lernst du hoffentlich auch eine Menge: 
- Wo finde ich überhaupt Wetter-Beobachtungsdaten? Muss ich die etwa selber messen?! (Spoiler: zum Glück meistens nicht)
- Worauf muss man aufpassen wenn man mit Messdaten arbeitet? 
- Wenn ich Beobachtungen gemacht habe - wie kann ich überlegen, ob ich wirklich das gemessen habe, was ich wollte? Oder gab es Störeffekte, die die Messung beeinflusst haben (Messfehler, abgelenkte Forscher, statistisches Rauschen, ...)
- Viele schlaue Wörter, um nerdy Mitschüler und/oder Lehrerinnen zu beeindrucken; z.B. "Regression", "Klimavariabilität" oder "Klimatologie"

Du musst hier nicht jede Zeile Code verstehen. Trotzdem bist du herzlich eingeladen, den Code zu lesen und uns Fragen dazu zu stellen!
Falls dir also irgendwas unklar ist oder dich besonders interessiert, melde dich gern bei uns.

## 1.1 Daten einlesen

Der Deutsche Wetterdienst hat eine Website, auf der man sich Wetterdaten herunterladen kann: https://opendata.dwd.de/climate_environment/CDC/observations_germany/climate/ .
Von dieser Website haben wir für dich schon einmal die Daten der täglichen durchschnittlichen Temperatur in Leipzig heruntergeladen.

Du kannst dir die Wetterdaten gern "roh" ansehen, das geht [hier](daten/produkt_klima_tag_19340101_20221231_02932.txt).

Hm, das ist ja nicht sonderlich vielsagend. Am besten schreiben wir uns etwas Code, um die Wetterdaten besser zu verstehen.

Als erstes müssen wir die Wetterdaten einlesen. Dazu müssen wir aber erst mal ein paar Programmierbibliotheken laden. Das machen wir in der nächsten Zelle:

In [None]:
# Programmierbibliotheken importieren

import pandas as pd
import xarray as xr
import matplotlib.pyplot as plt
import numpy as np

Jetzt können wir die Daten laden.

In [None]:
d = pd.read_csv(
    "daten/produkt_klima_tag_19340101_20221231_02932.txt",
    sep=";",
    skipinitialspace=True,
)

data = xr.DataArray(d["TMK"], coords={"time": d["MESS_DATUM"]})
data["time"] = pd.to_datetime(data.time, format="%Y%m%d")

Unsere Bibliotheken sind jetzt geladen und die Daten sind in der Variablen `data` gespeichert. 

## 1.2 Daten anschauen

Und damit können wir den Computer die Daten zum ersten Mal zeichnen lassen (nennt sich "plotten", daher kommt der Name der Funktion `plot()` im Programmiercode):

In [None]:
data.plot(linestyle="none", marker="+")
plt.show()

## 1.3 Daten verstehen

Das sieht vermutlich erst mal ein bisschen komisch aus.

Ein paar kurze Fragen zu der Abbildung:

Frage: Was ist auf den Achsen dargestellt und welche Einheiten werden wahrscheinlich benutzt? ("TMK" ist das Tagesmittel der Lufttemperatur in 2m Höhe)

Antwort x-Achse: 

Antwort y-Achse:

Frage: Warum könnte zu machen Zeitpunkten `-999` für die Temperatur eingetragen worden sein?

Antwort:

Frage: Was könnte ein Grund dafür sein, dass es eine "Lücke" in den Daten gibt?

Antwort:

Frage: Ab welchem Jahr (ungefähr) scheint es keine "Lücke" mehr zu geben?

Antwort:

Damit uns die "Lücke" in den Daten nicht stört, können wir uns nur die Daten ab einem bestimmten Zeitpunkt anschauen.

Dazu kannst du im folgenden Programmiercode `YYYY` durch eine Jahreszahl ersetzen, ab der es keine Lücke mehr gibt.

In [None]:
subset_data = data.sel(time=slice(np.datetime64("YYYY-01-01"), None))

Auswahl anschauen:

In [None]:
subset_data.plot()
plt.show()

Du kannst die Zellen auch öfter als einmal ausführen lassen -  einfach nochmal anklicken und dann die selben Tasten drücken wie beim ersten Mal. Suche dir eine untere Schwelle, mit dem du zufrieden bist - ein Jahr mehr oder weniger ist für den Rest nicht so wichtig - nur super viel wegschneiden solltest du nicht.

## 1.4 Erste Experimente mit den Daten

Das sind immer noch ganz schön viele Daten! Um es ein bisschen übersichtlicher zu haben, können wir uns ein einzelnes Jahr aussuchen... such dir eins aus - wie wär's zum Beispiel mit dem, in dem du geboren bist? Wenn du dich entschieden hast, ersetze `YYYY` durch das Jahr das dich interessiert und `XXXX` durch das anschließende Jahr (also z.B. 2008 und 2009).

In [None]:
subset_year = data.sel(
    time=slice(np.datetime64("YYYY-01-01"), np.datetime64("XXXX-01-01"))
)

In [None]:
subset_year.plot()
plt.show()

Beschreibe die Kurve die du siehst in ein bis zwei Sätzen!

Antwort:

Wenn du dir die Durchschnittstemperatur an einem bestimmten Datum anschauen willst kannst du das auch machen, indem du unten `YYYY` durch die Jahreszahl ersetzt, `MM` durch den Monat und `TT` durch den Tag. Achtung: Wenn Tag und Monat nur eine Stelle haben, musst du das mit einer 0 am Anfang schreiben - also `01-01` statt `1-1` für Neujahr!

In [None]:
float(data.sel(time=np.datetime64("YYYY-MM-TT")))

Wenn du hier angekommen bist kannst du zu [Kapitel 2](Kapitel-2-Datenanalyse.ipynb) weiter gehen - dort schauen wir uns die Daten ein bisschen mehr im Detail an.