# Kapitel 2 - Datenanalyse

Ziel dieses Kapitels ist es, sich die Wetter-Daten ein bisschen genauer anzuschauen. Dazu müssen wir die Daten aber erst nochmal laden: Führe die folgenden Code-Blocks einmal aus:

In [None]:
# Programmierbibliotheken importieren

import pandas as pd
import xarray as xr
import matplotlib.pyplot as plt
import numpy as np

In [None]:
d = pd.read_csv(
    "daten/produkt_klima_tag_19340101_20221231_02932.txt",
    sep=";",
    skipinitialspace=True,
)

data = xr.DataArray(d["TMK"], coords={"time": d["MESS_DATUM"]})
data["time"] = pd.to_datetime(data.time, format="%Y%m%d")
data = data.sel(time=slice(np.datetime64("1973-01-01"), None))

Hier haben wir die Daten bereits so gefiltert, dass nur Daten ab 1973 dabei sind.

## 2.1 Maximale und minimale tägliche Durchschnittstemperatur

Mit Funktionen lässt sich ganz leicht herausfinden, was die höchste und niedrigste Tagesdurchschnittstemperatur war, die seit 1973 an der Station Leipzig/Halle gemessen wurde:

`data.max().to_numpy()` gibt dir das Maximum über die Daten in `data` zurück, `data.min().to_numpy()` das Minimum. 

Und mit `data.time.isel(time=data.argmax()).to_numpy()` und `data.time.isel(time=data.argmin()).to_numpy()` kannst du herausfinden, an welchem Datum es am kältesten und heißesten war. 

Um das herauszufinden kannst du in den folgenden Programmiercode einfach jeweils die Funktionsnamen in die Geschweiften Klammern (also "{ }") kopieren:

In [None]:
print(f"Maximum: {} °C") # hier in die geschweiften Klammern die Funktion für das Maximum einfügen.
print(f"Minimum: {} °C") # hier in die geschweiften Klammern die Funktion für das Minimum einfügen.
print(f"Tag des Maximums: {}") # hier in die geschweiften Klammern die Funktion für das argmax einfügen.
print(f"Tag des Minimums: {}") # hier in die geschweiften Klammern die Funktion für das argmin einfügen.

Wie du vielleicht schon weißt, kann man in der Programmiersprache Python (diese Sprach nutzen wir hier) mit `print()` Text "drucken" lassen - das bedeutet, dass der Computer als Output Text zurück gibt. Zum Beispiel so:

In [None]:
print(1 + 1)

Hier rechnet der Computer erst intern "1+1" aus und gibt uns dann das Ergebnis zurück. So ähnlich (in etwas komplizierter) funktioniert das oben auch.

## 2.2 Durchschnittstemperatur an der Station Leipzig/Halle

Diese Teilaufgabe nutzen wir ein wenig, um zu erfahren, was man als Programmierer machen kann, wenn man nicht genau weiß, auf welchem Weg man am besten sein Ziel erreicht - in diesem Fall den Durchschnitt über alle Temperaturwerte auszurechnen.

Viele lernen programmieren im Studium - da werden einem aber oft nur die "Muster" beigebracht, nach denen Programmieren funktioniert, wie einzelne Sprachen funktionieren, oder was man alles mit "Bibliotheken" machen kann, muss man meistens selbst herausfinden.

Falls du dich gefragt hast: "Bibliotheken" sind Sammlungen von Programmiercode, den andere Leute geschrieben haben, um konkrete Probleme zu lösen - zum Beispiel schöne Graphiken zu erstellen, bestimmte Daten zu verarbeiten, oder Dinge aus dem Internet herunterzuladen - und das kann man dann einfach in sein Programm einbauen.

Man kann programmieren auch mit Büchern lernen, oder mit "Online Büchern", die zum Teil ein bisschen ähnlich aufgebaut sind wie dieses "Jupyter Notebook" - sprich sie sind eine Mischung aus Text und ausführbarem Programmiercode.

Wenn man ein konkretes Problem hat, und keine Zeit, ein Buch zu lesen, machen Programmieren oft auch folgende Dinge:
- auf der Website der Programmiersprache bzw der Bibliothek nachschauen, die man benutzt. Bei uns wäre das zB [xarray](https://docs.xarray.dev/en/stable/index.html), denn das ist die Bibliothek, die wir benutzen, um unsere Daten auszuwerten. Hier wird genau beschrieben, was man mit dem Programmiercode in der Bibliothek machen kann - das nennt sich "Dokumentation". Oft gibt es dort auch direkt Beispiele dafür, wie man die Bibliothek benutzen kann.
- googlen. Am Anfang glaubt man, programmierer wissen alles selbst - aber es schauen alle viel im Internet nach!
- die KI fragen. KI ist sehr gut darin, Programmiercode zu schreiben. Den Ergebnissen sollte man aber nicht blind vertrauen, sondern Tests machen oder in der Dokumentation nachschauen, um sicher zu gehen, dass der Code den die KI vorschlägt auch wirklich das macht, was man von ihm will.

Deine Aufgabe ist jetzt, herauszufinden, wie wir den Durchschnitt unserer Daten in `data` ausrechnen können. Nutze dazu gerne einen der 3 Wege, die ich oben beschrieben habe. Falls du KI benutzen willst und keinen ChatGPT Account hast kannst du zum Beispiel [phind.com](https://www.phind.com) benutzen.

Damit du ein bisschen genauer weißt, wonach du fragen musst, können wir uns noch anschauen, in welchem Typ von Objekt unsere Daten gespeichert sind:

In [None]:
type(data)

Die Daten sind also ein "xarray DataArray".

Und noch ein kleiner Tipp: "Durchschnitt" kann man auf Englisch mit "mean" übersetzen.

In [None]:
# Dein Programmiercode hier.

(Tipp: Die Lösung sollte zwischen 9°C und 10°C liegen)

## 2.3 Die Jahreszeiten

In dem einen Jahr, das wir uns in [Kapitel 1](Kapitel-1-Einleitung.ipynb) angeschaut haben war die Temperatur der einzelnen Tage (zB 1. April) sehr davon abhängig, welches genaue Wetter es gerade gab (Sonne? Wolken? Sturm?). Wir können aber auch herausfinden, wie warm es normalerweise so an einem 1. April ist - indem wir einfach den Durchschnitt über alle 1. April-Tage ausrechnen, die wir in unserem Datensatz haben. Und dasselbe können wir auch für alle anderen Tage im Jahr machen. Dann sollten sich die verschiedenen möglichen Wetterzustände gegenseitig herausmitteln.

In [None]:
data.groupby("time.dayofyear").mean().plot()
plt.show()

Jetzt sollte die Kurve deutlich "glatter" aussehen als im letzten Kapitel. Ganz glatt ist sie aber immer noch nicht - das liegt vor allem daran, dass wir zu wenige Daten haben. Fallen dir Möglichkeiten ein, wie man eine noch "glattere" Kurve bekommen könnte?

Antwort(en):

Damit kannst du zum [Kapitel 3](Kapitel-3-Klimawandel.ipynb) weiter gehen - da schauen wir uns an, ob man den Klimawandel an den Wetterdaten ablesen kann!