# Portfolio-Programmieraufgabe 5
## Radverkehr an der TUB
<!-- Lizensiert unter (CC BY 4.0) Gert Herold, Moritz Thömen, 2024 -->

An vielen Stellen an den Straßen Berlins befinden sich [Fahrrad-Verkehrszählstellen](https://www.berlin.de/sen/uvk/mobilitaet-und-verkehr/verkehrsplanung/radverkehr/weitere-radinfrastruktur/zaehlstellen-und-fahrradbarometer/). 
Diese sind meist unsichtbar in den Boden der Fahrradwege eingelassen. 
Mitunter sind sie jedoch auch mit deutlich sichtbaren Displays zur Darstellung der Zahlen ausgestattet, so z.B. vor dem Mathegebäude der TU Berlin.
Die stündliche aufgezeichneten Daten der Zählstellen sind [frei abrufbar](https://www.berlin.de/sen/uvk/_assets/verkehr/verkehrsplanung/radverkehr/weitere-radinfrastruktur/zaehlstellen-und-fahrradbarometer/gesamtdatei-stundenwerte.xlsx), mit dem Aufzeichnungsbeginn der ersten Zählstation im März 2012. Die TU selbst kam erst später hinzu.

In dieser PA sollen Sie die Daten der Jahre 2022 und 2023 laden, untersuchen und visuell aufbereiten. Außerdem sollen Sie ein einfaches Modell entwerfen, mithilfe dessen Sie grob vorhersagen können, wie viele Fahrräder (je nach Wetterlage) zu erwarten sind.

Verwenden Sie für diese PA folgende Module:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 1) Fahrraddaten laden _(2 Punkte)_

Zunächst sind die Fahrraddaten zu laden (`Radverkehr_TU.csv`). 
Verwenden Sie dafür das bereits oben importierte [pandas-Modul](https://pandas.pydata.org/docs/getting_started/overview.html). 
Ein Vorteil dabei ist, dass sich mit pandas über den [moduleigenen Datentyp DataFrame](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html) unterschiedliche tabellarische Datenstrukturen (wie Sie sie in Datenbanken oder in Tabellenkalkulationsprogrammen finden) sehr komfortabel verarbeiten lassen.


In der hier zu ladenden Datei befinden sich drei Spalten: eine namens "Date" für das Datum (+ Uhrzeit) und zwei weitere mit den Namen "East" bzw. "West" (letztere ist die Zählstation vorm Mathegebäude) mit einfachen Zahlenwerten.
Dahinter verbirgt sich jeweils die konkrete Anzahl der zum jeweiligen Zeitpunkt seit dem vorhergehenden Zeitpunkt vorbeigefahrenen Räder.

#### 1.1) Importieren der Daten

[Laden](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) Sie die Fahrraddaten gesammelt als [pandas-DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) in die Variable `fahrraddaten`. Am Ende der Zelle wird sie aufgerufen und sollte dadurch bereits einen Ausschnitt des Inhalts zeigen. 
Auf einzelne Spalten können Sie übrigens auf mehrere Arten zugreifen: entweder wie auf ein Dictionary (`Variable["Spaltenname"]`) oder wie auf eine Objekteigenschaft (`Variable.Spaltenname`).
Während die zweite Variante mitunter schneller von der Hand geht, ist im allgemeinen die Dictionary-Variante empfehlenswert, da dann auch Leerzeichen im Spaltennamen oder Platzhalter-Variablen verwendet werden können.

Erstellen Sie neben `fahrraddaten` noch [folgende Variablen](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats):

 * `mittelwert_east` - die durchschnittlich pro Stunde vorbeifahrenden Fahrräder auf der "East"-Seite
 * `summe_west` - die insgesamt in den zwei Jahren auf der "West"-Seite vorbeigefahrenen Fahrräder
 

In [None]:
# Hier eigenen Code schreiben ...


fahrraddaten

In [None]:
# Hier ist ein Plausibilitätstest:
assert int(summe_west/mittelwert_east/fahrraddaten.shape[0]) == 1

Die pandas-Bibliothek erlaubt einfache und intuitive Verarbeitung der Daten, ähnlich, wie Sie das z.B. schon von NumPy-Arrays kennen.
Mit dem folgenden Befehl wird eine neue Spalte erzeugt, die die Differenz der Stundenwerte zwischen West und East enthält:

In [None]:
fahrraddaten["Differenz"] = fahrraddaten["West"]-fahrraddaten["East"]
fahrraddaten

#### 1.2) Daten visualisieren

  * Erstellen Sie eine neue Spalte "Datum" im DataFrame `fahrraddaten`, die das Datum im [datetime](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)-Format enthält, sodass es sich als Zahlenwert interpretieren lässt. 
  * Plotten Sie die stündlich gemessene Anzahl der Fahrräder für beide Richtungen über der Zeit. Erstellen Sie zwei untereinander angeordnete Subplots:
      1. Zeitverlauf für den gesamten Zwei-Jahres-Zeitraum
      2. Ausschnitt des Zeitverlaufs von 2 Wochen vor der Stundenmaximalzahl in Ostrichtung bis 2 Wochen danach
  * In jedem Subplot sollen beide Richtungen visualisiert werden. Nutzen Sie eine Legende, um die Kurven zu kennzeichnen
  * Verwenden Sie sinnvolle Achsenbeschriftungen.
  * Geben Sie den Zeitabschnitt (Datum und Stunde), in dem [die meisten](https://numpy.org/doc/stable/reference/generated/numpy.argmax.html) Fahrräder in Ostrichtung gemessen wurden, als gut zuordenbare [Annotation](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.annotate.html) innerhalb des 2. Diagramms aus. [Formatieren](https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.strftime.html) Sie die Ausgabe in dieser Art und Weise: 
      * `In der 18. Stunde des 29.01.2022 fuhren 27 Fahrrräder in Ostrichtung.`


In [None]:
plt.figure(1,(20,14))
plt.subplot(211)

# Hier eigenen Code schreiben ...



plt.show()

In [None]:
# Hier ist ein Plausibilitätstest:
assert "Datum" in fahrraddaten.columns

### 2) Durchschnittlicher Radverkehr _(2 Punkte)_

Um einen Überblick über das durchschnittliche Tagesgeschehen zu erhalten, werten Sie für beide Fahrtrichtungen die über alle Tage gemittelte Anzahl an Fahrrädern für jede Stunde aus.
Erstellen Sie folgende Abbildung:
 - Plotten Sie einen repräsentativen Tagesverlauf für beide Richtungen in ein Diagramm.
 - Hierfür empfiehlt es sich, die Datensätze für die Auswertung [geeignet](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.time.html) zu [gruppieren](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).
 - Plotten Sie den 2-Jahres-Mittelwert für jede Stunde mit der jeweils zugehörigen Standardabweichung als [Fehlerbalken ](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.errorbar.html).
 - Achten Sie für eine besseres Diagrammverständnis darauf, dass sich die Fehlerbalken für Ost und West nicht überdecken, indem Sie die Kurven mit einem kleinen Offset in x-Richtung plotten.
 - Achten Sie auf korrekte Achsenbeschriftung und eine Legende.

In [None]:
# Hier eigenen Code schreiben ...



### 3) Wetterdaten _(2 Punkte)_

Der Deutsche Wetterdienst stellt vielfältige [Wetteraufzeichnungen als Datensätze](https://cdc.dwd.de/portal/202209231028/view1) zur Verfügung. 
Im Folgenden werden einige Daten der Wetterstation der FU in Berlin Dahlem ausgewertet.

Laden Sie die Wetterdaten aus der Datei `wetter_berlin_dahlem.csv` in die Variable `wetterdaten`. Auch diese sind wieder stundenweise aufgezeichnet. Wandeln Sie das Messdatum in dasselbe Format wie das der Raddaten um und speichern es in einer neuen Spalte "Datum". 
Beachten Sie dabei, dass der Zeitstempel hier anders als oben aussieht (4 Stellen fürs Jahr, dann je 2 für Monat, Tag und Stunde, alles direkt hintereinander).

Plotten Sie den Temperaturverlauf (Spaltenbezeichnung `TT_TU` für die gesamte verfügbare Zeit. Bereiten Sie dafür die Daten etwas auf:
  * _Ersetzen_ Sie alle unrealistischen Temperaturen (z.B. kleiner als -300) in `wetterdaten` mit [NaN](https://numpy.org/doc/stable/reference/constants.html#numpy.nan). Verwenden Sie hierfür [sinnvolle Indizierung](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html), um direkt auf die Einträge zugreifen zu können.
  * [Sortieren](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) Sie die Einträge nach aufsteigendem Datum.
  * Hinterlegen Sie ein Gitter und achten Sie auf korrekte Achsenbeschriftungen.


In [None]:
plt.figure(2,(20,5))

# Hier eigenen Code schreiben ...

plt.show()


In [None]:
# Hier ist ein Plausibilitätstest:
assert wetterdaten.loc[(wetterdaten['Datum'].dt.month<10) & (wetterdaten['Datum'].dt.month>3), "TT_TU"].median() > wetterdaten.loc[(wetterdaten['Datum'].dt.month>=10) | (wetterdaten['Datum'].dt.month<=3), "TT_TU"].median()

### 4) Daten kombinieren _(2 Punkte)_

Um mehrere DataFrames zu kombinieren, stehen [mehrere Methoden](https://pandas.pydata.org/docs/user_guide/merging.html) zur Verfügung. 
Im vorliegenden Fall bietet sich [_merge()_](https://pandas.pydata.org/docs/reference/api/pandas.merge.html) an. 

Kombinieren Sie `fahrraddaten` und `wetterdaten` mithilfe der in beiden Tabellen enthaltenen "Datum"-Spalte, sodass jeder Zeile eine eindeutige Datumsangabe zugeordnet werden kann. Das sich ergebende DataFrame `kombidaten` soll nur solche Daten enthalten, für die bei _beiden_ Ausgangs-Tabellen auch Datumsangaben vorhanden sind. 

#### 4.1) Visualisierung Datenkombination

  * Erstellen Sie `kombidaten` eine weitere Spalte mit dem Namen "Gesamt", die jeweils die Summe der Vorbeifahrten in beiden Richtungen enthält.
  * Plotten Sie die Gesamtanzahl der Fahrräder über der Temperatur für alle Datenpunkte. 
  * Nutzen Sie als Plot-Marker der Uhrzeit entsprechend [eingefärbte Punkte](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html). 
  * Achten Sie auf Beschriftung der Achsen sowie auf eine Farbskala für die Uhrzeit.
  

In [None]:
plt.figure(3,(20,7))

# Hier eigenen Code schreiben ...


plt.show()

In [None]:
# Hier ist ein Plausibilitätstest:
assert kombidaten.shape[0] <= fahrraddaten.shape[0] < wetterdaten.shape[0]

#### 4.2) Visualisierung verarbeitete Datenkombination

 * Fügen Sie `kombidaten` eine Spalte "Relativanzahl" zu, in der für jeden Datensatz das Verhältnis der vorliegenden "Gesamt"-Zahl zur über alle Datensätze gemittelten Gesamtzahl _für diese Uhrzeit_ eingetragen wird. _(Hinweis: Auch hier kann es sinnvoll sein, Datensätze geeignet gruppiert zu behandeln und im Nachgang wieder DataFrames zu kombinieren.)_
 * Erstellen Sie nun ein DataFrame `teilkombi`, das diejenigen der Datensätze enthält, die 
     1. [nicht am Wochenende](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.weekday.html) und 
     2. für die Zeiten zwischen (jeweils inklusive) 8 und 18 Uhr vorliegen und
     3. bei denen die relative Luftfeuchte ("RF_TU") unter 50 % liegt.
 * Plotten Sie die Relativzahl des gefilterten DataFrames `teilkombi` über der Temperatur mit Punkten beliebiger Einfärbung.

In [None]:
plt.figure(4,(10,5))
# Hier eigenen Code schreiben ...


plt.show()


In [None]:
# Hier sind einige Plausibilitätstest:
assert 10*teilkombi.shape[0] < kombidaten.shape[0]
assert teilkombi.shape[1] == kombidaten.shape[1]

### 5) Modellbildung _(2 Punkte)_

Aus den umfangreichenden Daten könnte z.B. mithilfe einer [multiplen Regressionsanalyse](https://de.wikipedia.org/wiki/Multiple_lineare_Regression) basierend auf Uhrzeit, Wochentag, Woche im Jahr, Temperatur, Niederschlag etc. ein Vorhersagemodell für die Anzahl der zu erwartenden Fahrräder erstellt werden.

Trotz der zu erwartenden Ungenauigkeit des Modells soll sich hier lediglich auf die Abhängigkeit von einer Variable, nämlich der Temperatur, beschränkt werden. 
Um die Streuung der Eingangsdaten etwas geringer zu halten, sollen jedoch im weiteren Verlauf nur die oben in `teilkombi` vorgefilterten Daten verwendet werden.
Daraus kann man erahnen, dass es eine Temperatur gibt, bei der die meisten Leute Lust haben, das Rad zu nehmen, und bei jeweils wärmeren oder kälteren Temperaturen werden es weniger. Außerdem haben wir die Abhängigkeit von der Uhrzeit zumindest ein wenig reduziert, indem wir nur Relativanzahlen betrachten.

Es wird vereinfachend angenommen, dass die Verteilung in etwa einer [Gauß-Funktion](https://en.wikipedia.org/wiki/Gaussian_function) entspricht:
$$
    N_\mathrm{Radlust}(\vartheta) = a \cdot \exp\left( -\frac{(\vartheta - b)^2}{2\,c^2} \right)~,
$$
mit der Uhrzeit-normierten Relativzahl der Fahrräder $N_\mathrm{Radlust}$ und der Lufttemperatur $\vartheta$. 
Die restlichen Parameter $a$, $b$ und $c$ sind nicht bekannt und sollen bestimmt werden.
Verwenden Sie hierfür die Funktion [_curve_fit()_ aus dem Paket _scipy.optimize_](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html), die Sie noch importieren müssen.
Sie übergeben dieser als Parameter eine Implementierung der obigen Funktion und erhalten als Rückgabe unter anderem die angenäherten optimal passenden Parameter.   
 * Nennen Sie die gefitteten Parameter `a_fit`, `b_fit` und `c_fit`.
 * Verwenden Sie als Startwert für die Optimierung ("initial guess") für alle 3 Parameter den Wert 1.0
 * Erstellen Sie 2 nebeneinander liegende Abbildungen:
     * Links: Die Eingangsdaten als Punktwolke (Anzahl über Temperatur), davor die errechnete Gauß-Kurve im Bereich von -15 °C bis +50°C, aufgelöst mit mindestens 100 Stützstellen
     * Rechts: Der Betrag der relativen Abweichung jedes vorliegenden Werts gegenüber der Vorhersage
 * Achten Sie auch hier auf Labels und Beschriftungen.
 * Bestimmen Sie die Temperatur, bei der die meisten Fahrräder zu erwarten sind und speichern Sie sie in der Variable `beste_temperatur`.
 

In [None]:
# Hier eigenen Code schreiben ...



In [None]:
# Hier sind einige Plausibilitätstest:
assert 0.9 < b_fit/c_fit/a_fit < 1.0 
assert b_fit > c_fit > a_fit
assert 10 < beste_temperatur < 40