# Hausarbeit - Analyse von FCD


Die Hausarbeit ist freiwillig, aber durch die Bearbeitung lernen Sie viel zur Datenauswertung und Analyse von FCD. Eine Abgabe ist bis 07.06.2024 möglich (an josephine.grau@kit.edu). Sie erhalten dann eine Rückmeldung/Korrektur.
Bei der Bearbeitung können Sie sich von der Übung zur Auswertung stationärer Messdaten inspirieren lassen.

### Daten
Im Folgenden sollen Floating Car Data (FCD) von Karlsruhe vom 28.09.2021 (Datei ka-28-09.csv) genauer analysiert werden.
Laden Sie die Daten auf Google Colab hoch (alternativ speichern Sie diese an einem passenden lokalen Speicherort). Achtung: die Datei ist sehr groß, das kann eine Weile dauern. Importieren Sie die Bibliotheken pandas und plotly.express.
Erstellen Sie ein pandas Dataframe und filtern Sie nach benötigten Spalten.

In [None]:
# Daten Upload in google colab
from google.colab import files
uploaded = files.upload()

In [None]:
# Import und Datenaufbereitung
import # IHR CODE

df = # IHR CODE

### Filterung
Filtern Sie aus den Daten eine Region und einen Zeitraum. Sie können für die Filterung eines einfachen Rechtecks die Koordinatenangaben nutzen. Für den Zeitraum nutzen Sie die Zeitstempel, die Sie in das pandas-Format "datetime" umwandeln. Zur zeitlichen Filterung eignet sich die Funktion [pd.between_time](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.between_time.html). Dafür kann die Zeitangabe vorübergehend als Index gesetzt werden (pd.set_index, anschließend wieder pd.reset_index).

In [None]:
# Filterung einer Region
# IHR CODE

# Filterung eines Zeitraums
# IHR CODE

### Visualisierung
Visualisieren Sie die Daten (z.B. durch Plotten der Koordinaten, Einfärben der Geschwindigkeiten, Einfärben der IDs, ...). Dafür eignet sich die Funktion [scatter_mapbox](https://plotly.com/python/scattermapbox/) von plotly.express. Verwenden Sie als Hintergrundkarte Open-Street-Map (mapbox_style = "open-street-map"). [Hier](https://plotly.github.io/plotly.py-docs/generated/plotly.express.scatter_mapbox.html) findet man die Dokumentation mit allen Parametern für diese Funktion.


In [None]:
import # IHR CODE

fig = px.scatter_mapbox(
        df,
        # IHR CODE
        mapbox_style="open-street-map",
    )
fig.show()

Beschreiben Sie kurz, was Sie in Ihrer Visualisierung darstellen und daraus erkennen können (und was nicht): <IHR TEXT>

### Analyse
Untersuchen Sie den (gefilterten) Datensatz: Wie viele Datenpunkte liegen insgesamt und pro Stunde vor? Ermitteln und plotten Sie die Geschwindigkeitsverteilung.


In [None]:
# Anzahl Datenpunkte insgesamt
# IHR CODE

# Anzahl Datenpunkte pro Stunde
# IHR CODE

In [None]:
# Geschwindigkeitsverteilung
# IHR CODE

Ermitteln und plotten Sie die Verteilung der Sendeintervalle. Sie können dabei wie folgt vorgehen:

1.   Sortieren Sie den DataFrame nach Fahrzeug ID und Zeit. Nützliche Funktion: [df.sort_values](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)
2.   Verschieben Sie die Zeitsplate um eine Zeile und berechnen Sie die Zeitdifferenz (=Sendeintervall). Achten Sie auf eine richtige Verwendung des DateTime-Formats. Eine sinnvolle Einheit für das Sendeintervall sind Sekunden. Nützliche Funktion: [df.shift](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html)
3.   Überprüfen Sie, dass keine Sendeintervalle zwischen verschiedenen Fahrzeug-IDs berechnet werden. Dazu verschieben Sie die Spalte mit der Fahrzeug ID und prüfen ob die Fahrzeug ID mit der verschobenen Fahrzeug ID übereinstimmt (dann kann ein Sendeintervall bestimmt werden, sonst nicht).
4.   Filtern Sie sehr hohe Sendeintervalle (Fahrtpausen) mithilfe eines sinnvollen Quantils.
5.   Plotten Sie ein Histogramm der Sendeintervalle.

In [None]:
# Verteilung der Sendeintervalle

# Sortieren nach FzID und Zeit
# IHR CODE

# shiften der Uhrzeit und Berechnung des Sendeintervalls
# IHR CODE

# shiften der FzIDs, um keine Sendeintervalle zwischen verschiedenen FzIds zu berechnen
# IHR CODE

# Filtern von sehr hohen Sendefrequenzen (Fahrtpausen)
# IHR CODE

# Histogramm
# IHR CODE

Fassen Sie die Ergebnisse Ihrer Analyse kurz zusammen:
<IHR TEXT>

### Reisezeitberechnung
Führen Sie eine "virtuelle" Reisezeitberechnung der Kriegsstraße durch. Stellen Sie dafür sicher, dass NICHT der gefilterte DataFrame sondern alle Daten genutzt werden (evtl. DataFrame nochmal erstellen).
Der Code für die virtuelle Reisezeitberechnung ist bereits vollständig vorhanden. Fügen Sie fehlende Kommentare ein, um den Code zu erklären. Nutzen Sie die Dokumentation von *pandas*, wenn Funktionen verwendet werden, die Sie nicht kennen.

In [None]:
import plotly.graph_objects as go

def anpr_filter(
    df: pd.DataFrame,
    coord_start: tuple,
    coord_end: tuple,
    fang_x: float = 0.001, # Fangradius um x-Koordinate
    fang_y: float = 0.001  # Fangradius um y-Koordinate
):
    """Filtert Fahrzeuge die die gesamte Strecke von 'coord_start' nach 'coord_end' fahren und berechnet Reisezeiten.
    Vergleichbar mit einer ANPR-Messung.
    """
    x_start, y_start = coord_start
    x_end, y_end = coord_end

    # KOMMENTAR EINFÜGEN
    df_start = df[(abs(df.Längengrad - x_start) < fang_x) & (abs(df.Breitengrad - y_start) < fang_y)].copy()
    df_end = df[(abs(df.Längengrad - x_end) < fang_x) & (abs(df.Breitengrad - y_end) < fang_y)].copy()

    # KOMMENTAR EINFÜGEN
    df_start["Zeit_start"] = pd.to_datetime(df_start["Zeit"])
    df_end["Zeit_end"] = pd.to_datetime(df_end["Zeit"])

    # KOMMENTAR EINFÜGEN
    df_anpr = df_start.merge(df_end, on="FzID", how="inner")

    # KOMMENTAR EINFÜGEN
    df_anpr_fr1 = df_anpr[(df_anpr.Zeit_end > df_anpr.Zeit_start)].copy()
    df_anpr_fr1["Fahrtrichtung"] = 1

    # KOMMENTAR EINFÜGEN
    df_anpr_fr1["dt"] = ((df_anpr_fr1.Zeit_end - df_anpr_fr1.Zeit_start).abs().dt.total_seconds())

    # KOMMENTAR EINFÜGEN
    df_anpr_fr1 = df_anpr_fr1.sort_values(by="dt").drop_duplicates(subset="FzID")

    # KOMMENTAR EINFÜGEN
    df_anpr_fr2 = df_anpr[(df_anpr.Zeit_end < df_anpr.Zeit_start)].copy()
    df_anpr_fr2["Fahrtrichtung"] = 2

    df_anpr_fr2["dt"] = ((df_anpr_fr2.Zeit_end - df_anpr_fr2.Zeit_start).abs().dt.total_seconds())
    df_anpr_fr2 = df_anpr_fr2.sort_values(by="dt").drop_duplicates(subset="FzID")

    # KOMMENTAR EINFÜGEN
    df_anpr_merged = pd.concat([df_anpr_fr1, df_anpr_fr2])
    return df_anpr_merged


def plot_travel_times(
    df_anpr: pd.DataFrame,
    title: str = "",
    remove_outliers: bool = False,
):
    # KOMMENTAR EINFÜGEN
    if remove_outliers:
        df_anpr = df_anpr[df_anpr.dt < df_anpr.dt.quantile(0.95)]

    # Layout für Plot
    layout = go.Layout(
        width=1000,
        height=600,
        title= title,
        yaxis_title="Reisezeit [Sekunden]",
        yaxis_range=[0, 1000],
    )
    # Plot
    fig = go.Figure(
        data=go.Scatter(
            x=df_anpr.Zeit_start,
            y=df_anpr.dt,
            mode="markers"
        ),
        layout=layout,
    )

    fig.show()


# Koordinaten eines Abschnitts der Kriegsstraße
coord_start = (8.364803, 49.00543)
coord_end = (8.410254, 49.00596)

# Berechnung der Reisezeiten
df_anpr = anpr_filter(df, coord_start, coord_end)

# Plotten der Reisezeit für Fahrtrichtung 1
plot_travel_times(
    df_anpr[df_anpr['Fahrtrichtung'] == 1],
    title = "Reisezeiten Fahrtrichtung 1",
    remove_outliers = True,
)

Wie unterscheidet sich diese "Reisezeitmessung" zu einer Reisezeitmessung mit ANPR? Was sind potenzielle Probleme bei dieser Art von Reisezeitbestimmung? Wie könnte man diese Probleme zumindest reduzieren?