# Explorative Datenanalyse (EDA)

Das Ziel einer explorativen Datenanalyse (EDA) ist es, einen ersten Einblick in die Daten zu bekommen und Muster und Trends in den Daten zu identifizieren. Dabei werden verschiedene statistische Methoden und Visualisierungen eingesetzt, um die Daten zu untersuchen und Zusammenhänge zu erkennen. Ziel ist es, Hypothesen zu generieren und zu testen, um ein besseres Verständnis für die Daten zu erhalten und die Grundlage für weitere Analysen zu schaffen. Durch eine gründliche EDA können potenzielle Probleme in den Daten identifiziert werden und die Qualität der Daten verbessert werden, um letztendlich bessere Entscheidungen auf der Grundlage der Daten treffen zu können.

# Erkentnisse:

* 2021 wurden in Köln ca. 590T Busgelder ausgestellt
* Insgesamt wurden Bußgelder in Höhe von ca. 14 Millionen Euro eingesammelt
* Im November und Dezember werden tendentiell leicht höhere Strafen ausgestellt (Durchschnitt ca. 28 statt 24 Euro)
* ... (bitte weiter Ergänzen)


## Daten laden

In [None]:
import pandas as pd

# Parkautomaten in Köln
automaten = pd.read_csv("https://www.offenedaten-koeln.de/sites/default/files/psa_offene_daten_2023.csv", encoding='unicode_escape', sep=";")

# Bussgelder im Jahr 2021 in Köln
strafen = pd.read_csv("https://www.offenedaten-koeln.de/sites/default/files/Bussgeld_2021.csv", encoding='unicode_escape', sep=";")
strafen.columns = strafen.columns.str.strip()

# Katalog möglicher Tatbestände
tatbestände = pd.read_csv("https://raw.githubusercontent.com/jomo/bkat-owi/master/data.csv")

# Spalten und Datenmenge analysieren

In [None]:
strafen.columns

In [None]:
strafen.shape

# Deskriptive Statistiken

In [None]:
strafen.Monat.value_counts().sort_index()

In [None]:
strafen.Monat.value_counts().sort_index().plot.bar()

## Spalten und Dateigrößen analysieren

In [None]:
strafen.

## Statistiken

In [None]:
strafen.describe()

In [None]:
strafen.fabrikat.value_counts()

In [None]:
pd.to_datetime(strafen.datum_von).dt.hour.hist(bins=24)

In [None]:
pd.to_datetime(strafen.datum_von).dt.month.value_counts().sort_index().rename("Monat").plot.bar()

In [None]:
break

# Datenquellen Kombinieren

Durch das kombinieren von Datenquellen können ganz neue Fragen beantwortet werden!

In [None]:
tatbestände_aktuell = tatbestände.drop_duplicates("Tatbestandsnummer",keep="last").set_index("Tatbestandsnummer")
joined = strafen.join(tatbestände_aktuell[["Euro","Tatbestand_Druckdatei"]], on="tatbestand1")

In [None]:
joined.Euro.sum()

In [None]:
joined.groupby("Monat").Euro.mean().plot.bar()

# Spezielle Fragen

Mit den Daten können auch ganz spezielle Fragen beantwortet werden. Was beantworten die folgenden Zellen? Welche speziellen Fragen würden Sie interessieren?

In [None]:
my_street = joined[joined.strasse.str.lower().str.contains("am weidenbach")]

In [None]:
pd.to_datetime(my_street.datum_von).dt.hour.value_counts().sort_index().plot.bar()

In [None]:
pd.to_datetime(my_street.datum_von).dt.weekday.value_counts().sort_index().plot.bar()