In [153]:
import pandas as pd
import altair as alt

In [154]:
# Aktuelle Pfade
file_paths = [
     "data/rad_2022_tage_19_06_23_r.csv",
     "data/rad_2021_tage_19_06_23_r.csv",
     "data/rad_2020_tage_19_06_23_r.csv",
     "data/rad_2019_tage_19_06_23_r.csv",
     "data/rad_2018_tage_19_06_23_r.csv",
     "data/rad_2017_tage_19_06_23_r.csv",
     "data/rad_2016_tage_19_06_23_r.csv",
     "data/rad_2015_tage_19_06_23_r.csv",
     "data/rad_2014_tage_19_06_23_r.csv",
     "data/rad_2013_tage_19_06_23_r.csv",
     "data/rad_2012_tage_19_06_23_r.csv",
     "data/rad_2011_tage_19_06_23_r.csv",
     "data/rad_2010_tage_19_06_23_r.csv",
     "data/rad_2009_tage_19_06_23_r.csv",
     "data/rad_2008_tage_19_06_23_r.csv"
]

# Fehlende Werte:
## 2008 - 2022: 
    166 NULL-Werte
    xxx  NaN-Werte
## 2012 - 2022:   
    92 NULL-Werte
    688 NaN-Werte
    1818,097695 Mittelwert der Anzahl Radfahrer (='gesamt') [-> vor Auffüllen: 23.389 Werte in Spalte 'gesamt']
    42.521.202 Radfahrer insgesamt

# Anzahl NULL-Werte pro Monat über gesamten Zeitraum 2008-2022

In [156]:
# Reihenfolge der Monate festlegen
monatsreihenfolge = ['Januar', 'Februar', 'März', 'April', 'Mai', 'Juni',
                     'Juli', 'August', 'September', 'Oktober', 'November', 'Dezember']

# Liste für DataFrames erstellen
df_list = []

# Daten aus Dateien lesen und in df_list speichern
for file_path in file_paths:
    df_temp = pd.read_csv(file_path)
    df_list.append(df_temp[['datum', 'gesamt']])

# Einzelne DataFrames zu einem Gesamt-DataFrame zusammenführen
df_combined = pd.concat(df_list, ignore_index=True)

# Monat aus dem 'datum' extrahieren
df_combined['monat'] = pd.to_datetime(df_combined['datum']).dt.strftime('%B')


# Filtere die Datensätze, bei denen 'gesamt' gleich 0 ist
df_zero_values = df_combined[df_combined['gesamt'] == 0]

print(df_zero_values.count())

# Anzahl der 0-Werte pro Monat zählen
zero_values_per_month = df_zero_values.groupby('monat').size().reset_index(name='anzahl_zero_values')

# Plot mit Altair
chart = alt.Chart(zero_values_per_month).mark_bar().encode(
    x=alt.X('monat:N', sort=monatsreihenfolge, title='Monat'),
    y=alt.Y('anzahl_zero_values:Q', title='Anzahl 0-Werte'),
    tooltip=['monat:N', 'anzahl_zero_values:Q']
).properties(
    width=600,
    height=400,
    title='Anzahl 0-Werte pro Monat'
)

# Diagramm anzeigen
chart

# Anzahl Null-Werte in der Spalte gesamt = 370 
#df_zero_values['gesamt'].count()
#df_zero_values
#df_zero_values.to_csv('output.csv')

datum     2
gesamt    2
monat     2
dtype: int64


In [150]:
# Liste für DataFrames erstellen
df_list = []

# Daten aus Dateien lesen und in df_list speichern
for file_path in file_paths:
    df_temp = pd.read_csv(file_path)
    df_list.append(df_temp[['datum', 'gesamt']])

# Einzelne DataFrames zu einem Gesamt-DataFrame zusammenführen
df_combined = pd.concat(df_list, ignore_index=True)

# Monat aus dem 'datum' extrahieren
df_combined['monat'] = pd.to_datetime(df_combined['datum']).dt.month_name()

# Filtere die Datensätze, bei denen 'gesamt' gleich 0 ist
df_zero_values = df_combined[df_combined['gesamt'] == 0]

# Anzahl der 0-Werte pro Monat zählen
zero_values_per_month = df_zero_values.groupby('monat').size().reset_index(name='anzahl_zero_values')

# Plot mit Altair
chart = alt.Chart(zero_values_per_month).mark_bar().encode(
    x=alt.X('monat:N', title='Monat', sort=['Januar', 'Februar', 'März', 'April', 'Mai', 'Juni', 'Juli', 'August', 'September', 'Oktober', 'November', 'Dezember']),
    y=alt.Y('anzahl_zero_values:Q', title='Anzahl 0-Werte'),
    tooltip=['monat:N', 'anzahl_zero_values:Q']
).properties(
    width=600,
    height=400,
    title='Anzahl 0-Werte pro Monat'
)

# Diagramm anzeigen
chart

In [53]:
# Liste für DataFrames erstellen
df_list = []

# Daten aus Dateien lesen und in df_list speichern
for file_path in file_paths:
    df_temp = pd.read_csv(file_path)
    df_list.append(df_temp[['datum', 'gesamt']])

# Einzelne DataFrames zu einem Gesamt-DataFrame zusammenführen
df_combined = pd.concat(df_list, ignore_index=True)

# Monat und Jahr aus dem 'datum' extrahieren
df_combined['monat'] = pd.to_datetime(df_combined['datum']).dt.month
df_combined['jahr'] = pd.to_datetime(df_combined['datum']).dt.year

# Filtere die Datensätze, bei denen 'gesamt' gleich 0 ist
df_zero_values = df_combined[df_combined['gesamt'] == 0]

# Anzahl der 0-Werte pro Monat und Jahr zählen
zero_values_per_month_year = df_zero_values.groupby(['jahr', 'monat']).size().reset_index(name='anzahl_zero_values')

# Plot mit Altair
chart = alt.Chart(zero_values_per_month_year).mark_bar().encode(
    x=alt.X('monat:N', title='Monat'),
    y=alt.Y('anzahl_zero_values:Q', title='Anzahl 0-Werte'),
    color=alt.Color('jahr:N', title='Jahr'),
    column=alt.Column('jahr:N', title='Jahr'),
    tooltip=['monat:N', 'anzahl_zero_values:Q']
).properties(
    width=150,
    height=400,
    title='Anzahl 0-Werte pro Monat gestapelt nach Jahr'
)

# Diagramm anzeigen
chart

In [23]:

# Liste für DataFrames erstellen
df_list = []

# Daten aus Dateien lesen und in df_list speichern
for file_path in file_paths:
    df_temp = pd.read_csv(file_path)
    df_temp['datei'] = file_path.split("/")[-1]  # Extrahiere Dateiname
    df_list.append(df_temp[['datum', 'gesamt', 'datei']])

# Einzelne DataFrames zu einem Gesamt-DataFrame zusammenführen
df_combined = pd.concat(df_list, ignore_index=True)

# Monat aus dem 'datum' extrahieren
df_combined['monat'] = pd.to_datetime(df_combined['datum']).dt.month

# Filtere die Datensätze, bei denen 'gesamt' gleich 0 ist
df_zero_values = df_combined[df_combined['gesamt'] == 0]
df_zero_values

# Anzahl der 0-Werte pro Monat und Datei zählen
zero_values_per_month_file = df_zero_values.groupby(['datei', 'monat']).size().reset_index(name='anzahl_zero_values')

#meine eigene zeile ?
df_combined['jahr'] = pd.to_datetime(df_combined['datum']).dt.year


# Plot mit Altair
chart = alt.Chart(zero_values_per_month_file).mark_bar().encode(
    x=alt.X('monat:N', title='Monat'),
    y=alt.Y('anzahl_zero_values:Q', title='Anzahl 0-Werte'),
    color=alt.Color('datei:N', title='Datei'),
    tooltip=['datei:N', 'monat:N', 'anzahl_zero_values:Q']
).properties(
    width=600,
    height=400,
    title='Anzahl 0-Werte pro Monat gestapelt nach Datei'
)

# Diagramm anzeigen
chart
#df_zero_values[df_zero_values['datei'] == "rad_2013_tage_19_06_23_r.csv"]

### Folgende Grafik wird nicht benötigt:

In [14]:

# Liste für DataFrames erstellen
df_list = []

# Daten aus Dateien lesen und in df_list speichern
for file_path in file_paths:
    df_temp = pd.read_csv(file_path)
    df_temp['datei'] = file_path.split("/")[-1]  # Extrahiere Dateiname
    df_list.append(df_temp[['datum', 'gesamt', 'datei']])

# Einzelne DataFrames zu einem Gesamt-DataFrame zusammenführen
df_combined = pd.concat(df_list, ignore_index=True)

# Monat aus dem 'datum' extrahieren
df_combined['monat'] = pd.to_datetime(df_combined['datum']).dt.month

# Filtere die Datensätze, bei denen 'gesamt' gleich 0 ist
df_zero_values = df_combined[df_combined['gesamt'] == 0]

# Anzahl der 0-Werte pro Monat und Datei zählen
zero_values_per_month_file = df_zero_values.groupby(['datei', 'monat']).size().reset_index(name='anzahl_zero_values')

#meine eigene zeile ?
df_combined['jahr'] = pd.to_datetime(df_combined['datum']).dt.year


# Plot mit Altair als Liniendiagramm
chart = alt.Chart(zero_values_per_month_file).mark_line().encode(
    x=alt.X('monat:N', title='Monat'),
    y=alt.Y('anzahl_zero_values:Q', title='Anzahl 0-Werte'),
    color=alt.Color('datei:N', title='Datei'),
    tooltip=['datei:N', 'monat:N', 'anzahl_zero_values:Q']
).properties(
    width=600,
    height=400,
    title='Anzahl 0-Werte pro Monat pro Datei als Linien'
)

chart

### Korrekte NULL-Werte und NA-Werte aus 2022

In [107]:
file_path = "data/rad_2022_tage_export_09_02_23_r.csv"

# Lese die CSV-Datei mit pandas ein
df_2022 = pd.read_csv(file_path)

# Überprüfe, ob Nullwerte in der Spalte 'gesamt' vorhanden sind
zero_entries_2022 = df_2022[df_2022['gesamt'] == 0]

# Überprüfe, ob NA-Werte in der Spalte 'gesamt' vorhanden sind
not_available_values_2022 = df_2022[df_2022['gesamt'].isna()]
not_available_values_2022_count = not_available_values_2022.shape[0]

# Wenn Nullwerte und NA-Werte vorhanden sind, zeige die entsprechenden Zeilen
if (not zero_entries_2022.empty) or (not not_available_values_2022.empty):
    if (not zero_entries_2022.empty):
        print("Nullwerte in der Spalte 'gesamt' vorhanden:")
        print(zero_entries_2022[['datum', 'gesamt']])
    if (not not_available_values_2022.empty):
        print("NA-Werte in der Spalte 'gesamt' vorhanden:")
        print(not_available_values_2022[['datum', 'gesamt']])
else:
    print("Keine Nullwerte & NA-Werte in der Spalte 'gesamt' vorhanden.")

print("")
print("Anzahl der Null-Werte in der Spalte 'gesamt': ", zero_entries_2022['gesamt'].count())
print("Anzahl der NA-Werte in der Spalte 'gesamt': ", not_available_values_2022_count)

Nullwerte in der Spalte 'gesamt' vorhanden:
           datum  gesamt
980   2022-06-15       0
981   2022-06-16       0
982   2022-06-17       0
983   2022-06-18       0
984   2022-06-19       0
...          ...     ...
1360  2022-08-27       0
1361  2022-08-28       0
1362  2022-08-29       0
1363  2022-08-30       0
1364  2022-08-31       0

[78 rows x 2 columns]

Anzahl der Null-Werte in der Spalte 'gesamt':  78
Anzahl der NA-Werte in der Spalte 'gesamt':  0


### Korrekte NULL-Werte und NA-Werte aus 2013

In [100]:
file_path = "/Users/andreaheigl/Documents/BA/data/rad_2013_tage_19_06_23_r.csv"

# Lese die CSV-Datei mit pandas ein
df = pd.read_csv(file_path)

# Überprüfe, ob Nullwerte in der Spalte 'gesamt' vorhanden sind
zero_entries = df[df['gesamt'] == 0]

# Überprüfe, ob NA-Werte in der Spalte 'gesamt' vorhanden sind
not_available_values = df[df['gesamt'].isna()]
not_available_values_count = not_available_values.shape[0]

# Wenn Nullwerte und NA-Werte vorhanden sind, zeige die entsprechenden Zeilen
if (not zero_entries.empty) and (not not_available_values.empty):
    print("Nullwerte in der Spalte 'gesamt' vorhanden:")
    print(zero_entries[['datum', 'gesamt']])
    print("NA-Werte in der Spalte 'gesamt' vorhanden:")
    print(not_available_values[['datum', 'gesamt']])
else:
    print("Keine Nullwerte & NA-Werte in der Spalte 'gesamt' vorhanden.")

print("")
print("Anzahl der Null-Werte in der Spalte 'gesamt': ", zero_entries['gesamt'].count())
print("Anzahl der NA-Werte in der Spalte 'gesamt': ", not_available_values_count)

# =78 Null-Werte -> korrekt, siehe Datei 2022 Summe in Abb. 1 (stacked Balken)
# + 238 NA-Werte -> korrekt, wegen Baustelle & Ausfall

Nullwerte in der Spalte 'gesamt' vorhanden:
           datum  gesamt
16    2013-01-17     0.0
17    2013-01-18     0.0
18    2013-01-19     0.0
19    2013-01-20     0.0
20    2013-01-21     0.0
...          ...     ...
1505  2013-02-15     0.0
1841  2013-01-17     0.0
1842  2013-01-18     0.0
1843  2013-01-19     0.0
1844  2013-01-20     0.0

[78 rows x 2 columns]
NA-Werte in der Spalte 'gesamt' vorhanden:
           datum  gesamt
1202  2013-04-18     NaN
1203  2013-04-19     NaN
1204  2013-04-20     NaN
1205  2013-04-21     NaN
1206  2013-04-22     NaN
...          ...     ...
1552  2013-04-03     NaN
1553  2013-04-04     NaN
1554  2013-04-05     NaN
1555  2013-04-06     NaN
1556  2013-04-07     NaN

[238 rows x 2 columns]

Anzahl der Null-Werte in der Spalte 'gesamt':  78
Anzahl der NA-Werte in der Spalte 'gesamt':  238
