# Data Exploration

In [2]:
# import packages
import pandas as pd
import numpy as np

In [6]:
df = pd.read_csv('../data/raw/monatszahlen2505_verkehrsunfaelle_06_06_25.csv')
print("Dataset shape:", df.shape)
print("\nColumn names:")
print(df.columns.tolist())
print("\nFirst few rows:")
df.head()


Dataset shape: (2345, 9)

Column names:
['MONATSZAHL', 'AUSPRAEGUNG', 'JAHR', 'MONAT', 'WERT', 'VORJAHRESWERT', 'VERAEND_VORMONAT_PROZENT', 'VERAEND_VORJAHRESMONAT_PROZENT', 'ZWOELF_MONATE_MITTELWERT']

First few rows:


Unnamed: 0,MONATSZAHL,AUSPRAEGUNG,JAHR,MONAT,WERT,VORJAHRESWERT,VERAEND_VORMONAT_PROZENT,VERAEND_VORJAHRESMONAT_PROZENT,ZWOELF_MONATE_MITTELWERT
0,Alkoholunfälle,insgesamt,2025,202501,,,,,
1,Alkoholunfälle,insgesamt,2025,202502,,,,,
2,Alkoholunfälle,insgesamt,2025,202503,,,,,
3,Alkoholunfälle,insgesamt,2025,202504,,,,,
4,Alkoholunfälle,insgesamt,2025,202505,,,,,


In [7]:
# Check year distribution
year_counts = df['JAHR'].value_counts().sort_index()
print("Year distribution:")
print(year_counts)

# Verify records <= 2020
data_2020 = df[df['JAHR'] <= 2020]
print(f"\nRecords <= 2020: {len(data_2020)}")
print(f"Records > 2020: {len(df[df['JAHR'] > 2020])}")

Year distribution:
2000    84
2001    91
2002    91
2003    91
2004    91
2005    91
2006    91
2007    91
2008    91
2009    91
2010    91
2011    91
2012    91
2013    91
2014    91
2015    91
2016    91
2017    91
2018    91
2019    91
2020    91
2021    91
2022    91
2023    91
2024    84
2025    84
Name: JAHR, dtype: int64

Records <= 2020: 1904
Records > 2020: 441


In [None]:
# Unique categories in MONATSZAHL
print("All accident categories:")
print(df['MONATSZAHL'].value_counts())

# Check all alcohol - related categories
alcohol_categories = df[df['MONATSZAHL'].str.contains('alkohol', case=False, na=False)]['MONATSZAHL'].unique()
print("\nAlcohol-related categories:")
print(alcohol_categories)

# Count records for each alcohol category
for records in alcohol_categories:
    count = len(df[df['MONATSZAHL'] == records])
    print(f"{records}: {count} records")

All accident categories:
Verkehrsunfälle    1005
Alkoholunfälle      670
Fluchtunfälle       670
Name: MONATSZAHL, dtype: int64

Alcohol-related categories:
['Alkoholunfälle']
Alkoholunfälle: 670 records


In [None]:
# Filter by year below or equal to 2020 for further processing
data_filtered = df[df['JAHR'] <= 2020]
print(f"Records after year filter: {len(data_filtered)}")

# First check if 'Alkoholunfälle' exists exactly
if 'Alkoholunfälle' in data_filtered['MONATSZAHL'].unique():
    alcohol_data = data_filtered[data_filtered['MONATSZAHL'] == 'Alkoholunfälle']
else:
    # Find all categories which contain 'alkohol'
    similar = data_filtered[data_filtered['MONATSZAHL'].str.contains('alkohol', case=False, na=False)]
    print("Similar categories found:")
    print(similar['MONATSZAHL'].unique())
    alcohol_data = similar 

print(f"Records after alcohol filter: {len(alcohol_data)}")

# Filter by 'insgesamt'
if 'AUSPRAEGUNG' in alcohol_data.columns:
    insgesamt = alcohol_data[alcohol_data['AUSPRAEGUNG'] == 'insgesamt']
    print(f"Records after 'insgesamt' filter: {len(insgesamt)}")
else:
    print("No 'AUSPRAEGUNG' column found")

Records after year filter: 1904
Records after alcohol filter: 544
Records after 'insgesamt' filter: 272
