# Inspektion der Daten 

Die Daten werden untersucht. Zunächst auf formaler Ebene, damit die nötigen Vorbereitungsschritte 
für die folgende Datenauswertung durchgeführt werden können.

### Start mit Citibike Trip Daten

In [1]:
import pandas as pd

df = pd.read_csv("data/2023-citibike-tripdata/202312-citibike-tripdata/202312-citibike-tripdata_1.csv")

df.head()

  df = pd.read_csv("data/2023-citibike-tripdata/202312-citibike-tripdata/202312-citibike-tripdata_1.csv")


Unnamed: 0,ride_id,rideable_type,started_at,ended_at,start_station_name,start_station_id,end_station_name,end_station_id,start_lat,start_lng,end_lat,end_lng,member_casual
0,68751808BB28FB02,classic_bike,2023-12-13 07:13:54.356,2023-12-13 07:25:10.205,W 160 St & St Nicholas Ave,8138.07,St Nicholas Ave & W 126 St,7756.1,40.834468,-73.939865,40.811432,-73.951878,member
1,1BA98B2963AB08BF,electric_bike,2023-12-05 19:19:41.060,2023-12-05 19:31:49.013,Fulton St & Broadway,5175.08,Front St & Jay St,4895.03,40.71097,-74.009584,40.702461,-73.986842,member
2,9FD7269E7D1F591E,classic_bike,2023-12-16 19:30:20.231,2023-12-16 19:35:32.598,Nassau Ave & Russell St,5581.01,Bayard St & Leonard St,5442.05,40.72557,-73.94434,40.719156,-73.948854,member
3,60ECFA1C572F99AC,electric_bike,2023-12-30 11:38:28.727,2023-12-31 12:38:22.986,Fulton St & Broadway,5175.08,,,40.711066,-74.009447,,,casual
4,99C48A2C0C6F6A6F,electric_bike,2023-12-10 09:43:52.765,2023-12-10 10:02:21.257,Greenpoint Ave & Monitor St,5851.01,23 Ave & 83 St,6921.04,40.732198,-73.943957,40.76646,-73.88674,member


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 13 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   ride_id             1000000 non-null  object 
 1   rideable_type       1000000 non-null  object 
 2   started_at          1000000 non-null  object 
 3   ended_at            1000000 non-null  object 
 4   start_station_name  998912 non-null   object 
 5   start_station_id    998912 non-null   object 
 6   end_station_name    993529 non-null   object 
 7   end_station_id      993529 non-null   object 
 8   start_lat           1000000 non-null  float64
 9   start_lng           1000000 non-null  float64
 10  end_lat             999020 non-null   float64
 11  end_lng             999020 non-null   float64
 12  member_casual       1000000 non-null  object 
dtypes: float64(4), object(9)
memory usage: 99.2+ MB


In [3]:
for col in df.columns:
    types = df[col].map(type).unique()
    print(f"Spalte '{col}': {[t.__name__ for t in types]}")

Spalte 'ride_id': ['str']
Spalte 'rideable_type': ['str']
Spalte 'started_at': ['str']
Spalte 'ended_at': ['str']
Spalte 'start_station_name': ['str', 'float']
Spalte 'start_station_id': ['str', 'float']
Spalte 'end_station_name': ['str', 'float']
Spalte 'end_station_id': ['str', 'float']
Spalte 'start_lat': ['float']
Spalte 'start_lng': ['float']
Spalte 'end_lat': ['float']
Spalte 'end_lng': ['float']
Spalte 'member_casual': ['str']


Es fällt auf, dass in manchen Spalten gemischte Datentypen sind (wie auch schon aus dem Warnhinweis beim Laden der Daten hervorgeht). Die relevanten Spalten müssen vereinheitlicht werden.

In [5]:
df = df.dropna()

for col in df.columns:
    types = df[col].map(type).unique()
    print(f"Spalte '{col}': {[t.__name__ for t in types]}")

Spalte 'ride_id': ['str']
Spalte 'rideable_type': ['str']
Spalte 'started_at': ['str']
Spalte 'ended_at': ['str']
Spalte 'start_station_name': ['str']
Spalte 'start_station_id': ['str']
Spalte 'end_station_name': ['str']
Spalte 'end_station_id': ['str', 'float']
Spalte 'start_lat': ['float']
Spalte 'start_lng': ['float']
Spalte 'end_lat': ['float']
Spalte 'end_lng': ['float']
Spalte 'member_casual': ['str']


In den meisten Spalten löst sich das Problem schon durch die Entfernung von Zeilen mit fehlenden Daten. Für die Challenge wird angenommen, dass die Datenbasis groß genug ist, um diese Zeilen einfach zu ignorieren. **In der Praxis müssten jedoch genauere Untersuchungen durchgeführt werden:**
 - Fehlen bestimmte Einträge systematisch? Dann könnte das wichtige Informationen liefern. 
 - Z. B. wenn das Trip-Ende (Station und Zeit) fehlen, könnte das auf einen Diebstahl oder Unfall hindeuten.

In [6]:
df['end_station_id'] = df['end_station_id'].astype(str)
for col in df.columns:
    types = df[col].map(type).unique()
    print(f"Spalte '{col}': {[t.__name__ for t in types]}")

Spalte 'ride_id': ['str']
Spalte 'rideable_type': ['str']
Spalte 'started_at': ['str']
Spalte 'ended_at': ['str']
Spalte 'start_station_name': ['str']
Spalte 'start_station_id': ['str']
Spalte 'end_station_name': ['str']
Spalte 'end_station_id': ['str']
Spalte 'start_lat': ['float']
Spalte 'start_lng': ['float']
Spalte 'end_lat': ['float']
Spalte 'end_lng': ['float']
Spalte 'member_casual': ['str']


### NYPD Crash Daten

Erstmal generell alle Unfälle. Daraus müssen auch die Fahrradunfälle extrahiert werden. Zur schnelleren Challenge Bearbeitung wurden die Daten heruntergeladen und im `data/` Ordner gespeichert. Theoretisch könnte man auch API Anfragen implementieren, um immer die aktuellsten Daten abzurufen.

In [8]:
df = pd.read_csv("data/Motor_Vehicle_Collisions_-_Crashes_20250327.csv")
df.info()

  df = pd.read_csv("data/Motor_Vehicle_Collisions_-_Crashes_20250327.csv")


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2164465 entries, 0 to 2164464
Data columns (total 29 columns):
 #   Column                         Dtype  
---  ------                         -----  
 0   CRASH DATE                     object 
 1   CRASH TIME                     object 
 2   BOROUGH                        object 
 3   ZIP CODE                       object 
 4   LATITUDE                       float64
 5   LONGITUDE                      float64
 6   LOCATION                       object 
 7   ON STREET NAME                 object 
 8   CROSS STREET NAME              object 
 9   OFF STREET NAME                object 
 10  NUMBER OF PERSONS INJURED      float64
 11  NUMBER OF PERSONS KILLED       float64
 12  NUMBER OF PEDESTRIANS INJURED  int64  
 13  NUMBER OF PEDESTRIANS KILLED   int64  
 14  NUMBER OF CYCLIST INJURED      int64  
 15  NUMBER OF CYCLIST KILLED       int64  
 16  NUMBER OF MOTORIST INJURED     int64  
 17  NUMBER OF MOTORIST KILLED      int64  
 18  CO

Informationen über die enthaltenen Spalten sind in `data/MVCollisionsDataDictionary_20190813_ERD.xlsx` zu finden.

In [9]:
df.head()

Unnamed: 0,CRASH DATE,CRASH TIME,BOROUGH,ZIP CODE,LATITUDE,LONGITUDE,LOCATION,ON STREET NAME,CROSS STREET NAME,OFF STREET NAME,...,CONTRIBUTING FACTOR VEHICLE 2,CONTRIBUTING FACTOR VEHICLE 3,CONTRIBUTING FACTOR VEHICLE 4,CONTRIBUTING FACTOR VEHICLE 5,COLLISION_ID,VEHICLE TYPE CODE 1,VEHICLE TYPE CODE 2,VEHICLE TYPE CODE 3,VEHICLE TYPE CODE 4,VEHICLE TYPE CODE 5
0,09/11/2021,2:39,,,,,,WHITESTONE EXPRESSWAY,20 AVENUE,,...,Unspecified,,,,4455765,Sedan,Sedan,,,
1,03/26/2022,11:45,,,,,,QUEENSBORO BRIDGE UPPER,,,...,,,,,4513547,Sedan,,,,
2,11/01/2023,1:29,BROOKLYN,11230.0,40.62179,-73.970024,"(40.62179, -73.970024)",OCEAN PARKWAY,AVENUE K,,...,Unspecified,Unspecified,,,4675373,Moped,Sedan,Sedan,,
3,06/29/2022,6:55,,,,,,THROGS NECK BRIDGE,,,...,Unspecified,,,,4541903,Sedan,Pick-up Truck,,,
4,09/21/2022,13:21,,,,,,BROOKLYN BRIDGE,,,...,Unspecified,,,,4566131,Station Wagon/Sport Utility Vehicle,,,,


Hier fehlen viele Daten. Für die Challenge wird erstmal die Zeit und die Koordinaten als relevant angenommen.

Extraktion der Unfälle mit Beteiligung von Fahrradfahrern:

In [10]:
# Bedingung 1: Mindestens ein Fahrradfahrer verletzt oder getötet
condition_cyclist = (df['NUMBER OF CYCLIST INJURED'] > 0) | (df['NUMBER OF CYCLIST KILLED'] > 0)

# Fahrzeugtyp-Spalten
vehicle_cols = ['VEHICLE TYPE CODE 1', 'VEHICLE TYPE CODE 2',
                'VEHICLE TYPE CODE 3', 'VEHICLE TYPE CODE 4',
                'VEHICLE TYPE CODE 5']

# Bedingung 2: In mindestens einer der Fahrzeugtyp-Spalten (in Kleinbuchstaben) muss "bic" oder "bik" vorkommen
vehicle_condition = pd.concat([
    df[col].astype(str).str.lower().str.contains('bic|bik', na=False)
    for col in vehicle_cols
], axis=1).any(axis=1)

# Kombiniere beide Bedingungen
filtered_df = df[condition_cyclist | vehicle_condition]

print(filtered_df)

         CRASH DATE CRASH TIME    BOROUGH ZIP CODE   LATITUDE  LONGITUDE  \
33       12/14/2021      12:54   BROOKLYN  11217.0  40.687534 -73.977500   
37       12/14/2021      16:25        NaN      NaN  40.784615 -73.953964   
49       03/23/2022      10:00        NaN      NaN        NaN        NaN   
53       04/22/2022      17:17        NaN      NaN  40.790276 -73.939600   
62       04/24/2022      15:35  MANHATTAN  10019.0  40.767242 -73.986206   
...             ...        ...        ...      ...        ...        ...   
2164391  03/20/2025       3:50  MANHATTAN  10035.0  40.804375 -73.937420   
2164401  03/23/2025      19:59  MANHATTAN  10075.0  40.771656 -73.953186   
2164402  03/20/2025      18:13  MANHATTAN  10012.0  40.725933 -73.994650   
2164424  03/23/2025      18:17  MANHATTAN  10002.0  40.718143 -73.993830   
2164431  03/23/2025      10:13   BROOKLYN  11211.0  40.710396 -73.956650   

                        LOCATION   ON STREET NAME   CROSS STREET NAME  \
33         (40

Wahrscheinlich sind noch ein paar falsche Einträge in den gefilterten Daten, was erstmal vernachlässigt wird.

Crashes mit allen relevanten Informationen:

In [11]:
filtered_df = filtered_df[['CRASH DATE', 'CRASH TIME', 'LATITUDE', 'LONGITUDE']].dropna()
filtered_df

Unnamed: 0,CRASH DATE,CRASH TIME,LATITUDE,LONGITUDE
33,12/14/2021,12:54,40.687534,-73.977500
37,12/14/2021,16:25,40.784615,-73.953964
53,04/22/2022,17:17,40.790276,-73.939600
62,04/24/2022,15:35,40.767242,-73.986206
76,06/29/2021,17:35,40.609535,-73.753720
...,...,...,...,...
2164391,03/20/2025,3:50,40.804375,-73.937420
2164401,03/23/2025,19:59,40.771656,-73.953186
2164402,03/20/2025,18:13,40.725933,-73.994650
2164424,03/23/2025,18:17,40.718143,-73.993830


In [None]:
filtered_df.to_csv("data/bike_crashes.csv")