In [15]:
import json
import pandas as pd
import geopandas as gpd

print("Pandas Version: " + pd.__version__)
print("Geopandas Version: " + gpd.__version__)

Pandas Version: 1.0.1
Geopandas Version: 0.6.2


Der Datensatz `OPENDATA_RENTAL_ZONE_CALL_A_BIKE` enthält Informationen über Stationen der Bikesharing-Systeme, die call-a-bike in den jeweiligen Städten anbietet. Im Folgenden wird dieser Datensatz für die Visualisierung auf der Moblity Map vorbereitet.

In [16]:
df = pd.read_csv("../data/call_a_bike/OPENDATA_RENTAL_ZONE_CALL_A_BIKE.csv", sep=";", decimal=",")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1062 entries, 0 to 1061
Data columns (total 16 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   RENTAL_ZONE_HAL_ID          1062 non-null   int64  
 1   RENTAL_ZONE_HAL_SRC         1062 non-null   object 
 2   NAME                        1062 non-null   object 
 3   CODE                        1047 non-null   float64
 4   TYPE                        1062 non-null   object 
 5   CITY                        1062 non-null   object 
 6   COUNTRY                     1062 non-null   object 
 7   LATITUDE                    1032 non-null   float64
 8   LONGITUDE                   1032 non-null   float64
 9   POI_AIRPORT_X               1062 non-null   object 
 10  POI_LONG_DISTANCE_TRAINS_X  1062 non-null   object 
 11  POI_SUBURBAN_TRAINS_X       1062 non-null   object 
 12  POI_UNDERGROUND_X           1062 non-null   object 
 13  ACTIVE_X                    1062 

In [17]:
df.sample(10)

Unnamed: 0,RENTAL_ZONE_HAL_ID,RENTAL_ZONE_HAL_SRC,NAME,CODE,TYPE,CITY,COUNTRY,LATITUDE,LONGITUDE,POI_AIRPORT_X,POI_LONG_DISTANCE_TRAINS_X,POI_SUBURBAN_TRAINS_X,POI_UNDERGROUND_X,ACTIVE_X,COMPANY,COMPANY_GROUP
329,111444,Standort,Braunschweig Hbf,3800.0,normal,Braunschweig,Deutschland,10.539944,52.25308,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
262,48109,Standort,Stiglmaierplatz,88006780.0,normal,München,Deutschland,11.559167,48.1475,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
613,226266,Standort,Frankenallee / Bushaltestelle Haus Gallus,6032600000.0,normal,Frankfurt am Main,Deutschland,8.643461,50.104681,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
112,22760,Standort,LMU Projektstandort 3,88000570.0,normal,München,Deutschland,11.560833,48.134167,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
877,250409,Standort,Alt-Fechenheim / Burglehen,6038600000.0,normal,Frankfurt am Main,Deutschland,8.771767,50.121849,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
688,231638,Standort,U-Bahn Preungesheim,6043500000.0,normal,Frankfurt am Main,Deutschland,8.687943,50.158657,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
341,128494,Standort,Bamberg Bf,9600.0,normal,Bamberg,Deutschland,10.899743,49.90131,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
569,214382,Standort,Börse,6031300000.0,normal,Frankfurt am Main,Deutschland,8.677016,50.114899,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
192,34178,Standort,Prof.-Huber Platz,88002990.0,normal,München,Deutschland,11.581667,48.151111,Nein,Nein,Nein,Nein,Ja,Call a Bike,Call a Bike
415,140803,Standort,Lübecker Straße / Marienkrankenhaus,2312.0,normal,Hamburg,Deutschland,10.0285,53.5597,Nein,Nein,Nein,Nein,Ja,StadtRAD Hamburg,Call a Bike


Der Wert `CITY` gibt an, in welcher Stadt ein Eintrag gemacht wurde. Dieses Projekt konzentriert sich auf die Mobilität in Hamburg, daher werden Daten aus anderen Städten entfernt.

In [18]:
stations_raw = df[df.CITY == "Hamburg"].dropna()

Daraus ergibt sich ein Datensatz mit informationen über jede StadtRAD-Station.

In [19]:
print("Anzahl Stationen: " + str(len(stations_raw.index)))

Anzahl Stationen: 206


Bei einer oberflächigen Sichtung der Daten ist bereits bei einigen Spalten aufgefallen, dass ihr Nutzen zweifelhaft ist. Diese werden nun auf überflüssige Inhalte untersucht, indem jeweils alle einzigartigen Werte ausgegeben werden.

In [20]:
print("RENTAL_ZONE_HAL_SRC:  {}".format(stations_raw.RENTAL_ZONE_HAL_SRC.unique()))
print("TYPE:  {}".format(stations_raw.TYPE.unique()))
print("COUNTRY:  {}".format(stations_raw.COUNTRY.unique()))
print("ACTIVE_X:  {}".format(stations_raw.ACTIVE_X.unique()))
print("COMPANY:  {}".format(stations_raw.COMPANY.unique()))
print("COMPANY_GROUP:  {}".format(stations_raw.COMPANY_GROUP.unique()))
print("POI_AIRPORT_X:  {}".format(stations_raw.POI_AIRPORT_X.unique()))
print("POI_LONG_DISTANCE_TRAINS_X:  {}".format(stations_raw.POI_LONG_DISTANCE_TRAINS_X.unique()))

RENTAL_ZONE_HAL_SRC:  ['Standort']
TYPE:  ['normal']
COUNTRY:  ['Deutschland']
ACTIVE_X:  ['Ja']
COMPANY:  ['StadtRAD Hamburg']
COMPANY_GROUP:  ['Call a Bike']
POI_AIRPORT_X:  ['Nein']
POI_LONG_DISTANCE_TRAINS_X:  ['Nein']


Da diese Spalten in keinem Fall unterschiedliche Werte haben, können sie aus dem Datensatz entfernt werden. Alle verbleibenden Spalten bekommen eine neue Bezeichnung, die etwas lesbarer ist. Die Bezeichnung für die Längen- und Breitengrade (`LONGITUDE`, `LATITUDE`) werden vertauscht, da sie im originalen Datensatz bereits vertauscht sind.

In [21]:
stations = stations_raw[[
    "RENTAL_ZONE_HAL_ID",
    "NAME",
    "CODE",
    "LONGITUDE",
    "LATITUDE",
    "POI_SUBURBAN_TRAINS_X",
    "POI_UNDERGROUND_X",
]]
stations.columns = [
    "station_id",
    "station_name",
    "station_code",
    "latitude",
    "longitude",
    "near_aboveground_train_station",
    "near_underground_train_station"
]

Einige Spalten haben Werte, die mit "Ja" und "Nein" Strings bezeichnet werden. Diese werden in `True` bzw. `False` umgewandelt, weil es sich um Wahrheitswerte handelt und die Verarbeitung der Daten somit einfacher wird.

In [22]:
stations = stations.replace({"Ja": True, "Nein": False})
stations["station_code"] = stations["station_code"].astype(int)

Für die Anzeige auf der Mobility Map ist es nützlich, die Daten zu den Stationen als `GeoJSON` zu speichern. Dafür werden mithilfe von `geopandas` die Werte für `longitude` und `latitude` jeder Zeile gnutzt, um eine Spalte `geometry` zu erstellen. Diese wird anschließend genutzt, um eine valide `GeoJSON` Datei zu erstellen.

In [23]:
station_coordinates = gpd.points_from_xy(stations.longitude, stations.latitude)
stations_geo = gpd.GeoDataFrame(stations, geometry=station_coordinates)
stations_geo.sample(5)

Unnamed: 0,station_id,station_name,station_code,latitude,longitude,near_aboveground_train_station,near_underground_train_station,geometry
432,171372,Wilhelmsburger Platz/Zur Schleuse,2691,53.522794,10.01481,False,False,POINT (10.01481 53.52279)
1002,254723,S Nettelnburg/Friedrich-Frank-Bogen,2920,53.488482,10.182199,False,False,POINT (10.18220 53.48848)
557,213832,Domstraße/Willy-Brandt-Straße,2633,53.547486,9.994057,False,False,POINT (9.99406 53.54749)
459,198088,Borgweg/Stadtpark,2367,53.592022,10.015021,False,False,POINT (10.01502 53.59202)
1005,254726,Lohbrügger Markt/Ludwig-Rosenberg-Ring,2913,53.494675,10.206894,False,False,POINT (10.20689 53.49468)


In [24]:
stations_geo.to_file("../data/call_a_bike/stations.geojson", driver="GeoJSON")