## Überprüfung der Verteilung der Straßen ohne surface-Wert
----

Für Straßen, die keinen gesetzten surface-Wert haben, wollen wir default Werte setzen.  
Allerdings wollen wir alle Straßentypen, die anteilig weniger als 1,5% aller Straßen ohne surface-Wert einnehmen, nicht einzeln betrachten, sondern zuammengefasst und diese dann dem surface-Typ "paving_stone" zuordnen.

Bei Betrachtung anderer Städte und Regionen in Deutschland ist aufgefallen, dass jeweils andere Straßentypen ohne surface-Wert selten (<1,5%) sein können.  
(siehe notebook [surface_staedte_test](surface_staedte_test.ipynb))  

Wir möchten sicherstellen, dass die Verteilung der seltenen Straßen zumindest in Berlin immer gleich/ähnlich ist.  
Deshalb splitten wir die Daten und überprüfen die Verteilung der Straßen ohne surface Wert.


In [1]:
import pandas as pd
import os
import pyrosm
import warnings
warnings.filterwarnings("ignore", category=FutureWarning, module='pyrosm')

# Verzeichnis-Pfad
directory = "../../data"
file_path = os.path.join(directory, "berlin-latest.osm.pbf")

# OSM-Objekt erstellen
berlin_osm = pyrosm.OSM(file_path)

# Fahrradnetzwerk extrahieren
cycle_net_berlin = berlin_osm.get_network(network_type="cycling")

# Filter für Wege ohne Daten in der Spalte "surface"
cycle_net_no_surface = cycle_net_berlin[cycle_net_berlin["surface"].isna()]

# Häufigkeitstabelle für die Werte in der Spalte "highway"
highway_counts = cycle_net_no_surface["highway"].value_counts(normalize=True)*100

# Ausgabe der Häufigkeitstabelle
print(highway_counts)



highway
service          92.192428
path              2.592268
track             1.804588
residential       1.239981
footway           0.981523
cycleway          0.655375
living_street     0.310764
bridleway         0.058461
unclassified      0.033846
tertiary          0.027692
steps             0.020000
elevator          0.016923
construction      0.015384
pedestrian        0.015384
primary           0.009231
secondary         0.007692
street_lamp       0.006154
tertiary_link     0.003077
busway            0.003077
road              0.001538
services          0.001538
rest_area         0.001538
bus_stop          0.001538
Name: proportion, dtype: float64


### Splitten der Daten
---
**1. Split**

In [2]:
from sklearn.model_selection import train_test_split

# Splitten der Daten in Trainings- und Testdaten (80% Training, 20% Test)
train, test = train_test_split(cycle_net_berlin, test_size=0.2, random_state=1)

In [3]:
# Filter für Wege ohne Daten in der Spalte "surface" im Trainingsdatensatz
train_no_surface = train[train["surface"].isna()]

# Häufigkeitstabelle für die Werte in der Spalte "highway" im Trainingsdatensatz ohne surface
highway_counts_train = train_no_surface["highway"].value_counts(normalize=True) * 100

# Ausgabe der Häufigkeitstabelle
print(highway_counts_train)

highway
service          92.225862
path              2.538061
track             1.801889
residential       1.244941
footway           0.984775
cycleway          0.674504
living_street     0.314126
bridleway         0.053960
unclassified      0.026980
tertiary          0.023126
elevator          0.021199
construction      0.019272
steps             0.019272
pedestrian        0.017344
primary           0.009636
secondary         0.007709
street_lamp       0.003854
tertiary_link     0.003854
road              0.001927
busway            0.001927
bus_stop          0.001927
services          0.001927
rest_area         0.001927
Name: proportion, dtype: float64


In [4]:
# Filter für Wege ohne Daten in der Spalte "surface" im Trainingsdatensatz
test_no_surface = test[test["surface"].isna()]

# Häufigkeitstabelle für die Werte in der Spalte "highway" im Trainingsdatensatz ohne surface
highway_counts_test = test_no_surface["highway"].value_counts(normalize=True) * 100

# Ausgabe der Häufigkeitstabelle
print(highway_counts_test)

highway
service          92.060102
path              2.806803
track             1.815270
residential       1.220349
footway           0.968652
cycleway          0.579666
living_street     0.297460
bridleway         0.076272
unclassified      0.061017
tertiary          0.045763
steps             0.022882
street_lamp       0.015254
pedestrian        0.007627
secondary         0.007627
busway            0.007627
primary           0.007627
Name: proportion, dtype: float64


**2.Split**

In [5]:
# Splitten der Daten in Trainings- und Testdaten (80% Training, 20% Test)
train, test = train_test_split(cycle_net_berlin, test_size=0.2, random_state=20)

In [6]:
# Filter für Wege ohne Daten in der Spalte "surface" im Trainingsdatensatz
train_no_surface = train[train["surface"].isna()]

# Häufigkeitstabelle für die Werte in der Spalte "highway" im Trainingsdatensatz ohne surface
highway_counts_train = train_no_surface["highway"].value_counts(normalize=True) * 100

# Ausgabe der Häufigkeitstabelle
print(highway_counts_train)

highway
service          92.186116
path              2.604628
track             1.790321
residential       1.249374
footway           0.999114
cycleway          0.644900
living_street     0.302237
bridleway         0.057752
unclassified      0.038502
tertiary          0.025026
construction      0.019251
pedestrian        0.017326
elevator          0.017326
steps             0.013476
primary           0.009625
secondary         0.007700
street_lamp       0.007700
tertiary_link     0.003850
busway            0.001925
bus_stop          0.001925
road              0.001925
Name: proportion, dtype: float64


In [7]:
# Filter für Wege ohne Daten in der Spalte "surface" im Trainingsdatensatz
test_no_surface = test[test["surface"].isna()]

# Häufigkeitstabelle für die Werte in der Spalte "highway" im Trainingsdatensatz ohne surface
highway_counts_test = test_no_surface["highway"].value_counts(normalize=True) * 100

# Ausgabe der Häufigkeitstabelle
print(highway_counts_test)

highway
service          92.217541
path              2.543087
track             1.861356
residential       1.202604
footway           0.911528
cycleway          0.697051
living_street     0.344696
bridleway         0.061279
steps             0.045959
tertiary          0.038300
unclassified      0.015320
elevator          0.015320
rest_area         0.007660
busway            0.007660
services          0.007660
secondary         0.007660
primary           0.007660
pedestrian        0.007660
Name: proportion, dtype: float64


**3.Split**

In [9]:
# Splitten der Daten in Trainings- und Testdaten (80% Training, 20% Test)
train, test = train_test_split(cycle_net_berlin, test_size=0.2, random_state=51)

In [10]:
# Filter für Wege ohne Daten in der Spalte "surface" im Trainingsdatensatz
train_no_surface = train[train["surface"].isna()]

# Häufigkeitstabelle für die Werte in der Spalte "highway" im Trainingsdatensatz ohne surface
highway_counts_train = train_no_surface["highway"].value_counts(normalize=True) * 100

# Ausgabe der Häufigkeitstabelle
print(highway_counts_train)

highway
service          92.224294
path              2.566271
track             1.791584
residential       1.224505
footway           0.993829
cycleway          0.653582
living_street     0.313335
bridleway         0.059591
unclassified      0.038446
tertiary          0.026912
steps             0.019223
elevator          0.017301
pedestrian        0.017301
construction      0.015378
secondary         0.009612
street_lamp       0.007689
primary           0.005767
busway            0.003845
tertiary_link     0.003845
road              0.001922
services          0.001922
rest_area         0.001922
bus_stop          0.001922
Name: proportion, dtype: float64


In [11]:
# Filter für Wege ohne Daten in der Spalte "surface" im Trainingsdatensatz
test_no_surface = test[test["surface"].isna()]

# Häufigkeitstabelle für die Werte in der Spalte "highway" im Trainingsdatensatz ohne surface
highway_counts_test = test_no_surface["highway"].value_counts(normalize=True) * 100

# Ausgabe der Häufigkeitstabelle
print(highway_counts_test)

highway
service          92.064715
path              2.696456
track             1.856703
residential       1.302003
footway           0.932203
cycleway          0.662558
living_street     0.300462
bridleway         0.053929
tertiary          0.030817
steps             0.023112
primary           0.023112
unclassified      0.015408
construction      0.015408
elevator          0.015408
pedestrian        0.007704
Name: proportion, dtype: float64


### FAZIT
---
Bei allen drei Train-Test-Splits zeigt sich, dass die grundsätzliche Verteilung der Straßen ohne surface-Wert sowohl bei den Trainings-, als auch bei den Testdaten gleich/ ähnlich bleibt.  

Folgende drei Straßen liegen anteilig immer über 1,5%:
 * service
 * path
 * track

Unser Ansatz, nur für die besagten Straßen explizite(individuelle) Werte für surface zu setzen und alle anderen Straßen zusammenzufassen und aufgrund ihrer Seltenheit nicht individuell zu betrachten, sehen wir hierdurch legitimiert.