## Voraussetzungen

1. Python 3 Version (getestet mit 3.11.3)
2. Installierte Module
3. Aggegierte Feature-Daten unter `./data/agg_mapped_data.csv`
4. Laufender Datenbank Docker-Container (siehe Abschnitt `12.2.2` in der Arbeit)

## Beschreibung

Dieses Notebook dient der Simulation von Zugriffen auf Geodaten beziehungsweise auf die Tiles, in welchen diese sich befinden. Der Prozess der Datensynthese
ist sehr Rechenaufwendig und hat auf dem Laptop, welcher für die Auswertung benutzt wurde, etwa $11$ Stunden in Anspruch genommen.

Das Vorgehen ist wie folgt:

1. Verbindung zur Datenbank wird erstellt und POIs werden abgefragt
2. Funktionen zur Berechnung der mittleren Zugriffsrate ($\lambda$) für individuelle POIs
3. Einlesen der Feature-Daten
4. Funktionalität zur Zuweisung von POI-Koordinaten zu entsprechenden Tiles
5. Berechnung von Tile-Zugriffsraten
6. Erzeugung von synthetischen Zugriffsdaten

In [1]:
# Importieren von Python Modulen

from sqlalchemy import create_engine

import pandas as pd
import numpy as np
import shapely as shp
import collections
import time
import pickle

#### 1. Empfangen von POIs

Mithilfe des `sqlalchemy`-Moduls wird eine Verbindung zu der Datenbank aus `02_database_service` aufgebaut. In der Arbeit beschriebene POIs werden dann mittels SQL empfangen.

In [2]:
engine = create_engine('postgresql://postgres:toor@localhost:5432/postgres')

query = """
SELECT geom, aeroway, amenity, building, capacity, "isced_level", leisure, name, opening_hours, shop, tourism
FROM poi__points_of_interest
WHERE shop IS NOT NULL
   OR amenity='marketplace' OR shop='convenience' OR shop='supermarket'
   OR amenity IN ('restaurant', 'fast_food', 'cafe', 'bar', 'pub')
   OR tourism IS NOT NULL
   OR amenity IN ('kindergarten', 'school', 'college', 'university', 'language_school')
   OR amenity='toilets'
   OR leisure='swimming_pool'
   OR aeroway IS NOT NULL OR building='aerodrome';
"""

# Tabelle mit POIs
poi_df = pd.read_sql(query, engine)

#### 2. Bestimmen von $\lambda$ für POIs

Funktion zur Berechnung der Zugriffsrate auf Bildungseinrichtungen wie in Tabelle $1$ (Seite $\text{IV}$) dargestellt.

In [3]:
def educational_rate(poi, efactors):
    if efactors['weekday'] > 5 or efactors['vacation'] or efactors['holiday']:
        return 0

    rate = 2.0

    if efactors['snow'] >= 3:
        rate -= 0.2
    
    if efactors['temp'] == 0 or efactors['temp'] == 4:
        rate -= 0.2
    
    if 7 <= efactors['hour'] <= 9:
        rate += 20.0

    return max(0.1, rate)

Funktion zur Berechnung der Zugriffsrate auf diverse Freizeitaktivitäten wie in Tabelle $2$ (Seite $\text{V}$) dargestellt.

In [4]:
def leisure_rate(poi, efactors):
    outdoors = poi['leisure'] in [
        'picnic_table',
        'garden',
        'swimming_pool',
        'horse_riding',
        'bird_hide',
        'playground',
        'wildlife_hide',
        'camping',
        'park',
        'maze',
        'beach_resort',
        'outdoor_seating']
    
    rate = 2.0

    if outdoors and efactors['temp'] <= 1 or efactors['coco'] == 0 or efactors['snow'] > 1 or efactors['wspd'] >= 3:
        rate -= 10.0
    elif not outdoors:
        rate += 2.0

    if (efactors['holiday'] or efactors['vacation'] or efactors['weekday'] > 5) and 10 <= efactors['hour'] <= 21:
        rate += 10.0
    elif 12 <= efactors['hour'] <= 14 or 17 <= efactors['hour'] <= 21:
        rate += 10.0

    return max(0.1, rate)

Funktion zur Berechnung der Zugriffsrate POIs der Kategorie Einkauf & Tourismus, wie in Tabelle $3$ (Seite $\text{VI}$) dargestellt.

In [5]:
def commercial_rate(poi, efactors):
    rate = 2.0

    if poi['shop'] != None and efactors['weekday'] == 7:
        return 0.0
    elif poi['shop'] != None and efactors['weekday'] == 6:
        rate += 15.0
    elif poi['shop'] != None and 17 <= efactors['hour'] <= 19:
        rate += 10.0


    if poi['shop'] == None and 6 <= efactors['month'] <= 8:
        rate += 20.0
    elif poi['shop'] == None:
        rate += 5.0

    return max(0.1, rate)

Funktion der Berechnung der Zugriffsrate auf beliebige POIs (ordnet entsprechenden POIs eine der drei "Unterfunktionen" zu)

In [6]:
def calculate_poi_prate(poi, efactors):
    if poi['isced_level'] != None:
        return educational_rate(poi, efactors)
    elif poi['leisure'] != None:
        return leisure_rate(poi, efactors)
    elif (poi['shop'] != None and poi['shop'] != 'no') or poi['tourism'] != None:
        return commercial_rate(poi, efactors)
    else:
        return 0.1

#### 3. Einlesen der Feature-Daten

In [7]:
agg_mapped_data = pd.read_csv('./data/agg_mapped_data.csv')

#### 4. Berechnung von Tiles für zugehörige POIs

In [8]:
def lonlat_to_tile(lon, lat, tile_size):
    x_tile = int((lon - MIN_X_COORD) / tile_size)
    y_tile = int((lat - MIN_Y_COORD) / tile_size)
    return x_tile, y_tile

MIN_X_COORD = 12.36749421446289
MAX_X_COORD = 14.312163310124404

MIN_Y_COORD = 51.948449733535
MAX_Y_COORD = 52.978667577725275

MIN_TILE = lonlat_to_tile(MIN_X_COORD, MIN_Y_COORD, 0.01)
MAX_TILE = lonlat_to_tile(MAX_X_COORD, MAX_Y_COORD, 0.01)
print("Min-Tile:", MIN_TILE)
print("Max-Tile:", MAX_TILE)
print("Tiles total:", (MAX_TILE[0]-MIN_TILE[0]) * (MAX_TILE[1] - MIN_TILE[1]))

Min-Tile: (0, 0)
Max-Tile: (194, 103)
Tiles total: 19982


#### 5. Berechnung von Tile-Zugriffsraten

Die Berechnung der Zugriffsraten für jedes Tile für jeden Satz an Feature-Daten ist der Zeitaufwendige Teil der Datengenerierung.
Um den Prozess zu vereinfachen wurden alle 1500 Datensätze eine Zwischenspeicherung vorgenommen. Sollten Sie das Programm während des Generierens
stoppen, so können Sie unter `./data/lambda_checkpoints_[ZAHL].pkl` den letzten Speicherpunkt (mit dem höchsten Wert für `[ZAHL]`) in die Variable `LOAD_FROM_CACHE` eintragen (Beispiel: `LOAD_FROM_CACHE = "./data/lambda_checkpoints_4500.pkl"`).
Die Generierung von Zugriffsraten wird dann von diesem Punkt an gestartet.

Initialisierung:

In [9]:
# Hier falls vorhanden den Dateipfad zum letzten Speicherstand eintragen
LOAD_FROM_CACHE = None

# Variablen für die Zustandsspeicherung
poi_tiles = []
n_mapd = len(agg_mapped_data)
agg_tile_visit_rates = []
data_iter = agg_mapped_data.iterrows()

# Berechnung des Tiles für jeden POI
for i, row in poi_df.iterrows():
    xy_p = shp.from_wkb(row['geom']).centroid.xy
    x, y = xy_p[0][0], xy_p[1][0]
    tx, ty = lonlat_to_tile(x, y, 0.01)
    tx = max(min(tx, MAX_TILE[0]), MIN_TILE[0])
    ty = max(min(ty, MAX_TILE[1]), MIN_TILE[1])

    poi_tiles.append((tx, ty))

# Falls ein Speicherpunkt eingetragen wurden, wird dieser eingelesen
if LOAD_FROM_CACHE:
    with open(LOAD_FROM_CACHE, 'rb') as fp:
        agg_tile_visit_rates = pickle.load(fp)
    
    # Bereits berechnete Datensätze werden übersprungen
    for i in range(len(agg_tile_visit_rates)):
        next(data_iter)

Datensynthese:

In [10]:
time_start = time.time()
tl = []

for i, row in data_iter:
    tile_visit_rates = collections.defaultdict(float)

    # Berechnung der Zugriffsrate für jeden POI
    for j, poi in poi_df.iterrows():
         tile_visit_rates[poi_tiles[j]] += calculate_poi_prate(poi, row)

    agg_tile_visit_rates.append(tile_visit_rates)

    # Ausgabe des aktuellen Fortschritts alle 10 Datensätze
    if i%10 == 0:
        time_now = time.time()
        time_elapsed = time_now - time_start
        time_start = time_now
        tl.append(time_elapsed)

        avg_time_per_row = sum(tl)/len(tl) / 10
        time_left_approx = (n_mapd-i-1) * avg_time_per_row
        print("Progress: {}/{} | Took: {:.2f}s | Time Left~: {:.2f}s".format(i+1, n_mapd, time_elapsed, time_left_approx))
    
    # Zwischenspeichern des Fortschritts alle 1500 Datensätze
    if i%1500 == 0:
        with open('./data/lambda_checkpoints_{}.pkl'.format(i), 'wb') as fp:
            pickle.dump(agg_tile_visit_rates, fp)

# Speichern der kompletten Information nach Durchlauf
with open('./data/lambda_checkpoints_complete.pkl', 'wb') as fp:
    pickle.dump(agg_tile_visit_rates, fp)

#### 6. Erzeugung von synthetischen Zugriffsdaten

Da nun alle Zugriffsraten bestimmt wurden, werden nun mittels Poisson-Verteilungen konkrete Zugriffe bestimmt. Diese variieren, da dieser Prozess weitestgehend Zufällig ist. Um die Generierung
des Datensatzes deterministisch zu machen, wird hier ein sogenannter `random-seed` gesetzt.

In [11]:
np.random.seed(0)

synth_data = agg_mapped_data.to_dict()
tile_access_dict = collections.defaultdict(list)

for td_entry in agg_tile_visit_rates:
    for tile, access_rate in td_entry.items():
        tile = ";".join([str(tile[0]), str(tile[1])])
        tile_access_dict[tile].append(np.random.poisson(access_rate))

for key in synth_data.keys():
    synth_data[key] = list(synth_data[key].values())
    
synth_data.update(tile_access_dict)
synth_data_df = pd.DataFrame(synth_data)
synth_data_df.to_csv('./data/synth_access_data.csv')