# Relationale Datenbanken

## Praxisbeispiel

Informationen sind in der Praxis meist über verschiedene Systeme und Tabellen verteilt und müssen oft zusammengeführt verarbeitet werden, um daraus anwendbares Wissen abzuleiten.

Die Hansestadt Rostock bietet zum Beispiel viele relevante Daten für Bau- und Umweltingenieure auf dem [OpenData Portal Rostock](https://www.opendata-hro.de).

Dort erhalten wir zum Beispiel:
- die [Liste aller Baustellen](https://www.opendata-hro.de/dataset/baustellen)
- die [Liste aller Strassen und Adressen](https://www.opendata-hro.de/dataset/adressenliste)
- die [Liste aller Gemeinden](https://www.opendata-hro.de/dataset/gemeinden_mecklenburg-vorpommern) 
<!-- - die [Liste aller Bodenrichtwerte](https://www.opendata-hro.de/dataset/bodenrichtwerte_2022)

Die Bevölkerungsdichte der Bezirke wiederum erhalten wir auf der Landesseite (https://www.laiv-mv.de/Statistik/Zahlen-und-Fakten/Gesellschaft-&-Staat/Bevoelkerung/). 

# Siehe https://www.opendata-hro.de/dataset/bodenrichtwerte_2022
with urllib.request.urlopen(f'https://geo.sv.rostock.de/download/opendata/bodenrichtwerte_2022/bodenrichtwerte_2022.csv') as f:
    bodenrichtwerte=pd.read_csv(f, usecols=["gesl", "genu", "ortst", "wnum", "gema", "flae", "typ", "brw", "nuta", "entw", "geometrie_wkt"])
bodenrichtwerte.head()

# Siehe https://www.laiv-mv.de/Statistik/Zahlen-und-Fakten/Gesellschaft-&-Staat/Bevoelkerung/
with urllib.request.urlopen(f'https://www.laiv-mv.de/static/LAIV/Statistik/Dateien/Publikationen/A%20I%20Bev%C3%B6lkerungsstand/A123/2022/A123%202022%2021.xlsx') as f:
    bevoelkerung=pd.read_excel(f.read(), sheet_name="2", header=1, usecols=range(7), skiprows=range(2,9)) # wähle Blatt 2, die ersten 7 Spalten und überspringe Zeilen 2-9
bevoelkerung.columns=[c.replace("-\n", "").replace("\n", "") for c in bevoelkerung.columns] # entferne Zeilenumbrüche in den Spaltennamen
bevoelkerung.head()

-->

Wie in den letzten Beispielen gezeigt können wir uns die Daten auch sehr einfach in Python herunter laden und anzeigen. Dafür nutzen wir das CSV Format das auf den Webseiten angeboten wird und die Python Pakete `urllib` und `pandas`. Wir öffnen zuerst die Datei im Internet mit `urllib.request.urlopen` und laden sie dann in Pandas als Tabelle mit `pd.read_csv(f)`. Zuletzt zeigen wir die ersten 5 Zeilen der Tabelle mit `.head()` an.

In [1]:
import urllib.request
import pandas as pd

In [2]:
# Siehe https://www.opendata-hro.de/dataset/baustellen
with urllib.request.urlopen(f'https://geo.sv.rostock.de/download/opendata/baustellen/baustellen.csv') as f:
    baustellen = pd.read_csv(f, usecols=["latitude", "longitude", "strasse_schluessel", "sparte", "von", "nach", "baubeginn", "bauende", "verkehrsbeeintraechtigungen", "baumassnahme"]) #, parse_dates=["baubeginn", "bauende"]
baustellen.head()

Unnamed: 0,latitude,longitude,strasse_schluessel,sparte,von,nach,baubeginn,bauende,verkehrsbeeintraechtigungen,baumassnahme
0,54.090613,12.110921,420,Fernwärmeleitung,Doberaner Str. (01860),Waldemarstr. (09410),2023-09-25 00:00:00+02,2024-03-01 00:00:00+01,"Sicherungsmaßnahmen entlang der Straße, Sicher...",Fernwärmeerweiterung
1,54.095882,12.155872,1200,Kabelnetz,10,,2023-11-27 00:00:00+01,2024-03-28 00:00:00+01,"halbseitige Sperrung, Sicherungsmaßnahmen entl...",Erweiterung Glasfasernetz
2,54.077408,12.14185,1440,Gebäudesanierung,43,,2023-09-11 00:00:00+02,2024-06-29 00:00:00+02,,
3,54.074954,12.123408,2030,Hochbau,31,34,2023-06-14 00:00:00+02,2025-06-28 00:00:00+02,"Sicherungsmaßnahmen entlang der Straße, Sicher...",Neubau Geschäftshaus
4,54.146519,12.174323,11200,Wasserleitung,48,,2023-12-11 00:00:00+01,2024-04-01 00:00:00+02,"halbseitige Sperrung, Sicherungsmaßnahmen entl...",Herstellung Trinkwassergrundstücksanschluss


In [3]:
# Siehe https://geo.sv.rostock.de/download/opendata/adressenliste
with urllib.request.urlopen(f'https://geo.sv.rostock.de/download/opendata/adressenliste/adressenliste.csv') as f:
    adressenliste=pd.read_csv(f, usecols=["gemeinde_schluessel", "gemeindeteil_name", "strasse_name", "strasse_schluessel", "hausnummer", "hausnummer_zusatz", "postleitzahl"])
adressenliste.head()

Unnamed: 0,gemeinde_schluessel,gemeindeteil_name,strasse_name,strasse_schluessel,hausnummer,hausnummer_zusatz,postleitzahl
0,130030000000,Gehlsdorf,Blockweg,1430,3,,18147
1,130030000000,Schmarl,Industriestr.,4010,8,,18069
2,130030000000,Schmarl,Industriestr.,4010,11,,18069
3,130030000000,Evershagen,Bertolt-Brecht-Str.,1340,17,a,18106
4,130030000000,Evershagen,An der Jägerbäk,680,7,,18069


In [4]:
# Siehe https://www.opendata-hro.de/dataset/gemeinden_mecklenburg-vorpommern
with urllib.request.urlopen(f'https://geo.sv.rostock.de/download/opendata/gemeinden_mecklenburg-vorpommern/gemeinden_mecklenburg-vorpommern.csv') as f:
    gemeinden=pd.read_csv(f, usecols=["kreis_name", "kreis_schluessel", "gemeindeverband_name", "gemeindeverband_schluessel", "gemeinde_name", "gemeinde_schluessel", "st_transform"])
gemeinden.head()

Unnamed: 0,st_transform,kreis_name,kreis_schluessel,gemeindeverband_name,gemeindeverband_schluessel,gemeinde_name,gemeinde_schluessel
0,MULTIPOLYGON (((12.3479788285733 53.4696417225...,Mecklenburgische Seenplatte,13071,Amt Malchow,130715154,"Malchow, Inselstadt",130715154093
1,MULTIPOLYGON (((10.789065547543 53.43647265463...,Ludwigslust-Parchim,13076,Amt Boizenburg-Land,130765652,Bengerstorf,130765652009
2,MULTIPOLYGON (((11.6440096539418 53.4613250513...,Ludwigslust-Parchim,13076,Amt Parchimer Umland,130765662,Lewitzrand,130765662085
3,MULTIPOLYGON (((11.7675910044614 53.8797344389...,Nordwestmecklenburg,13074,Amt Neukloster-Warin,130745457,Glasin,130745457023
4,MULTIPOLYGON (((13.836317321461 53.97864402179...,Vorpommern-Greifswald,13075,Amt Am Peenestrom,130755551,Zemitz,130755551147


Wenn wir die Tabellen vergleichen, so stellen wir fest, dass alle eine etwas andere Struktur haben und meist nur einen Teil der Informationen erhalten. Wollen wir zum Beispiel wissen was die Bevölkerungsdichte in den Stadtbezirken mit Baustellen ist, so lässen sich dieses Wissen nicht sofort ableiten.

## Tabellen in SQLite speichern mit Pandas

Um diese Daten langfristig zu speichern wollen wir uns eine Datenbank anlegen. Da die Daten ja bereits als Tabellen vorliegen, nutzen wir eine relationale Datenbank. Eine sehr einfache, lokale relationale Datenbank, die ohne Server auskommt ist SQLite. Sie ist bereits in Python enthalten. Wir erzeugen uns eine neue Datenbank indem wir eine Verbindung zu einer neuen Datenbankdatei anlegen.

In [5]:
import sqlite3

# Create a SQL connection to our SQLite database
con = sqlite3.connect("opendatahro.sqlite")

Wir schauen uns später an wie wir Tabellen direkt mit SQL erzeugen. Pandas hat diese Funktion bereits eingebaut, so dass wir unsere Tabelle direkt in der SQLite Datenbank speichern können.

In [6]:
baustellen.to_sql("baustellen", con, if_exists="replace")
adressenliste.to_sql("adressenliste", con, if_exists="replace")
gemeinden.to_sql("gemeinden", con, if_exists="replace")

726

## Daten aus Tabellen abfragen mit `SELECT`

SQL ist die Standartsprache um mit relationalen Datenbanken zu arbeiten. Sie bietet verschiedene Befehle um Tabellen zu definieren, Daten in ihnen zu speichern als auch die Daten abzufragen. Letzteres wird mit dem `SELECT` Befehl gemacht. SQL orientiert sich dabei etwas an natürlicher Sprache. Man fragt in SQL quasi nach den Daten aus (`FROM`) einer bestimmten Tabelle . Um zum Beispiel alle Spalten aus einer Tabelle abzufragen nutzen wir den Befehl mit dem Platzhalter `*` (=alle Spalten).

In [7]:
sql='SELECT * FROM baustellen;'

Um den SQL Befehl an die Datenbank zu senden, erzeugen wir aus unserer Datenbankverbindung `con` einen neuen Cursor `cur`. Mit `cur.execute(sql)` führen wir den SQL Befehl aus und die Datenbank sendet und die Datenbank fängt an uns alle Ergebnisse der Anfrage Zeile für Zeile zurück zu senden. Der Cursor zeigt dabei immer auf die aktuelle Zeile. Damit will man vermeiden alle Daten, welche sehr (sehr) viele Zeilen sein können, auf einmal zu senden und damit ggf. das Netzwerk oder das Programm zu überlasten.

In [8]:
cur = con.cursor()

rows=cur.execute(sql)
for row in rows:
    print(row)
print(type(row))

(0, 54.0906133339115, 12.1109214841337, '00420', 'Fernwärmeleitung', 'Doberaner Str. (01860)', 'Waldemarstr. (09410)', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Sicherungsmaßnahmen entlang der Straße, Sicherungsmaßnahmen entlang des Gehwegs, Verkehrsraumeinschränkungen', 'Fernwärmeerweiterung')
(1, 54.0958824731459, 12.1558723137829, '01200', 'Kabelnetz', '10', None, '2023-11-27 00:00:00+01', '2024-03-28 00:00:00+01', 'halbseitige Sperrung, Sicherungsmaßnahmen entlang der Straße, Sicherungsmaßnahmen entlang des Gehwegs, Sperrung des Fußgängerverkehrs im Gehwegbereich', 'Erweiterung Glasfasernetz')
(2, 54.0774081490585, 12.1418502139276, '01440', 'Gebäudesanierung', '43', None, '2023-09-11 00:00:00+02', '2024-06-29 00:00:00+02', None, None)
(3, 54.0749544539959, 12.1234076609778, '02030', 'Hochbau', '31', '34', '2023-06-14 00:00:00+02', '2025-06-28 00:00:00+02', 'Sicherungsmaßnahmen entlang der Straße, Sicherungsmaßnahmen entlang des Gehwegs, Verkehrsraumeinschränkungen', 'Ne

Wie wir sehen erhalten wir jede Zeile als Tuple zurück. Dabei kennen wir in diesem Fall nicht die Spaltennamen der Werte. Wir können diese vom Cursor abfragen mit

In [9]:
cur.description

(('index', None, None, None, None, None, None),
 ('latitude', None, None, None, None, None, None),
 ('longitude', None, None, None, None, None, None),
 ('strasse_schluessel', None, None, None, None, None, None),
 ('sparte', None, None, None, None, None, None),
 ('von', None, None, None, None, None, None),
 ('nach', None, None, None, None, None, None),
 ('baubeginn', None, None, None, None, None, None),
 ('bauende', None, None, None, None, None, None),
 ('verkehrsbeeintraechtigungen', None, None, None, None, None, None),
 ('baumassnahme', None, None, None, None, None, None))

Meist fragt man allerdings nicht alle Spalten einer Tabelle mit dem Platzhalter `*` ab, sonder gibt geziehlt die Spalten an, die man erhalten möchte. So kann man unnötigen Datenverkehr spaaren.

In [10]:
sql='SELECT strasse_schluessel, sparte, latitude, longitude, baumassnahme FROM baustellen;'
for row in cur.execute(sql):
    print(row)

('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung')
('01200', 'Kabelnetz', 54.0958824731459, 12.1558723137829, 'Erweiterung Glasfasernetz')
('01440', 'Gebäudesanierung', 54.0774081490585, 12.1418502139276, None)
('02030', 'Hochbau', 54.0749544539959, 12.1234076609778, 'Neubau Geschäftshaus')
('11200', 'Wasserleitung', 54.1465191416816, 12.1743225812845, 'Herstellung Trinkwassergrundstücksanschluss')
('08100', 'Straßenbau', 54.0906355201709, 12.1540771800013, 'Vermessungsarbeiten auf der Brücke')
('07400', 'Gleisbau', 54.0804928497439, 12.1265163834298, 'Ersatzneubau Goetheplatzbrücke')
('02250', 'Hochbau', 54.093406898181, 12.1165419273055, 'Hochbauarbeiten, Zimmerarbeiten (Dachstuhl, Dachdecker), Erschließung Tiefbauarbeiten Keller, Lieferverkehr')
('10610', 'Grünpflege', 54.0636569028938, 12.1205018117181, 'Baugruben und Baumpflanzungen')
('00600', 'Wasserleitung', 54.1439215385669, 12.061512824974, 'Rohrleitungsbau')
('03550', 'Gebäudesanierung'

## Filtern von Ergebnissen mit `WHERE`

Oft will man nur bestimmte Zeilen aus einer Tabelle in einer Datenbank abrufen. Diese Auswahl definiert man mit dem SQL Befehl `WHERE` und zusätzlichen logischen Vergleichsoperatoren.

Wollen wir zum Beispiel nur die Baustellen haben die einen Baubegin in 2023 haben, so können wir definieren

In [11]:
sql='''SELECT strasse_schluessel, sparte, latitude, longitude, baumassnahme, baubeginn, bauende
       FROM baustellen
       WHERE baubeginn >= '2023-01-01 00:00:00+01';'''
for row in cur.execute(sql):
    print(row)

('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01')
('01200', 'Kabelnetz', 54.0958824731459, 12.1558723137829, 'Erweiterung Glasfasernetz', '2023-11-27 00:00:00+01', '2024-03-28 00:00:00+01')
('01440', 'Gebäudesanierung', 54.0774081490585, 12.1418502139276, None, '2023-09-11 00:00:00+02', '2024-06-29 00:00:00+02')
('02030', 'Hochbau', 54.0749544539959, 12.1234076609778, 'Neubau Geschäftshaus', '2023-06-14 00:00:00+02', '2025-06-28 00:00:00+02')
('11200', 'Wasserleitung', 54.1465191416816, 12.1743225812845, 'Herstellung Trinkwassergrundstücksanschluss', '2023-12-11 00:00:00+01', '2024-04-01 00:00:00+02')
('08100', 'Straßenbau', 54.0906355201709, 12.1540771800013, 'Vermessungsarbeiten auf der Brücke', '2023-02-23 00:00:00+01', '2024-02-24 00:00:00+01')
('02250', 'Hochbau', 54.093406898181, 12.1165419273055, 'Hochbauarbeiten, Zimmerarbeiten (Dachstuhl, Dachdecker), Erschließung Tiefbauarbeiten Keller

Mehrere Bedingungen können durch logische Operatoren wie 'AND', 'OR' oder 'NOT' verknüpft werden. Wollen wir alle Baustellen die im 1 Quartal 2023 angefangen und beendet werden, so schreiben wir

In [12]:
sql='''SELECT strasse_schluessel, sparte, latitude, longitude, baumassnahme, baubeginn, bauende
       FROM baustellen
       WHERE baubeginn >= '2023-01-01 00:00:00+01' AND bauende < '2024-04-01 00:00:00+01';'''
for row in cur.execute(sql):
    print(row)

('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01')
('01200', 'Kabelnetz', 54.0958824731459, 12.1558723137829, 'Erweiterung Glasfasernetz', '2023-11-27 00:00:00+01', '2024-03-28 00:00:00+01')
('08100', 'Straßenbau', 54.0906355201709, 12.1540771800013, 'Vermessungsarbeiten auf der Brücke', '2023-02-23 00:00:00+01', '2024-02-24 00:00:00+01')
('10610', 'Grünpflege', 54.0636569028938, 12.1205018117181, 'Baugruben und Baumpflanzungen', '2023-11-27 00:00:00+01', '2024-03-01 00:00:00+01')
('03550', 'Gebäudesanierung', 54.0815607955831, 12.1357494963473, 'Haussanierung (Gerüststellung, BE entlang des Hauses und Lieferzone)', '2023-04-01 08:00:00+02', '2024-02-01 00:00:00+01')
('00310', 'Straßenbau', 54.1787046006673, 12.0891147118381, 'MS/NS-Erweiterung', '2023-11-01 07:00:00+01', '2024-01-31 18:00:00+01')
('01000', 'Gebäudesanierung', 54.1126754025849, 12.1579711478366, None, '2024-01-03 00:00:00+01', '2

## Daten Aggregieren

Da die Ergebnisse Zeile für Zeile übertragen werden, ist die Anzahl der Ergebnisse auch nicht unbedingt vorher bekannt. Deshalb unterstützen alle relationale Datenbanken die Aggregatfunktion `count(*)`, um die Anzahl der Zeilen der Ergebnisse zurück zu geben.

In [13]:
sql='SELECT count(*) FROM baustellen;'

for row in cur.execute(sql):
    print(row)

(125,)


Hier erhalten wir nur eine Ergebniszeile zurück, mit der Anzahl der Zeilen in der Tabelle.

Darüber hinaus unerstützt SQL viele Aggregierfunktionen. Wollen wir zum Beispiel in unserem Beispieldatensatz die minimalen Baubeginn aller Baustellen identifizieren nutzen wir die `min()`-Funktion mit dem entsprechenden Spaltennamen.

In [14]:
sql='SELECT min(baubeginn) FROM baustellen;'

for row in cur.execute(sql):
    print(row)

('2020-10-23 00:00:00+02',)


Wieder erhalten wir ein Ergebnis mit dem Datum. Das entscheidende ist, dass diese Aggregatfunktionen direkt in der Datenbank ausgeführt wird. Wir müssen also nicht alle Daten runterladen, um einfache Kennwerte wie die Anzahl, das Minimum oder Maximum von Spalten zu erhalten. Dabei können wir auch mehrere Aggregierungen in einer Anfrage und mathematische Berechnungen ausführen. Das folgende Beispiel gibt uns die Anzahl der Baustellen sowie den minimalen Baubeginn und das maximale Bauende sowie die Baudauer. Die Baudauer berechnen wir direkt in der Datenbank als den arithmethischen Durchschnitt `avg` der Differenz zwischen Bauende und Baubeginn in Tagen im Julianischen Kalender.

In [15]:
sql='''SELECT sparte, count(*), min(baubeginn), max(bauende), avg(JulianDay(bauende)-JulianDay(baubeginn))
       FROM baustellen;'''

for row in cur.execute(sql):
    print(row)

('Hochbau', 125, '2020-10-23 00:00:00+02', '2026-01-31 00:00:00+01', None)


## Statistiken Extrahieren mit Aggregieren von Gruppen, Sortieren und Limitieren

Das letzte Beispiel zeigt bereits, wie wir SQL nutzen können um Statistiken der Daten in einer Datenbank zu berechnen. Das wird besonders dann interessant, wenn wir das mit Gruppierungen kombinieren. Gruppierungen fassen die abgefragten Zeilen in der Tabelle entlang den angegebenen Spaltennamen als Gruppe zusammen. Wollen wir zum Beispiel wissen, wie lange im Durchschnitt die Dauer der Baustellen je nach `sparte` ist, so können wir diese Spalte als Gruppe definieren und die mittleren Baudauer für jede Gruppe bestimmen. Dafür bietet SQL den Befehl `GROUP BY` an, hinter dem wir die Spalte angeben nach welcher gruppiert werden soll.

In [16]:
sql='''SELECT sparte, count(*), min(baubeginn), max(bauende), avg(JulianDay(bauende)-JulianDay(baubeginn))
       FROM baustellen 
       GROUP BY sparte;'''

for row in cur.execute(sql):
    print(row)

('Baumfällarbeiten', 1, '2024-01-08 07:00:00+01', '2024-02-02 15:00:00+01', None)
('Brückensanierung', 2, '2023-12-14 11:00:00+01', '2024-02-06 00:00:00+01', None)
('Fernwärmeleitung', 5, '2023-02-27 07:00:00+01', '2024-03-01 00:00:00+01', None)
('Gasleitung', 2, '2023-11-06 07:00:00+01', '2024-01-31 18:00:00+01', None)
('Gebäudesanierung', 29, '2021-09-27 00:00:00+02', '2025-05-31 16:00:00+02', None)
('Gleisbau', 2, '2022-05-04 00:00:00+02', '2025-01-01 00:00:00+01', None)
('Grünpflege', 2, '2023-11-16 07:00:00+01', '2024-04-30 17:00:00+02', None)
('Hochbau', 33, '2020-10-23 00:00:00+02', '2026-01-31 00:00:00+01', None)
('Kabelnetz', 3, '2023-11-27 00:00:00+01', '2024-03-28 00:00:00+01', None)
('Lichtsignalanlage', 1, '2022-06-09 00:00:00+02', '2024-06-01 00:00:00+02', None)
('Straßenbau', 23, '2022-03-28 00:00:00+02', '2025-04-01 00:00:00+02', None)
('Stromnetz', 2, '2023-12-18 00:00:00+01', '2024-12-21 00:00:00+01', None)
('Vermessungsarbeiten', 1, '2024-01-10 00:00:00+01', '2024-01

Wir sehen jetzt, dass 'Hochbau' die größte Gruppen mit 29 Zeilen (Baustellen) bildet, gefolgt von Straßenbau mit 14 Zeilen. Hochbau braucht Hochbau mit 507 Tagen fast doppelt so lange wie Strassenbau mit 274 Tagen. 

(Da wir die Daten tagesaktuell von Opendata-HRO laden, können sich diese Beispielzahlen im Verlauf der Zeit durchaus ändern).

Um die Ergebnisse zu sortieren bietet SQL den `ORDER BY` Befehl. Wollen wir die Ergebnisse nach der Dauer absteigend (`DESC`) sortieren, so schreiben wir:

In [17]:
sql='''SELECT sparte, count(*), min(baubeginn), max(bauende), avg(JulianDay(bauende)-JulianDay(baubeginn)) as Baudauer 
       FROM baustellen 
       GROUP BY sparte
       ORDER BY Baudauer DESC;'''  # ASC - Aufsteigend, DESC - Absteigend

for row in cur.execute(sql):
    print(row)

('Wasserleitung', 19, '2022-01-10 00:00:00+01', '2024-07-31 00:00:00+02', None)
('Vermessungsarbeiten', 1, '2024-01-10 00:00:00+01', '2024-01-20 00:00:00+01', None)
('Stromnetz', 2, '2023-12-18 00:00:00+01', '2024-12-21 00:00:00+01', None)
('Straßenbau', 23, '2022-03-28 00:00:00+02', '2025-04-01 00:00:00+02', None)
('Lichtsignalanlage', 1, '2022-06-09 00:00:00+02', '2024-06-01 00:00:00+02', None)
('Kabelnetz', 3, '2023-11-27 00:00:00+01', '2024-03-28 00:00:00+01', None)
('Hochbau', 33, '2020-10-23 00:00:00+02', '2026-01-31 00:00:00+01', None)
('Grünpflege', 2, '2023-11-16 07:00:00+01', '2024-04-30 17:00:00+02', None)
('Gleisbau', 2, '2022-05-04 00:00:00+02', '2025-01-01 00:00:00+01', None)
('Gebäudesanierung', 29, '2021-09-27 00:00:00+02', '2025-05-31 16:00:00+02', None)
('Gasleitung', 2, '2023-11-06 07:00:00+01', '2024-01-31 18:00:00+01', None)
('Fernwärmeleitung', 5, '2023-02-27 07:00:00+01', '2024-03-01 00:00:00+01', None)
('Brückensanierung', 2, '2023-12-14 11:00:00+01', '2024-02-0

Sind wir jetzt nur an der Top 3 interessiert, so können wir mit `LIMIT` die Anzahl an Ergebnissen die maximal zurück gegeben werden.

In [18]:
sql='''SELECT sparte, count(*), min(baubeginn), max(bauende), avg(JulianDay(bauende)-JulianDay(baubeginn)) as Baudauer 
       FROM baustellen 
       GROUP BY sparte
       ORDER BY Baudauer DESC
       LIMIT 3;'''

for row in cur.execute(sql):
    print(row)

('Wasserleitung', 19, '2022-01-10 00:00:00+01', '2024-07-31 00:00:00+02', None)
('Vermessungsarbeiten', 1, '2024-01-10 00:00:00+01', '2024-01-20 00:00:00+01', None)
('Stromnetz', 2, '2023-12-18 00:00:00+01', '2024-12-21 00:00:00+01', None)


## Daten aus mehreren Tabellen verknüpfen und gleichzeitig abfragen mit `JOIN`

In unserm Beispiel kennen wir nicht die Straßennamen der Baustelle, sondern nur eine obskure ID namens `strasse_schluessel`. Diese finden wir auch in der Tabelle `adressenliste` zusammen mit dem gesuchten Straßennamen. Wir müssen also nun eine Abfrage über beide Tabellen gemeinsam durchführen, um auch die Straße für die Baustellen zu erfahren. Dafür nutzt man den SQL Befehl `JOIN` und gibt an wo (`WHERE`) die Ergebnisse zusammenzuführen sind indem man eine Gleichheitsbedingung spezifiziert. Da die Spalte `strasse_schluessel` in beiden Tabellen vorkommt und es nicht ganz eindeutig ist auf welche man sich bezieht, gibt man jetzt auch bei den Spaltennamen die Tabelle mit der Dotnotation mit an, also:

In [19]:
sql='''SELECT baustellen.strasse_schluessel, baustellen.sparte, baustellen.latitude, baustellen.longitude, baustellen.baumassnahme, baustellen.baubeginn, baustellen.bauende, 
              adressenliste.gemeindeteil_name, adressenliste.strasse_name 
       FROM baustellen 
       JOIN adressenliste 
       WHERE baustellen.strasse_schluessel=adressenliste.strasse_schluessel;'''
for row in cur.execute(sql):
    print(row)

('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337,

Da diese ständige Wiederholung der Tabellennamen sehr schreiblastig ist, kann man in SQL mit dem Befehl `AS` auch kürzere Namen für Spalten und Tabellen verwenden

In [20]:
sql='''SELECT b.strasse_schluessel, b.sparte, b.latitude, b.longitude, b.baumassnahme, b.baubeginn, b.bauende, 
              a.gemeindeteil_name, a.strasse_name 
       FROM baustellen AS b 
       JOIN adressenliste AS a
       WHERE b.strasse_schluessel=a.strasse_schluessel;'''
for row in cur.execute(sql):
    print(row)

('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', '2023-09-25 00:00:00+02', '2024-03-01 00:00:00+01', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337,

Jetzt kommt es allerdings zu vielen Dopplungen in unseren Ergebnissen, da jede Ergebniszeile aus der Tabelle `baustellen` mit jeder Zeile aus der Tabelle `adressenliste` wiederholt wird, weil in der letzteren ja eine Straße mit dem gleichen `strasse_schluessel` mehrmals vorkommt. Diese Duplikate wollen wir rausfiltern mit dem SQL Befehl `DISTINCT`

In [21]:
sql='''SELECT DISTINCT b.strasse_schluessel, b.sparte, b.latitude, b.longitude, b.baumassnahme, a.gemeindeteil_name, a.strasse_name 
       FROM baustellen AS b
       JOIN adressenliste AS a
       WHERE b.strasse_schluessel=a.strasse_schluessel;'''
for row in cur.execute(sql):
    print(row)

('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof')
('01200', 'Kabelnetz', 54.0958824731459, 12.1558723137829, 'Erweiterung Glasfasernetz', 'Brinckmansdorf', 'Bei der Knochenmühle')
('01440', 'Gebäudesanierung', 54.0774081490585, 12.1418502139276, None, 'Stadtmitte', 'Blücherstr.')
('02030', 'Hochbau', 54.0749544539959, 12.1234076609778, 'Neubau Geschäftshaus', 'Südstadt', 'Erich-Schlesinger-Str.')
('11200', 'Wasserleitung', 54.1465191416816, 12.1743225812845, 'Herstellung Trinkwassergrundstücksanschluss', 'Nienhagen', 'Max-Garthe-Str.')
('08100', 'Straßenbau', 54.0906355201709, 12.1540771800013, 'Vermessungsarbeiten auf der Brücke', 'Brinckmansdorf', 'Rövershäger Chaussee')
('08100', 'Straßenbau', 54.0906355201709, 12.1540771800013, 'Vermessungsarbeiten auf der Brücke', 'Dierkow-Neu', 'Rövershäger Chaussee')
('07400', 'Gleisbau', 54.0804928497439, 12.1265163834298, 'Ersatzneubau Goetheplatzbrücke', 'Süd

Jetzt kennen wir schon den richtigen Straßenname zu jeder Baustelle, allerdings fehlt uns die Gemeinde. Hierfür verknüpfen wir die Daten mit der Tabelle
`gemeinden`. Dafür ergänzen wir die zusätzliche Tabelle im `JOIN` und definieren die weitere Verknüpfungsbedingung auf die Spalte `gemeinde_schluessel`.


In [22]:
sql='''SELECT DISTINCT b.strasse_schluessel, b.sparte, b.latitude, b.longitude, b.baumassnahme, a.gemeindeteil_name, a.strasse_name, g.gemeinde_name
       FROM baustellen AS b
       JOIN adressenliste AS a, gemeinden AS g
       WHERE b.strasse_schluessel=a.strasse_schluessel AND a.gemeinde_schluessel=g.gemeinde_schluessel;'''
for row in cur.execute(sql):
    print(row)

('00420', 'Fernwärmeleitung', 54.0906133339115, 12.1109214841337, 'Fernwärmeerweiterung', 'Kröpeliner-Tor-Vorstadt', 'Am Kabutzenhof', 'Rostock, Hanse- und Universitätsstadt')
('01200', 'Kabelnetz', 54.0958824731459, 12.1558723137829, 'Erweiterung Glasfasernetz', 'Brinckmansdorf', 'Bei der Knochenmühle', 'Rostock, Hanse- und Universitätsstadt')
('01440', 'Gebäudesanierung', 54.0774081490585, 12.1418502139276, None, 'Stadtmitte', 'Blücherstr.', 'Rostock, Hanse- und Universitätsstadt')
('02030', 'Hochbau', 54.0749544539959, 12.1234076609778, 'Neubau Geschäftshaus', 'Südstadt', 'Erich-Schlesinger-Str.', 'Rostock, Hanse- und Universitätsstadt')
('11200', 'Wasserleitung', 54.1465191416816, 12.1743225812845, 'Herstellung Trinkwassergrundstücksanschluss', 'Nienhagen', 'Max-Garthe-Str.', 'Rostock, Hanse- und Universitätsstadt')
('08100', 'Straßenbau', 54.0906355201709, 12.1540771800013, 'Vermessungsarbeiten auf der Brücke', 'Brinckmansdorf', 'Rövershäger Chaussee', 'Rostock, Hanse- und Univers

Es gibt [verschiedene Typen von Joins](https://www.w3schools.com/sql/sql_join.asp) je nachdem ob man nur die Ergebnisse haben will für die es:
- Einträge in beiden Tabellen gibt (INNER, Default)
- Einträge in mindestens der ersten Tabelle gibt (RIGHT)
- Einträge in mindestens der zweiten Tabelle gibt (LEFT)
- Einträge in mindestens der zweiten Tabelle gibt (OUTER)

Der `NATURAL JOIN` Typen vereinfachen die Schreibarbeit. Beim `NATURAL JOIN` werden dabei die Spalten gematcht, welche identisch heißen. Er funktioniert somit nur wenn die Spalten in den zu matchenden Tabellen identisch heißen und alle anderen Spalten andere Namen haben, was eher seltener der Fall ist.

In [23]:
sqlNJ='''SELECT DISTINCT strasse_schluessel, sparte, latitude, longitude, baumassnahme, gemeindeteil_name, strasse_name, gemeinde_name
       FROM baustellen
       NATURAL JOIN adressenliste, gemeinden;'''
for row in cur.execute(sqlNJ):
    print(row)

('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadtmitte', 'Auf der Huder', 'Malchow, Inselstadt')
('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadtmitte', 'Auf der Huder', 'Bengerstorf')
('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadtmitte', 'Auf der Huder', 'Lewitzrand')
('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadtmitte', 'Auf der Huder', 'Glasin')
('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadtmitte', 'Auf der Huder', 'Zemitz')
('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadtmitte', 'Auf der Huder', 'Benz')
('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadtmitte', 'Auf der Huder', 'Usedom, Stadt')
('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadtmitte', 'Auf der Huder', 'Tribsees, Stadt')
('00930', 'Gebäudesanierung', 54.091014144665, 12.133931209668, None, 'Stadt

:::{warning}
Es funktioniert auch in diesem Beispiel nicht. Es werden zwar Ergebnisse zurück gegeben, allerdings, deutlich mehr als im letzten Join. Die Gemeinden werden hier kreuzkombiniert. Man sieht also, dass der `NATURAL JOIN` mit Vorsicht zu benutzen ist.
:::

## Daten mit SQL und Pandas abfragen und mit GeoJSON visualisieren

Wir haben am Anfang ja die Tabellen in der SQLite Datenbank bereits mit Pandas erzeugt. Wir können Pandas auch nutzen um Daten aus einer SQL Anfrage direkt als Dataframe (Pandas Tabelle) zu laden. 

Fügen wir einmal die Beispiele zusammen und lassen uns alle Baustellen mit Strasse und Gemeinde im ersten Quartal 2023 auf einer Karte anzeigen. Die SQL Abfrage dazu sieht wie folgt aus

In [24]:
sql='''SELECT DISTINCT b.strasse_schluessel, b.sparte, b.latitude, b.longitude, b.baumassnahme, b.baubeginn, b.bauende, a.gemeindeteil_name, a.strasse_name, g.gemeinde_name
       FROM baustellen AS b
       JOIN adressenliste AS a, gemeinden AS g
       WHERE b.strasse_schluessel=a.strasse_schluessel AND a.gemeinde_schluessel=g.gemeinde_schluessel
         AND b.baubeginn >= '2023-01-01 00:00:00+01' AND b.bauende < '2024-04-01 00:00:00+01';'''

Wir führen die SQL Abfrage direkt mit der Pandas Funktion `pd.read_sql(sql, con)` aus und erzeugen uns einen DataFrame der die gewünschten Daten enthält.

In [25]:
baustellen_mit_strasse = pd.read_sql(sql, con)
baustellen_mit_strasse

Unnamed: 0,strasse_schluessel,sparte,latitude,longitude,baumassnahme,baubeginn,bauende,gemeindeteil_name,strasse_name,gemeinde_name
0,00420,Fernwärmeleitung,54.090613,12.110921,Fernwärmeerweiterung,2023-09-25 00:00:00+02,2024-03-01 00:00:00+01,Kröpeliner-Tor-Vorstadt,Am Kabutzenhof,"Rostock, Hanse- und Universitätsstadt"
1,01200,Kabelnetz,54.095882,12.155872,Erweiterung Glasfasernetz,2023-11-27 00:00:00+01,2024-03-28 00:00:00+01,Brinckmansdorf,Bei der Knochenmühle,"Rostock, Hanse- und Universitätsstadt"
2,08100,Straßenbau,54.090636,12.154077,Vermessungsarbeiten auf der Brücke,2023-02-23 00:00:00+01,2024-02-24 00:00:00+01,Brinckmansdorf,Rövershäger Chaussee,"Rostock, Hanse- und Universitätsstadt"
3,08100,Straßenbau,54.090636,12.154077,Vermessungsarbeiten auf der Brücke,2023-02-23 00:00:00+01,2024-02-24 00:00:00+01,Dierkow-Neu,Rövershäger Chaussee,"Rostock, Hanse- und Universitätsstadt"
4,10610,Grünpflege,54.063657,12.120502,Baugruben und Baumpflanzungen,2023-11-27 00:00:00+01,2024-03-01 00:00:00+01,Südstadt,Semmelweisstr.,"Rostock, Hanse- und Universitätsstadt"
...,...,...,...,...,...,...,...,...,...,...
64,13140,Straßenbau,54.137683,12.073129,HAVARIE - Schachteinfall,2024-01-02 11:00:00+01,2024-01-31 16:00:00+01,Schmarl,Am Schmarler Bach,"Rostock, Hanse- und Universitätsstadt"
65,12350,Gasleitung,54.110917,12.061442,Erweiterung Gasversorgung mit Hausanschluss,2023-11-22 07:00:00+01,2024-01-31 18:00:00+01,Evershagen,Heinrich-Böll-Weg,"Rostock, Hanse- und Universitätsstadt"
66,08690,Kabelnetz,54.067983,12.073814,Verlegeung LWL - offene Bauweise,2023-12-04 00:00:00+01,2024-03-01 00:00:00+01,Gartenstadt/Stadtweide,Stadtweide Steinhaus,"Rostock, Hanse- und Universitätsstadt"
67,06850,Gebäudesanierung,54.088502,12.116218,,2024-01-15 00:00:00+01,2024-01-20 00:00:00+01,Kröpeliner-Tor-Vorstadt,Margaretenstr.,"Rostock, Hanse- und Universitätsstadt"



Die Tabelle enthält ja bereits die Latitude und Longitude. Mit dem Paket `pandas_geojson` können wir aus den Dataframe in ein GeoJSON FeatureCollection umwandeln. Wir installieren zuerst das Paket mit pip.

In [26]:
pip install pandas_geojson --quiet

Note: you may need to restart the kernel to use updated packages.


In [27]:
from pandas_geojson import to_geojson

geo_json = to_geojson(df=baustellen_mit_strasse, lat='latitude', lon='longitude',
                 properties=['strasse_name','sparte','baumassnahme', 'baubeginn', 'bauende'])

Jetzt können wir uns die Baustellen  mit dem schon bekannten Paket `geojsonio` auf einer Karte visualisieren.

In [28]:
import json
import geojsonio

geojsonio.display(json.dumps(geo_json))

'http://geojson.io/#data=data:application/json,%7B%22type%22%3A%20%22FeatureCollection%22%2C%20%22features%22%3A%20%5B%7B%22type%22%3A%20%22Feature%22%2C%20%22properties%22%3A%20%7B%22strasse_name%22%3A%20%22Am%20Kabutzenhof%22%2C%20%22sparte%22%3A%20%22Fernw%5Cu00e4rmeleitung%22%2C%20%22baumassnahme%22%3A%20%22Fernw%5Cu00e4rmeerweiterung%22%2C%20%22baubeginn%22%3A%20%222023-09-25%2000%3A00%3A00%2B02%22%2C%20%22bauende%22%3A%20%222024-03-01%2000%3A00%3A00%2B01%22%7D%2C%20%22geometry%22%3A%20%7B%22type%22%3A%20%22Point%22%2C%20%22coordinates%22%3A%20%5B12.1109214841337%2C%2054.0906133339115%5D%7D%7D%2C%20%7B%22type%22%3A%20%22Feature%22%2C%20%22properties%22%3A%20%7B%22strasse_name%22%3A%20%22Bei%20der%20Knochenm%5Cu00fchle%22%2C%20%22sparte%22%3A%20%22Kabelnetz%22%2C%20%22baumassnahme%22%3A%20%22Erweiterung%20Glasfasernetz%22%2C%20%22baubeginn%22%3A%20%222023-11-27%2000%3A00%3A00%2B01%22%2C%20%22bauende%22%3A%20%222024-03-28%2000%3A00%3A00%2B01%22%7D%2C%20%22geometry%22%3A%20%7B%22type

![Baustellen](images/baustellen.png)