# 🚀 SPARQL Übung - Benutzung & Beispiel

```{admonition} Lernziele
:class: lernziele
- Lernende befassen sich mit der maschinellen Abfrage von DAten in Open Data Portalen unter Anwendung von SPARQL
- Lernende praktizieren verschiedene SPARQL Techniken über die API von data.europa
```

**Vorwort**

Das Ziel ist, eine realistische Verwendung der Abfragesprache SPARQL zu demonstieren. Anhand unterschiedlicher Fragestellungen und Beispiele zeigen wir auf, wie unterschiedliche Abfragen gestaltet werden können. Dabei nutzen wir die europäischen Datenplattform (https://data.europa.eu/de). Wie sooft führen viele Wege nach Rom und die Abfragen können je nach persönlichen Vorlieben des/der Benutzers/in variieren. Deswegen schlagen wir einige Alternativen vor.

In diesem Teil widmen wir uns einer praktischen SPARQL-Übung, indem wir uns mit der folgenden Forschungsfrage auseinandersetzen:

**Wie viele Datensätze in der Form von offenen Daten bietet jedes Bundesland an?**

Zunächst widmen wir uns technischen Basis, mit der wir die SPARQL-Abfragen umsetzen werden. Wir arbeiten mit Jupyter Notebook - ein Dateiformat, das es ermöglicht, Erklärtext und Code in verschiedenen Programmiersprachen darzustellen. Somit wird die visuelle Darstellung von echtem Code für die Abfragen, deren Ergebnisse und die Erläuterungen der aufgerufenen Befehle samt anderer Kommentare ermöglicht. 

Somit können wir uns der Analyse der SPARQL-Syntax widmen, indem wir uns die Abfragen für die Forschungsfragen ansehen. Als allererstes muss ein sogenannter "endpoint" definiert werden. Der endpoint ist die maschinelesbare Schnittstelle auf das Repositorium, in dem die Metadaten gespeichert sind, die wir abfragen wollen. Bei der Arbeit mit einem Online-SPARQL-Werkzeug ist die Definition eines endpoints oft nicht nötig, da der schon automatisch definiert ist. Im Portal GOVDATA ist der endpoint die Schnittstelle zum deutschen Open Data Portal [govdata.de](https://www.govdata.de/). 

Für unsere Beispiele wollen wir das europäischen Datenportal durchsuchen. Den finden wir auf der folgenden Webseite - . Danach verwenden den wir folgende "Magic", d.h. einen Befehl, der Teil vom SPARQL-Python-Paket ist, der es uns erlaubt, alle künftigen Abfragen mit unserem endpoint zu verknüpfen.

In [None]:
%endpoint https://data.europa.eu/sparql

: 

Mit dem festgelegten endpoint können wir SPARQL-Abfragen erstellen. Allerdings fragen wir nur die Metadaten ab, die zu den Datensätzen im Portal gespeichert sind. Siehe hierzu Kapitel ... . Bevor wir damit anfangen, möchten wir uns mit der Onthologie der gespeicherten Daten vertraut machen. Der zuvor erklärte Metatenstandard DCAT-AP ist zentral für die Erkundung von den Metadateneigentschaften und definiert die Struktur und den Inhalt der Metadatenfelder - https://www.dcat-ap.de/def/. 
Schauen wir uns nun die Struktur unserer ersten Abfrage an.

In [1]:
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX pg: <https://www.dcat-ap.de/def/politicalGeocoding/>

SELECT ?uri ?title ?contributorid ?stateKey
WHERE {
    ?uri dct:title ?title .
    ?uri dcatde:contributorID ?contributorid .
  OPTIONAL {?uri pg:stateKey ?stateKey} .
}

```{admonition} Erklärung des Codes
:class: hinweis, dropdown

Als erstes sehen wir die sogenannten PREFIXES. Die Prefixes sind ein nützliches Tool, das dabei helfen, auf die diversen Eigenschaften zu verweisen und auf eine abgekürzte Art und Weise die Bezüge zwischen diesen Eigenschaften zu schaffen. Sie sind wichtig für eine einfachere Gestaltung der Abfragen, aber nicht essenziell. Sie helfen lediglich, indem die ganzen Links nicht immer wieder ausgeschrieben werden müssen, und ermöglichen nur die Angabe von den Endungen nach den Prefixes. Alles wird klarer, wenn wir uns den WHERE-Abschnitt ansehen.

Weiterhin gibt es den SELECT-Befehl. SELECT wählt die Properties bzw. die Eigenschaften, die aufgelistet werden sollen. Jede Eigenschaft entspricht einer Spalte, die in der Tabelle mit Ergebnissen zu sehen ist. Da im SELECT-Befehl die folgenden 3 Properties ausgeschrieben werden - ?uri ?title ?contributorid ?stateKey - bekommen wir die URIs, die Titel, die Namen der Datenbereitsteller und das Kürzel des jeweiligen Landes, aus dem der Datensatz stammt.

Die genauen Benennungen der Properties (Labels) werden im DCAT-AP-Handbuch definiert, auf das wir zurückgreifen müssen, um die genauen Labels für jede Property zu finden.

Was Ihnen noch auffallen könnte ist, dass die Spalte für das Bundesland (stateKey) leer ist. Leider liegt das daran, dass das Land nicht codiert worden ist. Somit bleiben diese Felder leer. Dies ist ein klares Beispiel für lückenhaftes Metadatenmanagement, das die Beantowrtung unserer Forschungsfrage erschwert. In der Praxis kommt es oft zu Fällen, in denen Abfragen nicht sehr erfolgreich sind, wegen unvollständigen Metadatenbeschreibungen. 

Als nächstes haben wir den Kern jeder SPARQL-Abfrage - den WHERE-Befehl. Der WHERE-Befehl definiert die Beobachtungen, die aufgelistet werden sollen, indem die Bedingungen definiert werden. Somit werden nur die Beobachtungen aufgelistet, die alle Bedungungen erfüllen. In der Abfrage ist auch OPTIONAL zu sehen - dies besagt, dass die folgende Bedingung nicht zwingend zu erfüllen ist. Das bedeutet, dass selbst die Beobachtungen, in unserem Fall die Datensätze, in der Liste stehen, die keine Ausprägung für die Eigentschaft stateKey (Verweis auf Land) haben. Da leider stateKey nicht mit codiert ist, können wir uns alle Datensätze ansehen, die auf die anderen Bedingungen treffen (URI, Titel und ID der Bereitsteller), ohne dass wir eine leere Liste bekommen. OPTIONAL ist ein gutes Werkzeug, das benutzt werden kann, wenn man sich nicht sicher ist, ob jeweiligen Properties ordentlich codiert sind.

Was wahrscheinlich noch auffällt ist, dass in jeder Zeile in der WHERE-Funktion 3 Elemente zu sehen sind. Diese Struktur ist essentiell für die SPARQL-Sprache - durch die sogenannten "triplets" werden Bezüge zwischen den Eigenschaften erstellt. Jede Zeile bestimmt einen Bezug zwischen 2 Eigenschaften. Die erste Eigenschaft ist somit das Subjekt (S), das zweite Element - der Bezug, der aus einem Prefix und einer zusätzlichen Spezifizierung besteht, heißt das Prädikat (P), und das dritte - die zweite Eigenschaft, ist das Objekt (O). P entspricht einem Link, der darauf verweist, wo die zweite Eigentschaft zu finden ist. Die Einordnung der Eigenschaften ist nach dem W3C-Standard, der schon *in einem früheren Kapitel erklärt wurde*, definiert. In dem DCAT-AP-Handbuch ist dann die genaue Verortung von jeder Eingenschaft zu finden. Durch die Triplets fragen wir genau ab, welche Datensätze wir erfragen wollen, je nach den Bedingungen, die solche Datensätze erfüllen sollen. Mit unserer Abfrage suchen wir die Datensätze ab, die einen Titel, ein URI, einen mitcodierten Datenbereitsteller, und wenn vorhanden, einen Schlüssel für das Bundesland, haben, was leider bei keinem der Datensätze der Fall ist. Es lässt sich darauf schließen, dass diese Felder nicht verpflichtend ausgefüllt werden müssen. 

Wichtig zu bedenken ist, dass SPARQL leider keine Paginierungsfunktion unterstützt. Man muss es in der Regel auf Anwendungsebene handhaben, da SPARQL von sich aus nicht das Durchblättern von Ergebnissen wie eine Weboberfläche unterstützt. Stattdessen muss die Paginierung manuell durch die Verwendung von LIMIT und OFFSET in den Abfragen implementiert werden. Dies erfordert eine zusätzliche Logik in der Anwendung, um die aktuelle Seite Ausgabe vollständig zu sehen. 

Leider konnten wir unsere Fragestellung wegen mangelhafter Daten nicht ganz beantworten. Deshalb versuchen wir, unsere Fragestellung zu ändern und zusätzliche Beispiele von SPARQL-Abfragen damit aufzuzeigen.
```

Somit lautet unsere neue Fragestellung also:

**Welche sind die Datensätze, die das Wort "Baumkataster" im Titel beinhalten und im Zeitabschnitt 2022-2024 erschienen sind? Welche sind die Bereitsteller, die jene Datensätze liefern? In welchen Formaten kommen die Datensätze vor?** 

Hierbei ist es wichtig zu erwähnen, dass SPARQL über keine native Paginierungsfunktion verfügt. Dies besagt, dass man leider nicht die Ergebnisse durchblättern kann. Gewöhnlicherweise wird das über die UI-Funktionalitäten umgesetzt - ein Merkmal davon, wie rudimentär SPARQL in ihrer Basis ist. Deswegen muss man in der Abfrage zusätzlich spezifizieren, welche Ergebnisse bzw. Seiten aufgelistet werden sollen.

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>

SELECT ?uri ?title ?contributorid ?modified WHERE {
    {
        SELECT ?uri ?title ?contributorid ?modified WHERE {
            ?uri dct:title ?title .
            ?uri dcatde:contributorID ?contributorid .
            ?uri dct:modified ?modified .
            FILTER(isURI(?contributorid))
            FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))       
            FILTER(CONTAINS(LCASE(?title), "baumkataster"))
            FILTER(CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
        }
    }
}

uri,title,contributorid,modified
http://data.europa.eu/88u/dataset/73c5a6b3-c033-4dad-bb7d-8783427dd233,Baumkataster Frankfurt am Main,http://dcat-ap.de/def/contributors/stadtFrankfurtAmMain,2023-08-23T05:44:14.694853
http://data.europa.eu/88u/dataset/fcdceb2e-d16d-410c-ba0f-521ba8c6effa,Fachpläne - Baumkataster,http://dcat-ap.de/def/contributors/datenBW,2024-08-15T08:37:08.728790
http://data.europa.eu/88u/dataset/c1c61928-c602-4e37-af31-2d23901e2540,Straßenbaumkataster Hamburg,http://dcat-ap.de/def/contributors/transparenzportalHamburg,2024-08-09T00:10:58.572825
http://data.europa.eu/88u/dataset/19676799-fedb-4d1a-a89a-26fba887b3f0~~2,Straßenbaumkataster Hamburger Hafen,http://dcat-ap.de/def/contributors/transparenzportalHamburg,2024-08-08T03:15:01.540503
http://data.europa.eu/88u/dataset/5f0aaf45-f380-49b3-87be-51abaddacbe0,Baumkataster Norderstedt,http://dcat-ap.de/def/contributors/schleswigHolstein,2022-04-12T07:58:22.519048
http://data.europa.eu/88u/dataset/cfbe70e6-6078-42db-8c9b-f8745ee8916e,Baumkataster,http://dcat-ap.de/def/contributors/schleswigHolstein,2023-06-09T05:25:52.631385
http://data.europa.eu/88u/dataset/b16bb333-26ca-4743-9663-723d63f57259,Digitales Baumkataster Münster,http://dcat-ap.de/def/contributors/openNRW,2023-01-24T13:05:20+01:00
http://data.europa.eu/88u/dataset/200e532c-a381-4611-ba05-4ed7afc31230,Baumkataster des ASG Wesel,http://dcat-ap.de/def/contributors/openNRW,2024-05-28T11:46:06.401383
http://data.europa.eu/88u/dataset/baumkataster_stadt_wuerzburg-wuerzburg,Baumkataster der Stadt Würzburg,http://dcat-ap.de/def/contributors/openDataBayern,2024-07-19T08:18:59.213Z
http://data.europa.eu/88u/dataset/9b439a59-62b0-4ada-9976-08a631a96b82,Baumkataster,http://dcat-ap.de/def/contributors/datenBW,2024-07-19T15:15:21+02:00


In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>

SELECT ?uri ?title ?contributorid ?modified WHERE {
    {
        SELECT ?uri ?title ?contributorid ?modified WHERE {
            ?uri dct:title ?title .
            ?uri dcatde:contributorID ?contributorid .
            ?uri dct:modified ?modified .
            FILTER(isURI(?contributorid))
            FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))       
            FILTER(CONTAINS(LCASE(?title), "baumkataster"))
            FILTER(CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
        }
                LIMIT 6 OFFSET 20
    }
}

uri,title,contributorid,modified
http://data.europa.eu/88u/dataset/https-open-bydata-de-api-hub-repo-datasets-baumkataster-der-stadt-erlangen,Baumkataster der Stadt Erlangen,http://dcat-ap.de/def/contributors/stadtErlangen,2024-04-11T05:39:58.589234
http://data.europa.eu/88u/dataset/7a9f509a-9fb0-4c3c-a2d2-4cdd980e5e33,Baumkataster der Hansestadt Lübeck,http://dcat-ap.de/def/contributors/schleswigHolstein,2024-07-12T08:18:04.701795
http://data.europa.eu/88u/dataset/0056a74a-6153-440f-a68f-aaea93a3bf25,Baumkataster Koeln 2017,http://dcat-ap.de/def/contributors/openNRW,2024-06-25T08:34:10+02:00
http://data.europa.eu/88u/dataset/baumkat_01,Baumkataster,http://dcat-ap.de/def/contributors/openDataBayern,2024-08-06T00:00:00
http://data.europa.eu/88u/dataset/707312588959944704,Baumkataster Bundeseisenbahnvermögen (BEV),http://dcat-ap.de/def/contributors/mobilithek,2024-03-22T08:06:33.317


Die Abfrage mit LIMIT 6 OFFSET 20 gibt uns genau die Ergebnisse 21 bis 26 zurück. Wenn man also die Anzahl der zurückgegebenen Ergebnisse begrenzen möchte, ist es sinnvoll, LIMIT zu verwenden.

```{admonition} Erklärung des Codes
:class: hinweis, dropdown
Da wir uns schon mit der Struktur einer SPARQL-Abfrage auseinandergesetzt haben, können wir schon viel von der obigen ablesen. Erstmal haben wir den definierten Endpunkt, den wir nennen müssen, um auf den Standort der Metadaten hinzuweisen. Danach beschreiben wir die Prefixes, die unsere Verlinkungen in dem WHERE-Teil erleichtern. Neu hier ist der PREFIX dcatde - hier sind alle Eigentschaften verortet, die spezifisch für aus Deutschland stammende Datensätze sind. Wir verweisen somit auf contributorid - hier ist die Information über die Datenbereitsteller gespeichert. Die andere neue Eigenschaft ist modified, was besagt, wann zum letzen der jeweilige Datensatz bearbeitet worden ist. Diese Eigenschaft gibt die aktuellste Auskunft darüber, aus welchem Jahr der Datensatz stammt. Eine andere neue Bedingung, die in der Absprache zu finden ist, wäre FILTER. FILTER beschreibt eine spezifische Bedingung, die zwingend zu erfüllen ist, und somit schränkt die Ergebnisse darauf ein. Somit lassen wir uns Ergebnisse angeben, die ihre contributorid ausschließlich als URI haben und zwar die mit "http://dcat-ap.de/def/contributors/" anfangen. Das schließt alle leerstehende Ausprägungen und auch solche, die nicht in der Form von URIs sind. Wichtig sind auch die Befehle strstarts und str. Die Funktion str() konvertiert den Wert der Variable ?contributorid in einen String. In SPARQL-Abfragen werden Variablen oft als IRIs (Internationalized Resource Identifiers) dargestellt, also als URLs. Die Funktion str() nimmt diesen IRI und wandelt ihn in eine einfache Zeichenkette (String) um. Die Funktion strstarts() überprüft, ob ein gegebener String mit einer bestimmten Zeichenkette beginnt. Für die Eigenschaft modified legen wir fest, welche Jahre in der Form einer vierstelligen Zahl in der Zeichenkette sein sollten, also 2022, 2023, 2024.
```

Als nächstes wollen wir uns eine Liste von den Datenbereitstellern ansehen, sowie die Anzahl an Datensätzen je Bereitsteller. Damit können wir herausfinden, welcher Bereitstellende "am produktivsten" ist. 

In [None]:
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?contributorID (COUNT(DISTINCT ?datasetTitle) AS ?uniqueDatasetTitleCount)
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  FILTER(CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
}
GROUP BY ?contributorID

contributorID,uniqueDatasetTitleCount
http://dcat-ap.de/def/contributors/gdiDE,1
https://offenedaten-konstanz.de/,1
http://dcat-ap.de/def/contributors/schleswigHolstein,3
http://dcat-ap.de/def/contributors/openNRW,5
http://dcat-ap.de/def/contributors/openDataBayern,5
http://dcat-ap.de/def/contributors/stadtFrankfurtAmMain,1
http://dcat-ap.de/def/contributors/mobilithek,1
https://gdi-sh.de,1
http://dcat-ap.de/def/contributors/freistaatSachsen,1
http://dcat-ap.de/def/contributors/stadtErlangen,1


```{admonition} Erklärung des Codes
:class: hinweis, dropdown
Der COUNT Befehl in SPARQL wird verwendet, um die Anzahl der Ergebnisse zu zählen, die eine bestimmte Bedingung erfüllen. Der AS Befehl folgt dem COUNT und dient dazu, das Ergebnis der Zählung einer Variablen zuzuweisen, die dann im Ergebnis verwendet werden kann. DISTINCT gibt an, dass nur eindeutige (DISTINCT) Werte der Variable ?datasetTitle gezählt werden sollen. AS ?uniqueDatasetTitleCount  weist das Ergebnis der Zählung der Variable ?uniqueDatasetTitleCount zu. Diese Variable kann dann im Ergebnis verwendet werden, um die Anzahl der eindeutigen datasetTitle für jeden contributorID anzuzeigen. Die Bedingung (LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") wird verwendet, um sicherzustellen, dass nur Titel (?datasetTitle) ausgewählt werden, die entweder keine Sprachinformation haben oder explizit als Deutsch ("de") gekennzeichnet sind. Die Bedingung für das Aufnehmen von Ergebnisse mit keiner Sprachinformation ist auch wichtig, da nicht alle Datenbereitsteller Information über die Sprache des Datensatzes einschließen. Die Bedingung, dass nur Datensätze als jene auf Deutsch aufgelistet werden sollen, ist vielleicht in diesem Fall überflüssig, denn das Wort "Baumkataster" sollte auch erwähnt werden, also ein deutsches Wort. Trotzdem wollen wir diese Funktion hierbei hervorheben, weil wir später davon Gebrauch machen.
```

Es erweist sich, dass die Datenbereitsteller Open Data Bayern und Open NRW, also die zwei deutsche Bundesländer, die größte Anzahl an Datensätzen leisten, mit jeweils 5. Das Ergebnis dieser Aufsummierung klingt plausibel, da Bayern und NRW die zwei größten Bundesländer in Deutschland sind.

In [None]:
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?contributorID (COUNT(DISTINCT ?format) AS ?formatCount)
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  OPTIONAL { ?datasetURI dcat:catalog ?catalog. }
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  FILTER(CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))

  ?datasetURI dcat:distribution ?distribution.
  ?distribution dct:format ?format.
}
GROUP BY ?contributorID

contributorID,formatCount
http://dcat-ap.de/def/contributors/gdiDE,2
https://offenedaten-konstanz.de/,2
http://dcat-ap.de/def/contributors/schleswigHolstein,4
http://dcat-ap.de/def/contributors/openNRW,26
http://dcat-ap.de/def/contributors/openDataBayern,21
http://dcat-ap.de/def/contributors/stadtFrankfurtAmMain,1
http://dcat-ap.de/def/contributors/mobilithek,1
https://gdi-sh.de,3
http://dcat-ap.de/def/contributors/freistaatSachsen,2
http://dcat-ap.de/def/contributors/stadtErlangen,1


Anbei auch die Ergebnisse der aufsummierten Datenformate je Datenbereitsteller. Nicht überraschend festzustellen ist, dass NRW und Bayern die breitesten Auswahl an Datenformaten leisten. Damit wird nicht impliziert, dass alle Datensätze in jeweils jedem Format vorhanden sind. Jedoch dient das als eine Maß für Flexibilität. 