# SPARQL Übung - Benutzung & Beispiel

In diesem Teil widmen uns einer praktischen SPARQL-Übung, indem wir uns mit der folgenden Forschungsfrage auseinandersetzen:

**Wie viele Datensätze in der Form von offenen Daten bietet jedes Bundesland an?**

Das Ziel ist, eine realistische Verwendung der Abfragesprache darzustellen. Bevor wir solch ein Beispiel aufweisen, müssen wir bestimmen, welches Verfahren für die Gestaltung und Versand für Abfragen benutzt werden sollte. Die Handhabung davon hängt meistens von der persönlichen Bevorzugung des/der Benutzers/in. Deswegen schlagen wir einige Alternativen vor.

Der erste Weg is derjenige, mithilfe dessen dieses ganze Materiail samt seiner Code-Anteile angefertigt worden ist. Es handelt sich um das Jupyter Notebook - ein Dateiformat, das die zeitgleiche Einwebung von  Fließtext und Codeanteilen von diversen Programmiersprachen erlaubt. Somit wird die visuelle Darstellung von echtem Code, der für die Gestaltung von Abfragen verwendet wird, derer Ergebnissen und den Erläuterungen der aufgerufenen Befehle samt anderer Kommentare ermöglicht.  

Die Jupyter-Notebook-Ausweitung lautet .ipynb . Durch die Erstellung einer normalen .txt-Datei kann man dann die Ausweitung ändern. Darüber hinaus bräuchte man ein beliebiges Bearbeitungsprogramm, mit Hilfe dessen man intuitiv, bequem und entspannt arbeiten kann. Dafür eignet sich Microsoft Visual Studio Code (VSC) ganz gut. VSC ist einer der gängigsten Editors im heutigen Programmierbereich und bietet  Möglichkeiten für die intuitive Bearbeitung und Verwaltung von Dateien in unterschiedlichsten Programmiersprachen. Für die Integrierung von SPARQL-Abfragen benötigt man aber auch einen Kernel - ein Motor, der auf die Programmiersprache bezogen ist und es erlaubt, die Ergebnisse der Abfrate aufweisen zu lassen. Die Aufgabe ist somit erstmal einen entwickelten SPARQL-Kernel zu finden und dann herunterzuladen. Glücklicherweise gibt es schon einen entwickelten SPARQL-Kernel, der auf der Basis von Python funktioniert. Hiermit verweisen wir auf der Git-Hub-Seite des Kernels, auf der die ganzen Informationen dazu stehen, wie er zu installieren ist - https://github.com/paulovn/sparql-kernel . 

Frage: das ganze Prozess des Installierens beschreiben / auf andere Seiten verweisen?, bzw. auf einen externen Editor alle Abfragen aufbauen

Nichtsdestotrotz, es bedarf nicht zwingend eines Kernels und der Arbeit mit einem lokalen Editor für die Gestaltung von SPARQL-Abfragen, da es schon mehrere Online-Werkzeuge gibt, die die vollständige Benutzung von SPARQL erlauben. Selbst das deutsche Open-Data-Portal GOVDATA bietet einen SPARQL-Assistenten - https://www.govdata.de/web/guest/sparql-assistent . Damit kann man online arbeiten und sich die Mühe sparen, indem man auf die Arbeit mit einem Editor und einem Kernel verzichtet. 

Somit können wir uns der Analyse der SPARQL-Syntax widmen, indem wir uns die Abfragen für die Forschungsfragen ansehen. Als allererstes muss ein Endepunkt definiert werden. Der Endepunkt bestimmt das maschinelesbare Verweis auf das Repositorium, in dem die Metadaten aufbewahrt sind. Bei der Arbeit mit einem Online-SPARQL-Werkzeug ist die Definierung eines Endpunkts oft nicht nötig, da der schon automatisch definiert ist. Im Portal GOVDATA ist der Endepunkt natürlich der Verweis auf das Repositorium mit allen Metadaten für die Datensätze, die auch über die interne Suchmaschine zu finden sind. 

Für unsere Beispiele wollen wir das deutsche Datenportal GOVDATA durchstöbern. Dafür müssen wir uns den Endpunkt des europäischen Datenportal holen. Den finden wir auf der folgenden Webseite - . Danach verwenden den wir folgende Magic, d.h. einen Befehl, der Teil vom SPARQL-Python-Paket ist, die uns erlaubt, alle künftigen Abfragen mit unserem Endpunkt zu verknüpfen.

In [2]:
%endpoint https://data.europa.eu/sparql

Mit dem festgelegten Endpunkt können wir schon SPARQL-Abfragen errichten, indem wir Metadaten aus dem Portal erfragen. Bevor wir damit anfangen, wäre es eine gute Idee, sich mit der Onthologie bekanntzumachen. Das früher schon erklärte Konzept von DCAT-AP ist zentral für die Entdeckung von den Metadateneigentschaften und dient als das Stanard für die Referenzliste von Properties - https://www.dcat-ap.de/def/. Somit können wir uns schon die Struktur einer Abfrage anschauen.

In [3]:
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX pg: <https://www.dcat-ap.de/def/politicalGeocoding/>

SELECT ?uri ?title ?contributorid ?stateKey
WHERE {
    ?uri dct:title ?title .
    ?uri dcatde:contributorID ?contributorid .
  OPTIONAL {?uri pg:stateKey ?stateKey} .
}

uri,title,contributorid,stateKey
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitale Topographische Karte 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/landBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitale Topographische Karte 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b911982d-33ef-408c-8840-96a0702021db~~1,Topographische Karte 1 : 25 000 - Ausgabe Staat (1981-1989) N-33-123-B-c Berlin (West)-Charlottenburg,http://dcat-ap.de/def/contributors/landBrandenburg,
http://data.europa.eu/88u/dataset/b911982d-33ef-408c-8840-96a0702021db~~1,Topographische Karte 1 : 25 000 - Ausgabe Staat (1981-1989) N-33-123-B-c Berlin (West)-Charlottenburg,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/cedcb7b0-fa9e-4ea1-ab8f-8a0f1aa78eeb~~1,Topographische Karte 1 : 50 000 - Ausgabe Volkswirtschaft (1974-1982) 0610-2 Gartz (Oder),http://dcat-ap.de/def/contributors/landBrandenburg,
http://data.europa.eu/88u/dataset/cedcb7b0-fa9e-4ea1-ab8f-8a0f1aa78eeb~~1,Topographische Karte 1 : 50 000 - Ausgabe Volkswirtschaft (1974-1982) 0610-2 Gartz (Oder),http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/fca0911a-e84c-498c-823e-19e0225b0c46,Topographische Karte 1 : 50 000 - L2946 Templin,http://dcat-ap.de/def/contributors/landBrandenburg,
http://data.europa.eu/88u/dataset/fca0911a-e84c-498c-823e-19e0225b0c46,Topographische Karte 1 : 50 000 - L2946 Templin,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/5251cc02-187b-45e5-9a5e-d5298a4aaf39,Digitale Topographische Karte 1 : 100 000 - C2734 Parchim,http://dcat-ap.de/def/contributors/landBrandenburg,
http://data.europa.eu/88u/dataset/5251cc02-187b-45e5-9a5e-d5298a4aaf39,Digitale Topographische Karte 1 : 100 000 - C2734 Parchim,http://dcat-ap.de/def/contributors/openDataBrandenburg,


Als erstes sehen wir die sogenannten PREFIXES. Die Prefixes sind ein nützliches Tool, das dabei helfen, auf die diversen Eigenschaftenkategorien zu verweisen und auf eine abgekürzte Art und Weise die Bezüge zwischen jenen Eigenschaften zu schaffen. Die sind wichtig für eine eifachere Gestaltung der Abfragen, sind aber nicht nötig und somit kein essenzielles Element davon. Sie helfen lediglich, indem die ganzen Links nicht immer wieder ausgeschrieben werden müssen, und ermöglichen nur die Angabe von den Endungen nach den Prefixes. Alles wird klarer, wenn wir uns den WHERE-Abschnitt ansehen. 

Zuvor gibt es aber den SELECT-Befehl. SELECT wählt die Properties bzw. die Eigentschaften, die aufgelistet werden sollen. Jede Eigenschaft entspricht einer Spalte, die in der Tabelle mit Ergebnissen zu sehen ist. Da in der SELECT-Befehl die folgenden 3 Properties ausgeschrieben werden - ?uri ?title ?contributorid ?stateKey, bekommen wir die URIs, die Titel, die Namen der Datebereitsteller und der Kürzel des jeweiligen Lands, aus dem der Datensatz stammt. Die genauen Benennungen der Properties könnte man nicht ahnen - die stehen fest in der Ontologie vergeben. Deswegen bräuchte man oft auf das Handbuch DCAT-AP sich zu beziehen, um die genauen Labels für jede Property zu finden. Was noch Ihnen auffallen könnte, ist das die Spalte für Bundesland (stateKey) leersteht. Leider ist das wegen der Ursache, dass das Land nicht mit codiert worden ist. Somit stehen diese Felder leer. Das ist ein klares Beispiel für lückenhaftes Metadatenmanagement, das die Beantowrtung unserer Forschungsfrage erschwierigt. In der Praxis kommt es oft zu Fällen, in denen Abfragen nicht sehr erfolgreich wegen unvollkommenes Harvestings oder unvoller Datebanken ist. Man sollte damit rechnen können. 

Als nächstes haben wir den Kern jeder SPARQL-Abfrage - den WHERE-Befehl. Die WHERE-Befehl definiert die Beobachtungen, die aufgelistet werden sollen, indem die Bedingungen ausgeschrieben werden. Somit werden nur die Beobachtungen aufgelistet, die alle Bedungungen erfüllen. In der Abfrage ist auch OPTIONAL zu sehen - dies besagt, dass die folgende Bedingung nicht zwingend zu erfüllen ist. Das bedeutet, dass selbst die Beobachtungen, in unserem Fall die Datensätze, in der Liste stehen, die keine Ausprägung für die Eigentschaft stateKey (Verweis auf Land) haben. Da leider stateKey nicht mit codiert ist, können wir uns alle Datensätze ansehen, die auf die anderen Bedingungen treffen (URI, Titel und ID der Bereitsteller), ohne dass wir eine leere Liste bekommen. OPTIONAL ist ein gutes Werkzeug, das benutzt werden kann, wenn man sich nicht sicher ist, ob gewisse Properties ordentlich codiert sind.

Was wahrscheinlich Ihnen auch auffällt ist, dass in jeder Zeile in der WHERE-Funktion 3 Elemente zu sehen sind. Diese Struktur ist essentiell für die SPARQL-Sprache - durch die sogenannten "triplets" werden Bezüge zwischen den Eigenschaften erstellt. Jede Zeile bestimmt einen Bezug zwischen 2 Eigenschaften. Die erste Eigenschaft ist somit das Subjekt (S), das zweite Element - der Bezug, der aus einem Prefix und einer zusätzlichen Spezifizierung besteht, heißt das Prädikat (P), und das dritte - die zweite Eigenschaft, ist das Objekt (O). P entspricht einem Link, der darauf verweist, wo die zweite Eigentschaft zu finden ist. Die Einordnung der Eigenschaften ist nach dem W3C-Standard, das schon in einem früheren Kapitel erklärt wurde, definiert. In dem DCAT-AP-Handbuch ist dann die genaue Verortung von jeder Eingenschaft zu finden. Durch die Triplets fragen wir genau ab, welche Datensätze wir erfragen wollen, je nach den Bedingungen, die solche Datensätze erfüllen sollen. Mit unserer Abfrage suchen wir die Datensätze ab, die einen Titel, ein URI, einen mitcodierten Datenbereitsteller, und wenn vorhanden, einen Schlüssel für das Bundesland, haben, was leider bei keinen Datensätzen der Fall ist. Es lässt sich einfach ableiten, dass diese Bedingungen nicht so strikt ist. Trotzdem konnten wir unsere Fragestellung wegen mangelhafter Daten nicht ganz befriedigen. Jedoch kann man viel spezifischer sein. Wir würden also versuchen, unsere Fragestellung zu ändern und zusätzliche Beispiele von SPARQL aufzuzeigen.

Wichtig zu bedenken ist, dass SPARQL leider keine Paginierungsfunktion unterstützt. Man muss es in der Regel auf Anwendungsebene handhaben, da SPARQL von sich aus nicht das Durchblättern von Ergebnissen wie eine Weboberfläche unterstützt.Stattdessen muss die Paginierung manuell durch die Verwendung von LIMIT und OFFSET in den Abfragen implementiert werden. Dies erfordert eine zusätzliche Logik in der Anwendung, um die aktuelle Seite zu verfolgen und die richtigen Offset-Werte zu berechnen. 

Somit lautet unsere neue Fragestellung also:

Welche sind die Datensätze, die das Wort "Baumkataster" im Titel beinhalten und im Zeitschnitt 2022-2024 erschienen sind? Welche sind die Bereitsteller, die jene Datensätze liefern? In welchen Formaten kommen die Datensätze vor? 

In [4]:
%endpoint https://data.europa.eu/sparql
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>

SELECT ?uri ?title ?contributorid ?modified WHERE {
    {
        SELECT ?uri ?title ?contributorid ?modified WHERE {
            ?uri dct:title ?title .
            ?uri dcatde:contributorID ?contributorid .
            ?uri dct:modified ?modified .
            FILTER(isURI(?contributorid))
            FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))       
            FILTER(CONTAINS(LCASE(?title), "baumkataster"))
            FILTER(CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
        }
    }
}

uri,title,contributorid,modified
http://data.europa.eu/88u/dataset/73c5a6b3-c033-4dad-bb7d-8783427dd233,Baumkataster Frankfurt am Main,http://dcat-ap.de/def/contributors/stadtFrankfurtAmMain,2023-08-23T05:44:14.694853
http://data.europa.eu/88u/dataset/fcdceb2e-d16d-410c-ba0f-521ba8c6effa,Fachpläne - Baumkataster,http://dcat-ap.de/def/contributors/datenBW,2024-08-15T08:37:08.728790
http://data.europa.eu/88u/dataset/c1c61928-c602-4e37-af31-2d23901e2540,Straßenbaumkataster Hamburg,http://dcat-ap.de/def/contributors/transparenzportalHamburg,2024-08-09T00:10:58.572825
http://data.europa.eu/88u/dataset/19676799-fedb-4d1a-a89a-26fba887b3f0~~2,Straßenbaumkataster Hamburger Hafen,http://dcat-ap.de/def/contributors/transparenzportalHamburg,2024-08-08T03:15:01.540503
http://data.europa.eu/88u/dataset/5f0aaf45-f380-49b3-87be-51abaddacbe0,Baumkataster Norderstedt,http://dcat-ap.de/def/contributors/schleswigHolstein,2022-04-12T07:58:22.519048
http://data.europa.eu/88u/dataset/cfbe70e6-6078-42db-8c9b-f8745ee8916e,Baumkataster,http://dcat-ap.de/def/contributors/schleswigHolstein,2023-06-09T05:25:52.631385
http://data.europa.eu/88u/dataset/b16bb333-26ca-4743-9663-723d63f57259,Digitales Baumkataster Münster,http://dcat-ap.de/def/contributors/openNRW,2023-01-24T13:05:20+01:00
http://data.europa.eu/88u/dataset/200e532c-a381-4611-ba05-4ed7afc31230,Baumkataster des ASG Wesel,http://dcat-ap.de/def/contributors/openNRW,2024-05-28T11:46:06.401383
http://data.europa.eu/88u/dataset/baumkataster_stadt_wuerzburg-wuerzburg,Baumkataster der Stadt Würzburg,http://dcat-ap.de/def/contributors/openDataBayern,2024-07-19T08:18:59.213Z
http://data.europa.eu/88u/dataset/9b439a59-62b0-4ada-9976-08a631a96b82,Baumkataster,http://dcat-ap.de/def/contributors/datenBW,2024-07-19T15:15:21+02:00


In [12]:
%endpoint https://data.europa.eu/sparql
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>

SELECT ?uri ?title ?contributorid ?modified WHERE {
    {
        SELECT ?uri ?title ?contributorid ?modified WHERE {
            ?uri dct:title ?title .
            ?uri dcatde:contributorID ?contributorid .
            ?uri dct:modified ?modified .
            FILTER(isURI(?contributorid))
            FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))       
            FILTER(CONTAINS(LCASE(?title), "baumkataster"))
            FILTER(CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
        }
                LIMIT 6 OFFSET 20
    }
}

uri,title,contributorid,modified
http://data.europa.eu/88u/dataset/https-open-bydata-de-api-hub-repo-datasets-baumkataster-der-stadt-erlangen,Baumkataster der Stadt Erlangen,http://dcat-ap.de/def/contributors/stadtErlangen,2024-04-11T05:39:58.589234
http://data.europa.eu/88u/dataset/7a9f509a-9fb0-4c3c-a2d2-4cdd980e5e33,Baumkataster der Hansestadt Lübeck,http://dcat-ap.de/def/contributors/schleswigHolstein,2024-07-12T08:18:04.701795
http://data.europa.eu/88u/dataset/0056a74a-6153-440f-a68f-aaea93a3bf25,Baumkataster Koeln 2017,http://dcat-ap.de/def/contributors/openNRW,2024-06-25T08:34:10+02:00
http://data.europa.eu/88u/dataset/baumkat_01,Baumkataster,http://dcat-ap.de/def/contributors/openDataBayern,2024-08-06T00:00:00
http://data.europa.eu/88u/dataset/707312588959944704,Baumkataster Bundeseisenbahnvermögen (BEV),http://dcat-ap.de/def/contributors/mobilithek,2024-03-22T08:06:33.317


Die Abfrage mit LIMIT 6 OFFSET 20 gibt ir genau die Ergebnisse 21 bis 26 zurück. Wenn man also die Anzahl der zurückgegebenen Ergebnisse begrenzen möchte, ist es sinnvoll, LIMIT zu verwenden.

Da wir uns schon mit der Struktur einer SPARQL-Abfrage auseinandergesetzt haben, können wir schon viel von der obigen ablesen. Erstmal haben wir den definierten Endpunkt, den wir nennen müssen, um auf den Standort der Metadaten hinzuweisen. Danach beschreiben wir die Prefixes, die unsere Verlinkungen in dem WHERE-Teil erleichtern. Neu hier ist der PREFIX dcatde - hier sind alle Eigentschaften verortet, die spezifisch für aus Deutschland stammende Datensätze sind. Wir verweisen somit auf contributorid - hier ist die Information über die Datenbereitsteller gespeichert. Die andere neue Eigenschaft ist modified, was besagt, wann zum letzen der jeweilige Datensatz bearbeitet worden ist. Diese Eigenschaft gibt die aktuellste Auskunft darüber, aus welchem Jahr der Datensatz stammt. Eine andere neue Bedingung, die in der Absprache zu finden ist, wäre FILTER. FILTER beschreibt eine spezifische Bedingung, die zwingend zu erfüllen ist, und somit schränkt die Ergebnisse darauf ein. Somit lassen wir uns Ergebnisse angeben, die ihre contributorid ausschließlich als URI haben und zwar die mit "http://dcat-ap.de/def/contributors/" anfangen. Das schließt alle leerstehende Ausprägungen und auch solche, die nicht in der Form von URIs sind. Wichtig sind auch die Befehle strstarts und str. Die Funktion str() konvertiert den Wert der Variable ?contributorid in einen String. In SPARQL-Abfragen werden Variablen oft als IRIs (Internationalized Resource Identifiers) dargestellt, also als URLs. Die Funktion str() nimmt diesen IRI und wandelt ihn in eine einfache Zeichenkette (String) um. Die Funktion strstarts() überprüft, ob ein gegebener String mit einer bestimmten Zeichenkette beginnt. Für die Eigenschaft modified legen wir fest, welche Jahre in der Form einer vierstelligen Zahl in der Zeichenkette sein sollten, also 2022, 2023, 2024. 

Als nächstes wollen wir uns eine Liste von den Datenbereitstellern ansehen, sowie die Anzahl an Datensätzen je Bereitsteller. Damit können wir herausfinden, welcher Bereitstellende "am produktivsten" ist. 

In [10]:
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?contributorID (COUNT(DISTINCT ?datasetTitle) AS ?uniqueDatasetTitleCount)
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  FILTER(CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
}
GROUP BY ?contributorID

contributorID,uniqueDatasetTitleCount
http://dcat-ap.de/def/contributors/gdiDE,1
https://offenedaten-konstanz.de/,1
http://dcat-ap.de/def/contributors/schleswigHolstein,3
http://dcat-ap.de/def/contributors/openNRW,5
http://dcat-ap.de/def/contributors/openDataBayern,5
http://dcat-ap.de/def/contributors/stadtFrankfurtAmMain,1
http://dcat-ap.de/def/contributors/mobilithek,1
https://gdi-sh.de,1
http://dcat-ap.de/def/contributors/freistaatSachsen,1
http://dcat-ap.de/def/contributors/stadtErlangen,1


Der COUNT Befehl in SPARQL wird verwendet, um die Anzahl der Ergebnisse zu zählen, die eine bestimmte Bedingung erfüllen. Der AS Befehl folgt dem COUNT und dient dazu, das Ergebnis der Zählung einer Variablen zuzuweisen, die dann im Ergebnis verwendet werden kann. DISTINCT gibt an, dass nur eindeutige (DISTINCT) Werte der Variable ?datasetTitle gezählt werden sollen. AS ?uniqueDatasetTitleCount  weist das Ergebnis der Zählung der Variable ?uniqueDatasetTitleCount zu. Diese Variable kann dann im Ergebnis verwendet werden, um die Anzahl der eindeutigen datasetTitle für jeden contributorID anzuzeigen. Die Bedingung (LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") wird verwendet, um sicherzustellen, dass nur Titel (?datasetTitle) ausgewählt werden, die entweder keine Sprachinformation haben oder explizit als Deutsch ("de") gekennzeichnet sind. Die Bedingung für das Aufnehmen von Ergebnisse mit keiner Sprachinformation ist auch wichtig, da nicht alle Datenbereitsteller Information über die Sprache des Datensatzes einschließen. Die Bedingung, dass nur Datensätze als jene auf Deutsch aufgelistet werden sollen, ist vielleicht in diesem Fall überflüssig, denn das Wort "Baumkataster" sollte auch erwähnt werden, also ein deutsches Wort. Trotzdem wollen wir diese Funktion hierbei hervorheben, weil wir später davon Gebrauch machen. 

Es erweist sich, dass die Datenbereitsteller Open Data Bayern und Open NRW, also die zwei deutsche Bundesländer, die größte Anzahl an Datensätzen leisten, mit jeweils 5. Das Ergebnis dieser Aufsummierung klingt plausibel, da Bayern und NRW die zwei größten Bundesländer in Deutschland sind.

In [14]:
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?contributorID (COUNT(DISTINCT ?format) AS ?formatCount)
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  OPTIONAL { ?datasetURI dcat:catalog ?catalog. }
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  FILTER(CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))

  ?datasetURI dcat:distribution ?distribution.
  ?distribution dct:format ?format.
}
GROUP BY ?contributorID

contributorID,formatCount
http://dcat-ap.de/def/contributors/gdiDE,2
https://offenedaten-konstanz.de/,2
http://dcat-ap.de/def/contributors/schleswigHolstein,4
http://dcat-ap.de/def/contributors/openNRW,26
http://dcat-ap.de/def/contributors/openDataBayern,21
http://dcat-ap.de/def/contributors/stadtFrankfurtAmMain,1
http://dcat-ap.de/def/contributors/mobilithek,1
https://gdi-sh.de,3
http://dcat-ap.de/def/contributors/freistaatSachsen,2
http://dcat-ap.de/def/contributors/stadtErlangen,1


Anbei auch die Ergebnisse der aufsummierten Datenformate je Datenbereitsteller. Nicht überraschend festzustellen ist, dass NRW und Bayern die breitesten Auswahl an Datenformaten leisten. Damit wird nicht impliziert, dass alle Datensätze in jeweils jedem Format vorhanden sind. Jedoch dient das als eine Maß für Flexibilität. 

Wir haben die Syntax sowie die Befehle der SPARQL-Abfragesprache schon kennengelernt. Somit können wir unterschiedlichste Eigenschaften erfragen. Als zweites Beispiel können wir uns die anschauen, welche Datensätze im Zeitschnitt 2021-2024 für die Städte Nürnberg, Augsburg und Oldenburg veröffentlicht wurden, und zwar in welchen Formaten.

In [10]:
%endpoint https://data.europa.eu/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT DISTINCT ?datasetTitle ?format 
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER(CONTAINS(LCASE(STR(?contributorID)), "augsburg") || CONTAINS(LCASE(STR(?contributorID)), "nuernberg") || CONTAINS(LCASE(STR(?contributorID)), "oldenburg"))
  FILTER(CONTAINS(STR(?modified), "2020") || CONTAINS(STR(?modified), "2021") || CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
  FILTER(LANG(?datasetTitle) = "de" || LANG(?datasetTitle) = "")

  OPTIONAL {
    ?datasetURI dcat:distribution ?distribution.
    OPTIONAL { ?distribution dct:format ?format. }
  }
}
ORDER BY ?contributorID ?format

datasetTitle,format
Siedlungsbereiche,
Gesetzlich geschützte Biotope,
Gesetzlich geschützte Wallhecken,
Lärmkartierung,
Wahlergebnisse der Europawahl am 9. Juni 2024,
Umringe rechtsverbindlicher Bebauungspläne,
Hundesteuer,http://publications.europa.eu/resource/authority/file-type/CSV
Sozialversicherungspflichtig Beschäftigte am Wohnort nach Altersgruppen,http://publications.europa.eu/resource/authority/file-type/CSV
Nutzung in den vier Gemarkungen,http://publications.europa.eu/resource/authority/file-type/CSV
Ordentliche Aufwendungen des Ergebnishaushaltes seit 2010,http://publications.europa.eu/resource/authority/file-type/CSV


In [15]:
%endpoint https://data.europa.eu/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT DISTINCT ?datasetTitle ?format 
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER(CONTAINS(LCASE(STR(?contributorID)), "hamburg") || CONTAINS(LCASE(STR(?contributorID)), "bremen") || CONTAINS(LCASE(STR(?contributorID)), "oldenburg"))
  FILTER(CONTAINS(STR(?modified), "2020") || CONTAINS(STR(?modified), "2021") || CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
  FILTER(LANG(?datasetTitle) = "de" || LANG(?datasetTitle) = "")

  OPTIONAL {
    ?datasetURI dcat:distribution ?distribution.
    OPTIONAL { ?distribution dct:format ?format. }
  }
}
ORDER BY ?contributorID ?format

datasetTitle,format
Siedlungsbereiche,
Gesetzlich geschützte Biotope,
Gesetzlich geschützte Wallhecken,
Umringe rechtsverbindlicher Bebauungspläne,
Haushaltsplan der Stadt Oldenburg 2020,http://publications.europa.eu/resource/authority/file-type/CSV
Hundesteuer,http://publications.europa.eu/resource/authority/file-type/CSV
Sozialversicherungspflichtig Beschäftigte am Wohnort nach Altersgruppen,http://publications.europa.eu/resource/authority/file-type/CSV
Nutzung in den vier Gemarkungen,http://publications.europa.eu/resource/authority/file-type/CSV
Ordentliche Aufwendungen des Ergebnishaushaltes seit 2010,http://publications.europa.eu/resource/authority/file-type/CSV
Steuereinnahmen in Euro seit 1998,http://publications.europa.eu/resource/authority/file-type/CSV


In [19]:
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT DISTINCT ?format
WHERE {
  ?datasetURI a dcat:Dataset;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER(CONTAINS(LCASE(STR(?contributorID)), "augsburg") || CONTAINS(LCASE(STR(?contributorID)), "nuernberg") || CONTAINS(LCASE(STR(?contributorID)), "oldenburg"))
  FILTER(CONTAINS(STR(?modified), "2020") || CONTAINS(STR(?modified), "2021") || CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))

  ?datasetURI dcat:distribution ?distribution.
  ?distribution dct:format ?format.
}
ORDER BY ?format

format
PNG
http://publications.europa.eu/resource/authority/file-type/CSV
http://publications.europa.eu/resource/authority/file-type/JSON
http://publications.europa.eu/resource/authority/file-type/PDF
http://publications.europa.eu/resource/authority/file-type/SHP
http://publications.europa.eu/resource/authority/file-type/XLSX


In [18]:
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT DISTINCT ?format
WHERE {
  ?datasetURI a dcat:Dataset;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER(CONTAINS(LCASE(STR(?contributorID)), "bremen") || CONTAINS(LCASE(STR(?contributorID)), "hamburg") || CONTAINS(LCASE(STR(?contributorID)), "oldenburg"))
  FILTER(CONTAINS(STR(?modified), "2020") || CONTAINS(STR(?modified), "2021") || CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))

  ?datasetURI dcat:distribution ?distribution.
  ?distribution dct:format ?format.
}
ORDER BY ?format

format
ASCII
CITYGML
CSV
DOCX
DXF
ERT
GEOTIFF
GML
HTML
JPEG


In [1]:
%endpoint https://data.europa.eu/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT DISTINCT ?datasetTitle ?format 
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER(CONTAINS(LCASE(STR(?contributorID)), "augsburg") || CONTAINS(LCASE(STR(?contributorID)), "nuernberg") || CONTAINS(LCASE(STR(?contributorID)), "oldenburg"))
  FILTER(CONTAINS(STR(?modified), "2020") || CONTAINS(STR(?modified), "2021") || CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
  FILTER(LANG(?datasetTitle) = "de" || LANG(?datasetTitle) = "")

  OPTIONAL {
    ?datasetURI dcat:distribution ?distribution.
    OPTIONAL { ?distribution dct:format ?format. }
  }
}
ORDER BY ?contributorID ?format
LIMIT 100 OFFSET 0

datasetTitle,format
Wahlergebnisse der Europawahl am 9. Juni 2024,PNG
Siedlungsbereiche,
Gesetzlich geschützte Biotope,
Gesetzlich geschützte Wallhecken,
Lärmkartierung,
Wahlergebnisse der Europawahl am 9. Juni 2024,
Umringe rechtsverbindlicher Bebauungspläne,
Hundesteuer,http://publications.europa.eu/resource/authority/file-type/CSV
Sozialversicherungspflichtig Beschäftigte am Wohnort nach Altersgruppen,http://publications.europa.eu/resource/authority/file-type/CSV
Nutzung in den vier Gemarkungen,http://publications.europa.eu/resource/authority/file-type/CSV


In [2]:
%endpoint https://data.europa.eu/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT DISTINCT ?datasetTitle ?format 
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER(CONTAINS(LCASE(STR(?contributorID)), "augsburg") || CONTAINS(LCASE(STR(?contributorID)), "nuernberg") || CONTAINS(LCASE(STR(?contributorID)), "oldenburg"))
  FILTER(CONTAINS(STR(?modified), "2020") || CONTAINS(STR(?modified), "2021") || CONTAINS(STR(?modified), "2022") || CONTAINS(STR(?modified), "2023") || CONTAINS(STR(?modified), "2024"))
  FILTER(LANG(?datasetTitle) = "de" || LANG(?datasetTitle) = "")

  OPTIONAL {
    ?datasetURI dcat:distribution ?distribution.
    OPTIONAL { ?distribution dct:format ?format. }
  }
}
ORDER BY ?contributorID ?format
LIMIT 20 OFFSET 20

datasetTitle,format
Umlandwanderungen seit 1990,http://publications.europa.eu/resource/authority/file-type/CSV
Haushaltsplan der Stadt Oldenburg 2022,http://publications.europa.eu/resource/authority/file-type/CSV
Kaufpreise für Bauland,http://publications.europa.eu/resource/authority/file-type/CSV
Entwicklung der Einwohnerzahl,http://publications.europa.eu/resource/authority/file-type/CSV
Standorte der Defibrillatoren,http://publications.europa.eu/resource/authority/file-type/CSV
Die 10 häufigsten Unfallursachen seit 1993,http://publications.europa.eu/resource/authority/file-type/CSV
Besucherzahlen der Oldenburger Freibäder,http://publications.europa.eu/resource/authority/file-type/CSV
Natürliche Bevölkerungsentwicklung,http://publications.europa.eu/resource/authority/file-type/CSV
Pkw nach Kraftstoffarten und Emissionsgruppen,http://publications.europa.eu/resource/authority/file-type/CSV
Verkehrswege in der Verkehrssicherungspflicht,http://publications.europa.eu/resource/authority/file-type/CSV
