# Grundlagen

In diesem Abschnitt widmen wir uns einer praktischen SPARQL-Übung, indem wir uns mit der folgenden Forschungsfrage auseinandersetzen:

**Wie viele Datensätze bietet jedes deutsche Bundesland als offene Daten an?**

Wir arbeiten mit Jupyter Notebook - einem Dateiformat, welches ermöglicht, Erklärtext und Code in verschiedenen Programmiersprachen darzustellen. Dadurch wird die visuelle Darstellung von echtem Code für Abfragen und deren Ergebnisse ermöglicht. Zusätzlich können Erläuterungen zu den aufgerufenen Befehlen sowie weitere Kommentare dargestellt werden. 

Zuerst widmen wir uns der Analyse der SPARQL-Syntax, indem wir uns die Abfragen der Forschungsfrage ansehen. Dazu muss vorher ein sogenannter *endpoint* definiert werden. Der *endpoint* ist die maschinenlesbare Schnittstelle zum Repositorium, in dem jene Metadaten gespeichert sind, die wir abfragen wollen. Bei der Arbeit mit einem Online-SPARQL-Werkzeug ist die Definition eines *endpoints* häufig nicht nötig, da dieser schon automatisch definiert ist. Im Portal GOVDATA ist der *endpoint* die Schnittstelle zum deutschen Open Data Portal <a href="https://www.govdata.de/" class="external-link" target="_blank">govdata.de</a>

---

Beispielhaft wollen wir nun das europäische Datenportal durchsuchen, welches wir auf der Webseite <a href="https://data.europa.eu/de" class="external-link" target="_blank">https://data.europa.eu/de</a> finden. 
Dazu verwenden wir folgende "Magic", d. h. einen Befehl, der Teil vom SPARQL-Python-Paket ist, der es uns erlaubt, alle künftigen Abfragen mit dem europäischen Datenportal als unserem *endpoint* zu verknüpfen.

**Code und Output**

In [None]:
%endpoint https://data.europa.eu/sparql

:::{admonition} Erklärung 
:class: hinweis, dropdown

Nun haben wir das europäische Datenportal data.europa.eu als *endpoint* festgelegt und können mit der Erstellung von SPARQL-Abfragen beginnen. Allerdings fragen wir nur jene Metadaten ab, welche zu den Datensätzen im Portal gespeichert sind. Siehe hierzu Kapitel ... .

:::

---

Wenden wir uns nun der Onthologie der gespeicherten Daten zu. Der im [Kapitel DCAT-AP](dcat-1) erklärte Metatenstandard <a href="https://www.dcat-ap.de/def/" class="external-link" target="_blank">DCAT-AP</a> ist zentral für die Untersuchung der Metadateneigenschaften und definiert die Struktur und den Inhalt der Metadatenfelder (<a href="https://www.dcat-ap.de/def/dcatde/2.0/implRules/" class="external-link" target="_blank">DCAT-AP Handbuch</a>).
Schauen wir uns nun die Struktur unserer ersten Abfrage an.

In den ersten drei Zeilen sehen wir sogenannte PREFIXes. Durch sie kann man auf diverse Eigenschaften verweisen und Bezüge zwischen diesen Eigenschaften hergestellen. Sie sind zwar wichtig für eine einfachere Gestaltung der Abfragen, aber nicht essentiell. Sie ermöglichen es, Links nicht immer wieder ausschreiben zu müssen. Dies wird deutlicher, wenn wir uns den WHERE-Abschnitt ansehen.

Vorerst betrachten wir aber den SELECT-Befehl. Mit SELECT wählen wir die Properties bzw. die Eigenschaften, die aufgelistet werden sollen. Jede Eigenschaft entspricht einer Spalte, die in der Tabelle mit Ergebnissen zu sehen ist. 

Wir wollen mit unserer Abfrage folgende Informationen erhalten: die URIs, die Titel, die Namen der Datenbereitsteller und das Kürzel des jeweiligen Landes, aus dem der Datensatz stammt.

Daher geben wir in unserem SELECT-Befehl diese vier Properties an: ?uri ?title ?contributorid ?stateKey.

Die genauen Benennungen der Properties (Labels) werden im oben verlinkten DCAT-AP-Handbuch definiert, auf das wir zurückgreifen müssen, um die genauen Labels für jede Property zu finden.

Als nächstes haben wir den Kern jeder SPARQL-Abfrage - den WHERE-Befehl. Der WHERE-Befehl definiert die Bedingungen, die erfüllt werden müssen, damit eine Beobachtung aufgelistet werden kann. Das heißt, es werden **nur** die Beobachtungen aufgelistet, die alle Bedingungen erfüllen. 

Im Unterschied dazu besagt der Befehl OPTIONAL, dass die folgende Bedingung nicht zwingend zu erfüllen ist. OPTIONAL ist ein gutes Werkzeug, das benutzt werden kann, wenn man sich nicht sicher ist, ob die jeweiligen Properties ordentlich codiert sind. So stellen wir sicher, dass wir trotz des SELECT-Befehls keine leere Liste erhalten.

In jeder Zeile in der WHERE-Funktion müssen drei Elemente zu sehen sein. Diese Struktur ist essentiell für die SPARQL-Sprache - durch die sogenannten "triplets" werden Bezüge zwischen den Eigenschaften erstellt. Jede Zeile bestimmt einen Bezug zwischen zwei Eigenschaften. Die erste Eigenschaft ist somit das Subjekt (S), das zweite Element - der Bezug, der aus einem Prefix und einer zusätzlichen Spezifizierung besteht - heißt Prädikat (P), und das dritte - die zweite Eigenschaft - ist das Objekt (O). P entspricht einem Link, der darauf verweist, wo die zweite Eigentschaft zu finden ist. Die Einordnung der Eigenschaften ist nach dem W3C-Standard, der schon *in einem früheren Kapitel erklärt wurde*, definiert. In dem DCAT-AP-Handbuch ist dann die genaue Verortung von jeder Eingenschaft zu finden. Durch die Triplets fragen wir genau ab, welche Datensätze wir erfragen wollen, je nach den Bedingungen, die solche Datensätze erfüllen sollen. 

Mit unserer Abfrage suchen wir die Datensätze ab, die einen Titel, ein URI, einen mitcodierten Datenbereitsteller, und wenn vorhanden, einen Schlüssel für das Bundesland haben.

**Code und Output**

In [None]:
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX pg: <https://www.dcat-ap.de/def/politicalGeocoding/>

SELECT ?uri ?title ?contributorid ?stateKey
WHERE {
    ?uri dct:title ?title .
    ?uri dcatde:contributorID ?contributorid .
  OPTIONAL {?uri pg:stateKey ?stateKey} .
}

uri,title,contributorid,stateKey
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitale Topographische Karte 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Léarscáil thopagrafach dhigiteach 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Ψηφιακός τοπογραφικός χάρτης 1: 10000 — 3952-NO Friedland — Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitalna topografska karta 1.: 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitālā topogrāfiskā karte Nr. 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitaalinen topografinen kartta 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Mapa topográfico digital 1 : 10 000 - 3952-NO Frísia - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Carta topografica digitale 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitálna topografická mapa 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitale topografische kaart 1 : 10 000 - 3952-NO Friedland - Groß Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,


:::{admonition} Erklärung des Ergebnisses
:class: hinweis, dropdown

Wie befürchtet, ist die Spalte für das Bundesland (stateKey) leer. Das liegt daran, dass stateKey nicht codiert worden ist. Somit bleiben diese Felder leer. Möglicherweise müssen diese Felder nicht verpflichtend ausgefüllt werden. Dies ist ein klares Beispiel für lückenhaftes Metadatenmanagement, das die Beantwortung unserer Forschungsfrage erschwert. In der Praxis kommt es oft zu Fällen, in denen SPARQL-Abfragen nicht erfolgreich sind, weil die Metadatenbeschreibung unvollständig ist. Mit dem OPTIONAL-Befehl kann man dieses Problem teilweise umgehen.

:::

:::{admonition} Hinweis
:class: hinweis

Vielleicht ist Ihnen aufgefallen, dass uns nur 20 von 100.000 Ergebnissen angezeigt wurden. Das liegt daran, dass SPARQL leider keine Paginierungsfunktion, also das Durchblättern von Ergebnissen wie auf einer Weboberfläche, unterstützt. Stattdessen muss die Paginierung manuell durch die Verwendung von Befehlen wie LIMIT und OFFSET in der Abfrage implementiert werden. Dies erfordert eine zusätzliche Logik in der Anwendung, um die aktuelle Seite Ausgabe vollständig zu sehen. 

:::

Leider konnten wir unsere Fragestellung wegen mangelhafter Daten nicht ganz beantworten. Deshalb versuchen wir, unsere Fragestellung zu ändern und zusätzliche Beispiele von SPARQL-Abfragen damit aufzuzeigen.