# Einführung in RDF Schema

Tripelmengen sind unübersichtlich. Es ist generell schwierig einen Einblick zu erhalten worüber eine Tripelmenge Aussagen trifft. Um Tripelmengen und die darin enthaltenen Ressourcen zu organisieren wurde RDF Schema (RDFS) entwickelt. Zentral ist die Gruppierung von Ressourcen als RDFS Klassen. Hat man Klassen definiert, ist es möglich Ressourcen zu typisieren also festlegen, dass eine Ressource eine Instanz einer Klasse ist. Zudem ermöglich RDFS die Erstellung von Klassenhierarchien wie auch Prädikathierarchien. In dieser Übung werden wir diese Konzepte anhand praktischer Beispiele genauer ansehen. Wie üblich, gehen Sie die Codeblöcke nacheinander durch und beantworten Sie die Fragen.

In [1]:
import pandas as pd
from io import BytesIO
from io import StringIO
from rdflib import Graph, URIRef
from rdflib.namespace import RDF
from rdflib.plugins.sparql.results.csvresults import CSVResultSerializer
from rdflib.plugins.sparql import prepareQuery
from IPython.display import display

prefixes = """
@prefix : <http://example.org#> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
"""

g = Graph()

def evaluate(rs):
    serializer = CSVResultSerializer(rs)
    output = BytesIO()
    serializer.serialize(output)
    display(pd.read_csv(StringIO(output.getvalue().decode())))
    
def query(rdf, sparql):
    r = g.parse(data='{}{}'.format(prefixes, rdf), format='turtle')
    rs = g.query(sparql)
    evaluate(rs)
    
def reason(rdf, sparql):
    superclass = URIRef('http://example.org#Work')
    r = g.parse(data='{}{}'.format(prefixes, rdf), format='turtle')
    rs1 = g.query(prepareQuery('SELECT ?subclass WHERE { ?subclass rdfs:subClassOf ?superclass }'), 
                  initBindings={'superclass': superclass})
    for qs1 in rs1:
        rs2 = g.query(prepareQuery('SELECT ?instance WHERE { ?instance rdf:type ?class }'), 
                      initBindings={'class': qs1['subclass']})
        for qs2 in rs2:
            g.add((qs2['instance'], RDF.type, superclass))
    evaluate(g.query(sparql))

In [3]:
rdf = """
:r1 rdf:type :Album .
:r2 rdf:type :Album .
:r3 rdf:type :Single .
"""

# In wieviele Gruppen kann man die Ressourcen :r1, :r2, :r3 intuitiv organisieren? Antwort: 2
# Welche Klassen lassen sich hier rauslesen? Antwort: Klasse r1+r2 sind alle triple bei denen rdf:type Album und 
# r3 sind alle triple mit rdf:triple Single

Sie haben nun Klassen identifiziert, diese sind auch mittles URI benannt. 

Erstellen Sie nun als nächstes ein Dokument welches aussagt, dass die identifizierten Klassen in der Tat RDFS Klassen sind.

Führen Sie dann den Codeblock aus damit die SPARQL Abfrage ausgeführt wird.

In [14]:
rdf = """
@prefix ex: <http://example.org#> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

ex:Album a rdfs:Class.
ex:Single a rdfs:Class.

ex:erstes a ex:Album ;
   ex:title "The Dark Side of the Moon"^^xsd:string ;
   ex:label "Harvest, EMI"@en ;
   ex:released [ 
     ex:day "16"^^xsd:int ;
     ex:month "03"^^xsd:int ;
     ex:year "1973"^^xsd:int 
   ] .
   
ex:zweites a ex:Album ;
   ex:title "The Wall" ;
   ex:label "Harvest, EMI" ;
   ex:released [ 
     ex:day 30 ;
     ex:month "11"^^xsd:string ;
     ex:year "1979"^^xsd:int 
   ] .

ex:dritte a ex:Single ;
   ex:title "What God Wants, Part 1"^^xsd:string ;
   ex:author [
     ex:firstname "Roger" ;
     ex:lastname "Waters"
   ] ;
   ex:released [ 
     ex:year "1992"^^xsd:int 
   ] .

"""

query(rdf, "SELECT ?class WHERE { ?class rdf:type rdfs:Class }")
query(rdf, "SELECT ?class WHERE { ?class rdf:type ex:Album }")

# Entspricht die Antwort der SPARQL Abfrage Ihren Erwartungen? Antwort: JA

Unnamed: 0,class
0,http://example.org#Single
1,http://example.org#Album


Unnamed: 0,class
0,http://example.org#erstes
1,ub2bL9C1
2,ub2bL18C1
3,http://example.org#zweites


Verwenden Sie nun Ihre definierten Klassen und typisieren Sie die folgenden Ressourcen `:r1`, `:r2`, und `:r3`.

Die drei Ressourcen sollen jeweils Instanzen einer der Klassen sein.

In [15]:
rdf = """
:r1 :title "The Dark Side of the Moon" .
:r2 :title "The Wall" .
:r3 :title "What God Wants, Part 1" .
"""

query(rdf, "SELECT ?resource ?class ?title WHERE { ?resource rdf:type ?class . ?resource :title ?title }")

# Entspricht die Antwort der SPARQL Abfrage Ihren Erwartungen? Antwort: JA

Unnamed: 0,resource,class,title
0,http://example.org#dritte,http://example.org#Single,"What God Wants, Part 1"
1,ub2bL18C1,http://example.org#Album,The Wall
2,ub2bL9C1,http://example.org#Album,The Dark Side of the Moon
3,http://example.org#erstes,http://example.org#Album,The Dark Side of the Moon
4,ub2bL27C1,http://example.org#Single,"What God Wants, Part 1"
5,http://example.org#zweites,http://example.org#Album,The Wall


In der Vorlesung haben wir gesehen, dass man mit RDFS Unterklassen bilden kann.

Führen Sie nun eine Klasse `:Work` ein als Oberklasse der Klassen die Sie definiert haben.

Die Aussagen sollten festhalten, dass Instanzen Ihrer Klassen *Werke* sind.

Schreiben Sie dann eine SPARQL Abfrage mit der Sie die Unterklassen von `:Work` erhalten.

In [18]:
rdf = """
@prefix ex: <http://example.org#> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

ex:Work a rdfs:Class.
:r1 rdf:subClassOf rdfs:ex:Work .
:r2 rdf:subClassOf rdfs:ex:Work .
:r3 rdf:subClassOf rdfs:ex:Work .
"""

query(rdf, "SELECT ?subclass WHERE {?subclass rdf:subClassOf rdfs:ex:Work . }")

# Entspricht die Antwort der SPARQL Abfrage Ihren Erwartungen? Antwort: 

Unnamed: 0,subclass
0,http://example.org#r2
1,http://example.org#r1
2,http://example.org#r3


Nun können in RDFS nicht nur Klassen definiert werden sondern auch Prädikate. 

Spezifizieren Sie als nächstes, dass `:title` und `:released` Prädikate sind.

Schreiben Sie dann eine SPARQL Abfrage mit der Sie alle Prädikate erhalten. Stellen Sie dabei sicher, dass die Ausgabe alphabetisch sortiert ist.

In [None]:
rdf = """
"""

query(rdf, "SELECT ...")

# Entspricht die Antwort der SPARQL Abfrage Ihren Erwartungen? Antwort: 

RDFS hat zur Folge, dass es zusätzlich zu den *expliziten* Tripel, wie z.B. 

```
:r1 :title "The Dark Side of the Moon" .
```

auch *implizite* Tripel gibt. Solche Tripel sind korrekt (logisch impliziert) stehen aber nicht explizit in der Tripelmenge.

Ein Beispiel. Die Folgenden Tripel sagen aus, dass Max Muster ein Student ist und Studenten Personen sind.

```
:Student rdf:type rdfs:Class .
:Person rdf:type rdfs:Class .
:Student rdfs:subClassOf rdfs:Person .
:r1 rdf:type :Student .
:r1 rdfs:label "Max Muster" .
```

Dies sind explizite Tripel.

Es folgt allerdings, dass Max Muster eine Person ist, als Tripel

```
:r1 rdf:type :Person 
```

Dieses Tripel ist implizit, es ist von den obigen fünf Tripel bedingt wird aber nicht explizit aufgeführt.

Führen Sie die folgende SPARQL Abfrage aus und beantworten Sie die Fragen.

In [None]:
reason(rdf, """
SELECT ?work ?title 
WHERE {
  ?work rdf:type :Work .
  ?work :title ?title .
}""")

# Erklären Sie warum Sie hier die drei Ressourcen erhalten obwohl Sie nach Werken suchen, 
# also nach der Oberklasse der beiden Klassen die Sie definiert haben.
#
# Anwort: 