# Praca z pakietem RDFLib, czyli na początku była trójka


## O pakiecie RDFLib
  
RDFLib to pakiet Pythona przeznaczony do pracy z grafami RDF. Nic dziwnego, że podstawowym obiektem jest tu `Graph`. `Graf` w RDFLib jest zbioram trójek. Można więc na nim wykonywać operacje jak na zwykłych zbiorach, np. `add()`, aby dodać trójkę do grafu, oraz inne metody, które szukają i zwracają trójki w dowolnej kolejności.


W skład pakietu RDFLib wchodzą:
- parsery i serializatory dla `RDF/XML, N3, NTriples, N-Quads, Turtle, TriX, RDFa, Microdata` i `JSON-LD`
- baza trójek (ang. *triple store*) do podręcznego przechowywania trójek w pamięci, jak też ich trwałego przechowywania w bazie Berkeley
- mechanizmy inferencji zarówno dla pojedynczego grafu jak i wielu grafów nazwanych (ang. *named graphs*)
- implementacja `SPARQL 1.1`, w tym obsługa kwerend typu `SELECT` i `UPDATE`.   
     

Dokumentacja pakietu oraz dyskusje społeczności rozwijającej ten pakiet są dostępne pod adresami:
- [https://rdflib.readthedocs.io/en/stable/](https://rdflib.readthedocs.io/en/stable/)
- [https://github.com/RDFLib/rdflib/](https://github.com/RDFLib/rdflib/)
- [https://www.w3.org/RDF/](https://www.w3.org/RDF/)
- [http://groups.google.com/group/rdflib-dev](http://groups.google.com/group/rdflib-dev)

## Instalacja

RDFLib instalujemy za pomocą komendy  ```!pip3 install rdflib``` (lub ```!pip install rdflib```)

In [3]:
!pip3 install rdflib

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting rdflib
  Downloading rdflib-6.1.1-py3-none-any.whl (482 kB)
[K     |████████████████████████████████| 482 kB 5.1 MB/s 
Collecting isodate
  Downloading isodate-0.6.1-py2.py3-none-any.whl (41 kB)
[K     |████████████████████████████████| 41 kB 570 kB/s 
Installing collected packages: isodate, rdflib
Successfully installed isodate-0.6.1 rdflib-6.1.1


Aby korzystać z tego pakietu importuje go w następujący sposób:

In [4]:
import rdflib

## Parsujemy istniejący graf

Najpierw zobacz jakie informacje kryją się pod linkiem http://www.w3.org/People/Berners-Lee. Zobaczysz mało ciekawą stronę www bardzo ciekawego człowieka. Jest jednak coś interesującego w tej stronie; informacje, które się na niej znajdują są również zapisane i udostępnione za pomocą grafu. Sieć semantyczna daje nam narzędzia, aby tego typu grafy przetwarzać w dololny sposób. Spróbujmy!

In [None]:
# Utwórz pusty graf o nazwie g_tbl ("tbl" od Tim Berners-Lee).
from rdflib import Graph
g_tbl = Graph()

# Wypełnij graf trójkami z grafu kryjącego się pod "http://www.w3.org/People/Berners-Lee/card".
g_tbl.parse(source='http://www.w3.org/People/Berners-Lee/card', format='xml')

<Graph identifier=N5ce30e5c93a9450aa0c48d7a558fadc5 (<class 'rdflib.graph.Graph'>)>

Jeśli nie podasz formatu w jakim został zapisany graf, RDFLib założy, że jest to RDF/XML (nie musieliśmy więc w komórce wyżej dodawać `format='xml'`). 

Jeśli nie jesteśmy pewni serializacji grafu, możemy skorzystać z funkcji `rdflib.util.guess_format()`, która zgaduje serializację grafu na podstawie rozszerzenie pliku (jeśli mamy tylko URL grafu, jak np. "http://www.w3.org/People/Berners-Lee/card", to funkcja ta na nic się zda).

In [None]:
from rdflib.util import guess_format
print('Format twojego grafu to:', guess_format('my_file.rdf'))
print('Format twojego grafu to:', guess_format('my_file.ttl'))
print('Format twojego grafu to:', guess_format('http://www.w3.org/People/Berners-Lee/card'))

Format twojego grafu to: xml
Format twojego grafu to: turtle
Format twojego grafu to: None


Wróćmy jednak do naszego grafu `g_tbl`.

In [None]:
# Sprawdźmy ile trójek jest w grafie g_tbl.
print("Graph g_tbl ma {} trójek.".format(len(g_tbl)))

Graph g_tbl ma 86 trójek.


In [None]:
# Wyświetl zawartość grafu g_tbl w serializacji Turtle.
print(g_tbl.serialize(format="turtle"))

@prefix cc: <http://creativecommons.org/ns#> .
@prefix cert: <http://www.w3.org/ns/auth/cert#> .
@prefix con: <http://www.w3.org/2000/10/swap/pim/contact#> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix doap: <http://usefulinc.com/ns/doap#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> .
@prefix ldp: <http://www.w3.org/ns/ldp#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix schema1: <http://schema.org/> .
@prefix sioc: <http://rdfs.org/sioc/ns#> .
@prefix solid: <http://www.w3.org/ns/solid/terms#> .
@prefix space: <http://www.w3.org/ns/pim/space#> .
@prefix vcard: <http://www.w3.org/2006/vcard/ns#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

<http://dig.csail.mit.edu/2005/ajar/ajaw/data#Tabulator> doap:developer <https://www.w3.org/People/Berners-Lee/card#i> .

<http://dig.csail.mit.edu/2007/01/camp/data#course> foaf:maker <https://www.w3.org/

In [None]:
# Wyświetl zawartość grafu g_tbl w serializacji RDF/XML.
print(g_tbl.serialize(format="xml"))

<?xml version="1.0" encoding="utf-8"?>
<rdf:RDF
   xmlns:cc="http://creativecommons.org/ns#"
   xmlns:cert="http://www.w3.org/ns/auth/cert#"
   xmlns:con="http://www.w3.org/2000/10/swap/pim/contact#"
   xmlns:dc="http://purl.org/dc/elements/1.1/"
   xmlns:dcterms="http://purl.org/dc/terms/"
   xmlns:doap="http://usefulinc.com/ns/doap#"
   xmlns:foaf="http://xmlns.com/foaf/0.1/"
   xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#"
   xmlns:ldp="http://www.w3.org/ns/ldp#"
   xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
   xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
   xmlns:schema1="http://schema.org/"
   xmlns:sioc="http://rdfs.org/sioc/ns#"
   xmlns:solid="http://www.w3.org/ns/solid/terms#"
   xmlns:space="http://www.w3.org/ns/pim/space#"
   xmlns:vcard="http://www.w3.org/2006/vcard/ns#"
>
  <rdf:Description rdf:about="https://www.w3.org/People/Berners-Lee/card#i">
    <rdf:type rdf:resource="http://www.w3.org/2000/10/swap/pim/contact#Male"/>
    <rdf:type rdf:reso

Uwaga! Jeśli nie pamiętasz czym są serializacje grafów, wróć do sekcji wprowadzającej tego rozdziału. 

RDFLib obsługuje serializacje: ``turtle`` (w skrócie ``ttl``), ``xml``, ``n3`` oraz ``ntriples`` (w skrócie ``nt``). Dodatkowo można również korzystać z serializacji ``JSON-LD`` (tu będziemy potrzebować jednak dodatkowego pluginu) oraz ``trix``, gdy mamy do czynienia z grafami nazwanymi (ang. *named graphs*) lub bazami trójek.

In [None]:
# Zapisz graf g_tbl w serializacji Turtle w pliku o nazwie "tbl.ttl".
g_tbl.serialize('tbl.ttl', format='turtle')

<Graph identifier=N5ce30e5c93a9450aa0c48d7a558fadc5 (<class 'rdflib.graph.Graph'>)>

## Tworzymy własny graf

Aby utworzyć własny graf musimy sobie przypomnieć jak mogą wygląć trójki w grafie RDF. Pamiętamy, że trójki mogą zawierać 
- identyfikatory zasobów, 
- węzły puste (w podmiocie i dopełnieniu trójki) oraz 
- literały (tylko w dopełnieniu trójki). 

RDFLib pozawala na utworzenie 
- identyfikatora dowolnego zasobu za pomocą funkcji ``URIRef``,
- węzła pustego za pomocą funcji ``BNode`` oraz
- literału za pomocą funkcji ``Literal``.


Graf możemy utworzyć z napisów, o ile jego zawartość jest zgodna z jakąś serializacją.



In [8]:
import rdflib
from rdflib import Graph

graph_string = '<http://ai.kul.pl/vocab/Jan> <http://ai.kul.pl/vocab/lubi> <http://ai.kul.pl/vocab/Ania> .'
graph = Graph()
graph.parse(data = graph_string, format='turtle')
print(graph.serialize(format='ttl'))

@prefix ns1: <http://ai.kul.pl/vocab/> .

ns1:Jan ns1:lubi ns1:Ania .




In [9]:
# Zaimportuj funkcje "URIRef", "Literal" oraz "BNode".
from rdflib import URIRef, Literal, BNode

In [10]:
uri_jana_kowalskiego = URIRef('http://ai.kul.pl/vocab/jan_kowalski')
uri_nazywa_sie = URIRef('http://ai.kul.pl/vocab/nazywa_sie')
uri_zna = URIRef('http://ai.kul.pl/vocab/zna')
literal_jan_kowalski_pl = Literal('Jan Kowalski', lang='pl')
bnode_kogos = BNode()
literal_mariana_zuka_pl = Literal('Marian Żuk', lang='pl')

Poniżej stworzymy nowy graf stwierdzający, że zasób o identyfikatorze "http://ai.kul.pl/vocab/jan_kowalski" nazywa się (w języku polskim) Jan Kowalski i zna kogoś, kto nazywa się Marian Żuk.

In [11]:
# Utwórz nowy graf.
g = Graph()

# Dodaj trójki do grafu.
g.add((uri_jana_kowalskiego, uri_nazywa_sie, literal_jan_kowalski_pl))
g.add((uri_jana_kowalskiego, uri_zna, bnode_kogos))
g.add((bnode_kogos, uri_nazywa_sie, literal_mariana_zuka_pl))

# Wyświetl zawartość grafu w serializacji Turtle.
print(g.serialize(format='turtle'))

@prefix ns1: <http://ai.kul.pl/vocab/> .

ns1:jan_kowalski ns1:nazywa_sie "Jan Kowalski"@pl ;
    ns1:zna [ ns1:nazywa_sie "Marian Żuk"@pl ] .




W powyższym przykładzie użyliśmy dwóch wymyśłonych przez nas relacji "http://ai.kul.pl/vocab/nazywa_sie" i "http://ai.kul.pl/vocab/zna". Idea Sieci Semantycznej jest jednak taka, aby wymyślać nowe relacje tylko wówczas, kiedy nie istnieją dobre już wymyślone. Tak się akurat składa, że odpowiedniki tych relacji znajdziemy w standardzie FOAF (http://xmlns.com/foaf/spec/). RDFLib obsługuje FOAF.

In [12]:
# Zajmortuj przestrzeń nazw FOAF
from rdflib.namespace import FOAF

Zmodyfikujmy teraz nasz przykład powyżej w taki sposób, abyśmy mogli skorzystać z relacji ze standardu FOAF.

In [13]:
# Utwórz nowy graf.
g = Graph()

# Dodaj trójki do grafu.
g.add((uri_jana_kowalskiego, FOAF.name, literal_jan_kowalski_pl))
g.add((uri_jana_kowalskiego, FOAF.knows, bnode_kogos))
g.add((bnode_kogos, FOAF.name, literal_mariana_zuka_pl))

# Wyświetl zawartość grafu w serializacji Turtle.
print(g.serialize(format='turtle'))

@prefix foaf: <http://xmlns.com/foaf/0.1/> .

<http://ai.kul.pl/vocab/jan_kowalski> foaf:knows [ foaf:name "Marian Żuk"@pl ] ;
    foaf:name "Jan Kowalski"@pl .




Aby zmienić prefiks przestrzeni FOAF musimy go zdefiniować zanim zaczniemy wypełniać graf trójkami.

In [14]:
# Utwórz nowy graf.
g = Graph()

# Przypisz prefiks "foaf" do przestreni FOAF
g.bind('foaf', FOAF)

# Dodaj trójki do grafu.
g.add((uri_jana_kowalskiego, FOAF.name, literal_jan_kowalski_pl))
g.add((uri_jana_kowalskiego, FOAF.knows, bnode_kogos))
g.add((bnode_kogos, FOAF.name, literal_mariana_zuka_pl))

# Wyświetl zawartość grafu w serializacji Turtle.
print(g.serialize(format='turtle'))

@prefix foaf: <http://xmlns.com/foaf/0.1/> .

<http://ai.kul.pl/vocab/jan_kowalski> foaf:knows [ foaf:name "Marian Żuk"@pl ] ;
    foaf:name "Jan Kowalski"@pl .




Poniżej podajemy importy ponad 20 przestrzeni nazw zaimplementowanych w RDFLib:

In [15]:
from rdflib.namespace import CSVW, DC, DCAT, DCTERMS, DOAP, FOAF, ODRL2, ORG, OWL,\
                             PROF, PROV, RDF, RDFS, SDO, SH, SKOS, SOSA, SSN, TIME,\
                             VOID, XMLNS, XSD

print(RDF.type)
# = rdflib.term.URIRef("http://www.w3.org/1999/02/22-rdf-syntax-ns#type")

print(FOAF.knows)
# = rdflib.term.URIRef("http://xmlns.com/foaf/0.1/knows")

print(PROF.isProfileOf)
# = rdflib.term.URIRef("http://www.w3.org/ns/dx/prof/isProfileOf")

print(SOSA.Sensor)
# = rdflib.term.URIRef("http://www.w3.org/ns/sosa/Sensor")

http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://xmlns.com/foaf/0.1/knows
http://www.w3.org/ns/dx/prof/isProfileOf
http://www.w3.org/ns/sosa/Sensor


Gdy tworzymy własny graf, często zdarza się, że większość zasobów będzie zdefiniwoanych w tej samej, naszej przestrzeni nazw. Wówczas warto użyć pewnego skrótu pozwalającego skrócić identyfiaktory (`URIRef`) zasobów. Ów skrót polega na zdefiniowaniu własnej przestrzeni nazw (ang. *namespace*) za pomcą `rdflib.namespace.Namespace`:

In [17]:
from rdflib import Namespace

n = Namespace('http://ai.kul.pl/vocab/')

uri_jana_kowalskiego = URIRef(n.jan_kowalski)
uri_nazywa_sie = URIRef(n.nazywa_sie)
uri_zna = URIRef(n.zna)
literal_jan_kowalski_pl = Literal('Jan Kowalski', lang='pl')
bnode_kogos = BNode()
literal_mariana_zuka_pl = Literal('Marian Żuk', lang='pl')

# Utwórz nowy graf.
g = Graph()

g.bind('foaf', FOAF)
g.bind('aikul', 'http://ai.kul.pl/vocab/')

# Dodaj trójki do grafu.
g.add((uri_jana_kowalskiego, FOAF.name, literal_jan_kowalski_pl))
g.add((uri_jana_kowalskiego, FOAF.knows, bnode_kogos))
g.add((bnode_kogos, FOAF.name, literal_mariana_zuka_pl))

# Wyświetl zawartość grafu w serializacji Turtle.
print(g.serialize(format='turtle'))

@prefix aikul: <http://ai.kul.pl/vocab/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .

aikul:jan_kowalski foaf:knows [ foaf:name "Marian Żuk"@pl ] ;
    foaf:name "Jan Kowalski"@pl .




Przestrzegamy przed użyciem funkcji `set()`, która zakłda, że relacja jest funkcyjna (ang. *functional property*) lub ma górną kardynalność (`maxcardinality`) równą 1. Funkcja `set()` może usuwać trójki!

In [18]:
# Utwórz nowy graf.
g = Graph()

g.bind('foaf', FOAF)
g.bind('aikul', 'http://ai.kul.pl/vocab/')

g.add((uri_jana_kowalskiego, FOAF.nick, Literal('Wafel'))) 
# print("Bob is", g.value(uri_jana_kowalskiego, FOAF.age)) # prints: Bob is 42

g.add((uri_jana_kowalskiego, FOAF.nick, Literal('Chudy'))) 
# print("Bob is", g.value(uri_jana_kowalskiego, FOAF.age)) # prints: Bob is 42

# Wyświetl zawartość grafu w serializacji Turtle.
print(g.serialize(format='turtle'))

@prefix aikul: <http://ai.kul.pl/vocab/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .

aikul:jan_kowalski foaf:nick "Chudy",
        "Wafel" .




In [19]:
print(g.value(uri_jana_kowalskiego, FOAF.nick))

Wafel


In [20]:
# Utwórz nowy graf.
g = Graph()

g.bind('foaf', FOAF)
g.bind('aikul', 'http://ai.kul.pl/vocab/')

g.add((uri_jana_kowalskiego, FOAF.nick, Literal('Wafel'))) 
g.add((uri_jana_kowalskiego, FOAF.nick, Literal('Chudy'))) 
g.set((uri_jana_kowalskiego, FOAF.nick, Literal('Szczypior'))) # replaces 42 set above 

# Wyświetl zawartość grafu w serializacji Turtle.
print(g.serialize(format='turtle'))

@prefix aikul: <http://ai.kul.pl/vocab/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .

aikul:jan_kowalski foaf:nick "Szczypior" .




## Usuwanie trójek z grafu

Trójki usuwamy z grafu za pomocą metody `remove()`. 

In [None]:
# Utwórz nowy graf.
g = Graph()

g.bind('foaf', FOAF)

# Dodaj trójki do grafu.
g.add((uri_jana_kowalskiego, FOAF.name, literal_jan_kowalski_pl))
g.add((uri_jana_kowalskiego, FOAF.knows, bnode_kogos))
g.add((bnode_kogos, FOAF.name, literal_mariana_zuka_pl))

# Wyświetl zawartość grafu w serializacji Turtle.
print('PRZED:')
print(g.serialize(format='turtle'))

# Usuń wszystkie trójki orzekające o uri_jana_kowalskiego
g.remove((uri_jana_kowalskiego, None, None)) 

# Wyświetl zawartość grafu w serializacji Turtle.
print('PO:')
print(g.serialize(format='turtle'))

PRZED:
@prefix foaf: <http://xmlns.com/foaf/0.1/> .

<http://ai.kul.pl/vocab/jan_kowalski> foaf:knows [ foaf:name "Marian Żuk"@pl ] ;
    foaf:name "Jan Kowalski"@pl .


PO:
@prefix foaf: <http://xmlns.com/foaf/0.1/> .

[] foaf:name "Marian Żuk"@pl .




## Filtrowanie grafu

Teraz poznasz szereg metod pozwalających na filtrowanie grafu, tj. wyszukanie w grafie jego fragmentu spełniającego określone własności.

In [None]:
from rdflib import Graph
g_tbl = Graph()
g_tbl.parse(source='http://www.w3.org/People/Berners-Lee/card')

<Graph identifier=N90d7f4fe933241838444e14699f237bd (<class 'rdflib.graph.Graph'>)>

Zacznij od wypisanie wszystkich trójek. Możesz to zrobić tak:

In [None]:
for triple in g_tbl:
    print(triple) 

(rdflib.term.URIRef('https://www.w3.org/People/Berners-Lee/card#i'), rdflib.term.URIRef('http://www.w3.org/ns/pim/space#storage'), rdflib.term.URIRef('https://timbl.inrupt.net/'))
(rdflib.term.URIRef('http://wiki.ontoworld.org/index.php/_IRW2006'), rdflib.term.URIRef('http://www.w3.org/2000/10/swap/pim/contact#participant'), rdflib.term.URIRef('https://www.w3.org/People/Berners-Lee/card#i'))
(rdflib.term.URIRef('https://www.w3.org/People/Berners-Lee/card#i'), rdflib.term.URIRef('http://xmlns.com/foaf/0.1/workplaceHomepage'), rdflib.term.URIRef('https://www.w3.org/'))
(rdflib.term.BNode('N44dab085bedf4e828f0c4190a694f430'), rdflib.term.URIRef('http://www.w3.org/2000/10/swap/pim/contact#country'), rdflib.term.Literal('USA'))
(rdflib.term.URIRef('https://www.w3.org/People/Berners-Lee/card#i'), rdflib.term.URIRef('http://xmlns.com/foaf/0.1/nick'), rdflib.term.Literal('TimBL'))
(rdflib.term.BNode('Nc34e2bfa2f094433a7a8661174a995c0'), rdflib.term.URIRef('http://www.w3.org/ns/auth/cert#expone

lub tak:

In [None]:
for s, p, o in g_tbl:
    print("s =", s, "\n\t p =", p, "\n\t\t o =", o)

s = https://www.w3.org/People/Berners-Lee/card#i 
	 p = http://www.w3.org/ns/pim/space#storage 
		 o = https://timbl.inrupt.net/
s = http://wiki.ontoworld.org/index.php/_IRW2006 
	 p = http://www.w3.org/2000/10/swap/pim/contact#participant 
		 o = https://www.w3.org/People/Berners-Lee/card#i
s = https://www.w3.org/People/Berners-Lee/card#i 
	 p = http://xmlns.com/foaf/0.1/workplaceHomepage 
		 o = https://www.w3.org/
s = N44dab085bedf4e828f0c4190a694f430 
	 p = http://www.w3.org/2000/10/swap/pim/contact#country 
		 o = USA
s = https://www.w3.org/People/Berners-Lee/card#i 
	 p = http://xmlns.com/foaf/0.1/nick 
		 o = TimBL
s = Nc34e2bfa2f094433a7a8661174a995c0 
	 p = http://www.w3.org/ns/auth/cert#exponent 
		 o = 65537
s = http://www.w3.org/data#W3C 
	 p = http://xmlns.com/foaf/0.1/member 
		 o = https://www.w3.org/People/Berners-Lee/card#i
s = http://dig.csail.mit.edu/data#DIG 
	 p = http://xmlns.com/foaf/0.1/member 
		 o = https://www.w3.org/People/Berners-Lee/card#i
s = http://www.w

To oczywiście nie jest jeszcze żadne filtrowanie. Ale jeśli dodasz `if`, to już będzie to jakiś filtr:

In [None]:
from rdflib import URIRef
from rdflib.namespace import RDFS

tbl = URIRef('https://www.w3.org/People/Berners-Lee/card#i')

for s, p, o in g_tbl:
    if s == tbl and p == RDFS.label:
        print('\"{}\" jest etykietą zasobu o identyfikatorze {}'.format(o,s))

"Tim Berners-Lee" jest etykietą zasobu o identyfikatorze https://www.w3.org/People/Berners-Lee/card#i


Oczywiście nie polecamy stosowania powyższych rozwiązań filtrujących. Poniżej zaproponujemy kilka metod zaimplementowanych w RDFLib.

Pierwszą, i pewnie najważniejszą, z nich jest funkcja `triples`. Jako wynik zwraca ona zbiór trójek mających zadaną przez nas formę.

In [None]:
from rdflib.namespace import RDF

for s, p, o in g_tbl.triples((tbl, RDF.type, None)):
    print("{} is a {}".format(s, o)) 

https://www.w3.org/People/Berners-Lee/card#i is a http://www.w3.org/2000/10/swap/pim/contact#Male
https://www.w3.org/People/Berners-Lee/card#i is a http://xmlns.com/foaf/0.1/Person


W powyższym kodzie funkcja `triples()` przyjmuje jako argument formę `(tbl, RDF.type, None)` i zwraca jako wynik trójki, w których podmiotem jest `tbl`, a orzeczeniem `RDF.type`. Dopełnienie jest nieokreślone (`None`).

Ponieważ funkcja `triples()` zwraca zbiór trójek, można go dodać do dowolnego grafu:

In [None]:
g = Graph()
g.bind('foaf', FOAF)
g.bind('con', Namespace('http://www.w3.org/2000/10/swap/pim/contact#'))

g += g_tbl.triples((tbl, RDF.type, None))

print(g.serialize(format='turtle'))

@prefix con: <http://www.w3.org/2000/10/swap/pim/contact#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .

<https://www.w3.org/People/Berners-Lee/card#i> a con:Male,
        foaf:Person .




W RDFLib możemy filtrować graf skupiając się jedynie na fragmentach trójek. Do tego służą funkcje `subjects()`, `predicates()`, `objects()`, `subject_predicates`, `predicate_objects`, `subject_objects`. Zobaczmy jak użyć niektórych z nich.

In [None]:
for subject in g_tbl.subjects(predicate=RDF.type, object=FOAF.Person): 
    print("{} jest typu FOAF.Person.".format(subject))

print('\n')
for predicate in g_tbl.predicates(subject=tbl, object=FOAF.Person): 
    print("Tim Berners-Lee jest związany predykatem {} z klasą FOAF.Person.".format(predicate))

print('\nW grafie opisującym Tiam Bernersa-Lee mamy klasy:')    
for subject, object in g_tbl.subject_objects(predicate=RDF.type): 
    print("- {} jest typu {}.".format(subject, object))        

https://www.w3.org/People/Berners-Lee/card#i jest typu FOAF.Person.


Tim Berners-Lee jest związany predykatem http://www.w3.org/1999/02/22-rdf-syntax-ns#type z klasą FOAF.Person.

W grafie opisującym Tiam Bernersa-Lee mamy klasy:
- http://www.w3.org/People/Berners-Lee/card jest typu http://xmlns.com/foaf/0.1/PersonalProfileDocument.
- https://timbl.com/timbl/Public/friends.ttl jest typu http://xmlns.com/foaf/0.1/PersonalProfileDocument.
- Nc34e2bfa2f094433a7a8661174a995c0 jest typu http://www.w3.org/ns/auth/cert#RSAPublicKey.
- https://www.w3.org/People/Berners-Lee/card#i jest typu http://www.w3.org/2000/10/swap/pim/contact#Male.
- https://www.w3.org/People/Berners-Lee/card#i jest typu http://xmlns.com/foaf/0.1/Person.
- N87092309bcdb434c886fcfe395f39e92 jest typu http://www.w3.org/2006/vcard/ns#Work.


Finally, for some properties, only one value per resource makes sense (i.e they are functional properties, or have max-cardinality of 1). The `value()` method is useful for this, as it returns just a single node, not a generator:

Get a value for a pair of two criteria

Exactly one of subject, predicate, object must be None. Useful if one
knows that there may only be one value.

It is one of those situations that occur a lot, hence this
'macro' like utility

Parameters:
subject, predicate, object  -- exactly one must be None
default -- value to be returned if no values found
any -- if True, return any value in the case there is more than one,
else, raise UniquenessError

Funkcja `value()` może mieć dwa ciekawe użycia. Oba wiąż się z tym, że zwraca ona tylko jedną wartość. Przywołajmy więc jeszcze raz graf, gdzie Janowi Kowalskiemu przypiszemy dwa przezwiska:

In [None]:
# Utwórz nowy graf.
g = Graph()
g.add((uri_jana_kowalskiego, FOAF.nick, Literal('Wafel'))) 
g.add((uri_jana_kowalskiego, FOAF.nick, Literal('Chudy'))) 

<Graph identifier=N06cc5dd9effd4c9bbc6a0b372f1e3674 (<class 'rdflib.graph.Graph'>)>

Teraz jeśli wywołamy funkcję `value()` z argumentem `any=True`, to zwróci ona tylko jedną z wartości:

In [None]:
g.value(subject=uri_jana_kowalskiego, predicate=FOAF.nick, any=True)

rdflib.term.Literal('Wafel')

Jeśli argument `any=True`, wówczas otrzymamy błąd *Uniqueness assumption is not fulfilled*:

In [None]:
g.value(subject=uri_jana_kowalskiego, predicate=FOAF.nick, any=False)

UniquenessError: Uniqueness assumption is not fulfilled. Multiple values are: While trying to find a value for (http://ai.kul.pl/vocab/jan_kowalski, http://xmlns.com/foaf/0.1/nick, None) the following multiple values where found:
(http://ai.kul.pl/vocab/jan_kowalski, http://xmlns.com/foaf/0.1/nick, Wafel)
 (contexts: [<Graph identifier=N06cc5dd9effd4c9bbc6a0b372f1e3674 (<class 'rdflib.graph.Graph'>)>])
(http://ai.kul.pl/vocab/jan_kowalski, http://xmlns.com/foaf/0.1/nick, Chudy)
 (contexts: [<Graph identifier=N06cc5dd9effd4c9bbc6a0b372f1e3674 (<class 'rdflib.graph.Graph'>)>])


Gdy jednak zapytamy, kto ma przezwisko Wafel i nadal `any=False`, nie otrzymamy błędu, bo tylko jedna osoba nosi ten przydomek:

In [None]:
g.value(predicate=FOAF.nick, object=Literal("Wafel"), any=False)

`label()` zwraca wartość `RDFS.label` lub napis będący wartością argumentu `default`.

In [None]:
print(g_tbl.label(subject=tbl, default='Nie ma labela.'))
print(g.label(subject=tbl, default='Nie ma labela.'))

Funkcja `preferredLabel()` zwraca pary `(SKOS.prefLabel, PREF_LABEL_VALUE)` lub `(RDFS.label, LABEL_VALUE)`. Argument `labelProperties` można rozszerzyć o dodatkowe labele, e.g. `SKOS.altLabel`. Jeśli dany zasób będzie posiadał jednocześnie `SKOS.prefLabel` i `RDFS.label`, funkcja zwróci `(SKOS.prefLabel, PREF_LABEL_VALUE)`. 

In [None]:
# g_tbl.remove((tbl, SKOS.prefLabel, None))
print(g_tbl.preferredLabel(subject=tbl, lang=None, default=None,
                           labelProperties=(rdflib.term.URIRef('http://www.w3.org/2004/02/skos/core#prefLabel'), 
                                            rdflib.term.URIRef('http://www.w3.org/2000/01/rdf-schema#label'))))

g_tbl.add((tbl, SKOS.prefLabel, Literal('Sir Tim', lang='en')))

print(g_tbl.preferredLabel(subject=tbl, lang=None, default=None,
                           labelProperties=(rdflib.term.URIRef('http://www.w3.org/2004/02/skos/core#prefLabel'), 
                                            rdflib.term.URIRef('http://www.w3.org/2000/01/rdf-schema#label'))))


print(g.preferredLabel(subject=tbl, lang=None, default='Nie ma żadnej etykiety.',
                           labelProperties=(rdflib.term.URIRef('http://www.w3.org/2004/02/skos/core#prefLabel'),
                                            rdflib.term.URIRef('http://www.w3.org/2000/01/rdf-schema#label'))))

#### User-friendly labels

Use `label()` to quickly look up the RDFS label of something, or better use `preferredLabel()` to find a label using several different properties (i.e. either rdfs:label, skos:preferredLabel, dc:title, etc.).

In [None]:
import rdflib
from rdflib import Graph, Namespace, Literal
from rdflib.namespace import RDFS, SKOS, DC

ns = Namespace("http://kul.pl/ontology/")

g = Graph()
g.add((ns.bob, RDFS.label, Literal("Bob")))
g.add((ns.bob, SKOS.prefLabel, Literal("Bobinio")))
g.add((ns.bob, DC.title, Literal("Bob Title")))

In [None]:
print("-", g.label(ns.bob))
print("-", g.preferredLabel(ns.bob))

## Kwerendy SPARQL

RDFLib pozawala na użycie języka kwerend SPARQL 1.1.

Użyj metody `rdflib.graph.Graph.query()`, aby wykonać kwerendę na grafie.

`rdflib.graph.Graph.update()`...

Metoda `query()` instancję `rdflib.query.Result`. 

SELECT, będzie to instancja typu `rdflib.query.ResultRow` zwracająca zmienne z kwerendy. 

CONSTRUCT/DESCRIBE queries, iterating over the result object gives the triples. 

ASK queries, iterating will yield the single boolean answer, or evaluating the result object in a boolean-context (i.e. `bool(result)`)

```
PREFIX rdfs: <...>
PREFIX owl: <...>
PREFIX foaf: <...>

SELECT ?var1 ?var2 ...
FROM #graph
WHERE { 
    #query pattern with ?var1 and ?var2
}
```

In [None]:
import rdflib
g_tbl = rdflib.Graph()
g_tbl.parse("http://www.w3.org/People/Berners-Lee/card")
print(g_tbl.serialize(format="turtle"))

In [None]:
qres = g.query(
    """
    PREFIX foaf: <http://xmlns.com/foaf/0.1/>
    PREFIX con: <http://www.w3.org/2000/10/swap/pim/contact#>
    SELECT DISTINCT ?aname ?astreet
        WHERE {
            ?a foaf:name ?aname ;
               con:office ?_office .
            ?_office con:address ?_address .
            ?_address con:street ?astreet .
        }""")

In [None]:
print(list(qres))

for row in qres:
    print("%s lives at %s." % row)

Wynikiem kwerendy typu SELECT jest lista n-elementowych krotek (n-tek), gdzie n jest liczną zminnych występujących po SELECT. Wyniki kwerendy można wydobyć używając nazw zmiennych jak to pokazujemy poniżej:

In [None]:
for row in qres:
    print("{} lives at {}.".format(row.aname, row.astreet))
    
for row in qres:
    print("{} lives at {}.".format(row["aname"], row["astreet"]))   

As an alternative to using `PREFIX` in the SPARQL query, namespace bindings can be passed in with the initNs kwarg, see Namespaces and Bindings.

Variables can also be pre-bound, using `initBindings` kwarg can be used to pass in a dict of initial bindings, this is particularly useful for prepared queries, as described below.

## Endpointy SPARQL

In [None]:
import rdflib

g = rdflib.Graph(store="SPARQLStore")
g.open(configuration="https://lei.info/sparql")

qres = g.query('''
               SELECT DISTINCT * 
               WHERE {?s ?p ?o .} 
               LIMIT 13
               ''') 

for row in qres: 
    print(row)

In [None]:
g = rdflib.Graph()
g.parse("https://lei.info/X9AJL60ON2ZGVBEMAJ31")
for s,p,o in g:
    print(s, p, o)

### Prepared Queries

The method `rdflib.plugins.sparql.prepareQuery()` takes a query as a string and will return a `rdflib.plugins.sparql.sparql.Query object`. This can then be passed to the `rdflib.graph.Graph.query()` method.
The `initBindings` kwarg can be used to pass in a dict of initial bindings:

In [None]:
from rdflib.namespace import FOAF
from rdflib.plugins.sparql import prepareQuery

prepared_query = prepareQuery('SELECT ?s WHERE { ?person foaf:name ?s .}', 
                              initNs = {"foaf": FOAF})

g_tbl = rdflib.Graph() 
g_tbl.load("http://www.w3.org/People/Berners-Lee/card")

tim = rdflib.URIRef("https://www.w3.org/People/Berners-Lee/card#i")

for row in g_tbl.query(prepared_query, initBindings={'person': tim}): 
    print(row)

In [None]:
# from rdflib import Namespace
# from rdflib.plugins.sparql import prepareQuery

# q = prepareQuery('''SELECT ?city 
#                     WHERE { ?legalentity lei:headquartersAddress _:ha.
#                             _:ha lei:city ?city .}''', 
#                  initNs = {"lei": Namespace("http://lei.info/voc/l1/")})

# g_lei = rdflib.Graph(store="SPARQLStore")
# g_lei.open(configuration="https://lei.info/sparql")

# apple = rdflib.URIRef("http://lei.info/HWUPKR0MPOU8FGXBT394")
# microsoft = rdflib.URIRef("https://lei.info/INR2EJN1ERAN0W5ZP974")

# for row in g_lei.query(q, initBindings={'legalentity': apple}): 
#     print(row)
    
# # for row in g.query(prepared_query, initBindings={'legal_entity': microsoft}): 
# #     print(row)    

### DBPedia

In [None]:
# sparqlstore_example.py

from rdflib import Graph, URIRef, Namespace
from rdflib.plugins.stores.sparqlstore import SPARQLStore

dbo = Namespace("http://dbpedia.org/ontology/")

In [None]:
# EXAMPLE 1: using a Graph with the Store type string set to "SPARQLStore"
graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

pop = graph.value(URIRef("http://dbpedia.org/resource/Berlin"), dbo.populationTotal)

print("According to DBPedia, Berlin has a population of {0:,}.".format(int(pop), ",d"))

In [None]:
# # EXAMPLE 2: using a SPARQLStore object directly
# st = SPARQLStore("http://dbpedia.org/sparql")

# for p in st.objects(URIRef("http://dbpedia.org/resource/Brisbane"), dbo.populationTotal):
#     print(
#         "According to DBPedia, Brisbane has a population of "
#         "{0:,}".format(int(pop), ",d")
#     )

In [None]:
# EXAMPLE 3: doing RDFlib triple navigation using SPARQLStore as a Graph()
from rdflib.namespace import RDF, SKOS

graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

# we are asking DBPedia for 3 skos:Concept instances
count = 0

for s in graph.subjects(predicate=RDF.type, object=SKOS.Concept):
    count += 1
    print(s)
    if count >= 3:
        break

In [None]:
# # EXAMPLE 4: using a SPARQL endpoint that requires Basic HTTP authentication
# # NOTE: this example won't run since the endpoint isn't live (or real)
# s = SPARQLStore(query_endpoint="http://fake-sparql-endpoint.com/repository/x", auth=("my_username", "my_password"))
# # do normal Graph things

### Update

In [None]:
# sparql_update_example.py

import rdflib

g = rdflib.Graph()
g.parse("http://www.w3.org/People/Berners-Lee/card")

print("Initially there are {} triples in the graph".format(len(g)))

g.update(
    """
    PREFIX foaf: <http://xmlns.com/foaf/0.1/>
    PREFIX dbpedia: <http://dbpedia.org/resource/>
    INSERT
        { ?s a dbpedia:Human . }
    WHERE
        { ?s a foaf:Person . }
    """
)
print("After the UPDATE, there are {} triples in the graph".format(len(g)))

## Utilities and convenience functions <a class="anchor" id="chapter1.6"></a>

### Slicing graphs

Python allows slicing arrays with a slice object, a triple of start, stop index and step-size:
```
>>> range(10)[2:9:3] 
[2, 5, 8]
```
 
RDFLib graphs override ``__getitem__`` and we pervert the slice triple to be a RDF triple instead. This lets slice syntax be a shortcut for `triples()`, `subject_predicates()`, `contains()`, and other Graph query-methods:

```
graph[:]
# same as
iter(graph)

graph[ns.bob]
# same as
graph.predicate_objects(ns.bob)

graph[ns.bob : FOAF.knows]
# same as
graph.objects(ns.bob, RDFS.label)

graph[ns.bob : FOAF.knows : ns.bill]
# same as
(ns.bob, FOAF.knows, ns.bill) in graph

graph[:FOAF.knows]
# same as 
graph.subject_objects(FOAF.knows)
```

In [None]:
for p, o in g[ns.bob]: # g[ns.bob] same as g.predicate_objects(ns.bob)
    print(p, o)

In [None]:
for o in g[ns.bob : RDFS.label]: # g[ns.bob : RDFS.label] same as g.objects(ns.bob, RDFS.label)
    print(o)

In [None]:
from rdflib.namespace import FOAF
g[ns.bob : FOAF.knows : ns.bill] # same as (ns.bob, FOAF.knows, ns.bill) in g

In [None]:
for s, p in g[:RDFS.label]: # same as g.subject_objects(RDFS.label)
    print(s, p)

In [None]:
from rdflib import Graph
from rdflib.namespace import RDF
graph = Graph()

g.load("https://ebiquity.umbc.edu/person/foaf/Francis/Ferraro/foaf.rdf", format="xml")

for person in graph[: RDF.type : FOAF.Person]:
    friends = list(graph[person : FOAF.knows * "+" / FOAF.name])
    if friends:
        print("%s's circle of friends:" % graph.value(person, FOAF.name))
        for name in friends:
            print(name)

## Examples <a class="anchor" id="chapter1.7"></a>

### ConjunctiveGraph

## Containers & Collections
There are two convenience classes for RDF Containers & Collections which you can use instead of declaring each triple of a Containers or a Collections individually:
- `Container()` (also `Bag, Seq & Alt`) and
- `Collection()`

See their documentation for how.

## Navigating Graphs

An RDF Graph is a set of RDF triples, and we try to mirror exactly this in RDFLib. The Python Graph() tries to emulate a container type.

#### Graphs as Iterators
RDFLib graphs override `__iter__()` in order to support iteration over the contained triples:

In [None]:
someGraph = Graph()
for subject, predicate, object in someGraph:
    if not (subject, predicate, object) in someGraph:
        raise Exception("Iterator / Container Protocols are Broken!!")

#### Contains check
Graphs implement `__contains__()`, so you can check if a triple is in a graph with triple in graph syntax:

In [None]:
from rdflib import URIRef
from rdflib.namespace import RDF

graph = Graph()

bob = URIRef("http://example.org/people/bob")

graph.add((bob, RDF.type, FOAF.Person))

if (bob, RDF.type, FOAF.Person) in graph:
    print("This graph knows that Bob is a person!")

Note that this triple does not have to be completely bound:

In [None]:
if (bob, None, None) in graph:
    print("This graph contains triples about Bob!")

#### Set Operations on RDFLib Graphs

Graphs override several pythons operators: `__iadd__()`, `__isub__()`, etc. This supports addition, subtraction and other set-operations on Graphs:

<table>
<tr>
<th>operation</th>
<th>effect</th>
</tr>

<tr>
<td>G1 + G2</td>
<td>returns new graph with union</td>
</tr>

<tr>
<td>G1 += G1</td>
<td>union / addition</td>
</tr>
    
<tr>
<td>G1 - G2</td>
<td>returns new graph with difference</td>
</tr>

<tr>
<td>G1 -= G1</td>
<td>difference / subtraction</td>
</tr>
    
<tr>
<td>G1 & G2</td>
<td>intersection (triples in both graphs)</td>
</tr>

<tr>
<td>G1 ^ G1</td>
<td>xor (triples in either G1 or G2, but not in both)</td>
</tr>    
</table>

**Warning** Set-operations on graphs assume Blank Nodes are shared between graphs. This may or may not do what you want. See 2.4 Merging graphs for details.

In [None]:
"""
An RDFLib ConjunctiveGraph is an (unnamed) aggregation of all the named graphs
within a Store. The :meth:`~rdflib.graph.ConjunctiveGraph.get_context`
method can be used to get a particular named graph for use such as to add
triples to, or the default graph can be used

This example shows how to create named graphs and work with the
conjunction (union) of all the graphs.
"""

from rdflib import Namespace, Literal, URIRef
from rdflib.graph import Graph, ConjunctiveGraph
from rdflib.plugins.memory import IOMemory


ns = Namespace("http://love.com#")

mary = URIRef("http://love.com/lovers/mary")
john = URIRef("http://love.com/lovers/john")

cmary = URIRef("http://love.com/lovers/mary")
cjohn = URIRef("http://love.com/lovers/john")

store = IOMemory()

g = ConjunctiveGraph(store=store)

g.bind("love", ns)

# add a graph for Mary's facts to the Conjunctive Graph
gmary = Graph(store=store, identifier=cmary)

# Mary's graph only contains the URI of the person she love, not his cute name
gmary.add((mary, ns["hasName"], Literal("Mary")))
gmary.add((mary, ns["loves"], john))



# add a graph for John's facts to the Conjunctive Graph
gjohn = Graph(store=store, identifier=cjohn)

# John's graph contains his cute name
gjohn.add((john, ns["hasCuteName"], Literal("Johnny Boy")))


print("\n1. ===================\n")
# enumerate contexts
for c in g.contexts():
    print("-- %s " % c)

print("\n2. ===================\n")
# separate graphs
print(gjohn.serialize(format="n3"))
print("===================")
print(gmary.serialize(format="n3"))

print("\n3. ===================\n")
# full graph
print(g.serialize(format="n3"))

print("\n4. ===================\n")
# query the conjunction of all graphs
xx = None
for x in g[mary : ns.loves / ns.hasCuteName]:
    xx = x
print("Q: Who does Mary love?")
print("A: Mary loves {}".format(xx))

print("\n5. ===================\n")
# query the conjunction of all graphs
xx = None
for x in gmary[mary : ns.loves / ns.hasCuteName]:
    xx = x
print("Q: Who does Mary love?")
print("A: Mary loves {}".format(xx))

### Mapping between RDF data-typed literals and Python objects

In [None]:
"""
RDFLib can map between RDF data-typed literals and Python objects.

Mapping for integers, floats, dateTimes, etc. are already added, but
you can also add your own.

This example shows how :meth:`rdflib.term.bind` lets you register new
mappings between literal datatypes and Python objects
"""

from rdflib import Graph, Literal, Namespace, XSD
from rdflib.term import bind

# complex numbers are not registered by default
# no custom constructor/serializer needed since
# complex('(2+3j)') works fine
bind(XSD.complexNumber, complex)

ns = Namespace("urn:my:namespace:")

c = complex(2, 3)

l = Literal(c)

g = Graph()
g.add((ns.mysubject, ns.myprop, l))

n3 = g.serialize(format="n3")
print(n3)

# round-trip through n3 serialize/parse
g2 = Graph()
g2.parse(data=n3, format="n3")
    
l2 = list(g2)[0][2]

print(l2)

print(l2.value == c)  # back to a python complex object


### custom evaluation function

In [None]:
"""
This example shows how a custom evaluation function can be added to
handle certain SPARQL Algebra elements.

A custom function is added that adds ``rdfs:subClassOf`` "inference" when
asking for ``rdf:type`` triples.

Here the custom eval function is added manually, normally you would use
setuptools and entry_points to do it:
i.e. in your setup.py::

    entry_points = {
        'rdf.plugins.sparqleval': [
            'myfunc =     mypackage:MyFunction',
            ],
    }
"""

import rdflib

from rdflib.plugins.sparql.evaluate import evalBGP
from rdflib.namespace import FOAF

inferredSubClass = rdflib.RDFS.subClassOf * "*"  # any number of rdfs.subClassOf


def customEval(ctx, part):
    """
    Rewrite triple patterns to get super-classes
    """

    if part.name == "BGP":

        # rewrite triples
        triples = []
        for t in part.triples:
            if t[1] == rdflib.RDF.type:
                bnode = rdflib.BNode()
                triples.append((t[0], t[1], bnode))
                triples.append((bnode, inferredSubClass, t[2]))
            else:
                triples.append(t)

        # delegate to normal evalBGP
        return evalBGP(ctx, triples)

    raise NotImplementedError()



# add function directly, normally we would use setuptools and entry_points
rdflib.plugins.sparql.CUSTOM_EVALS["exampleEval"] = customEval

g = rdflib.Graph()
g.load("http://www.w3.org/People/Berners-Lee/card")

# Add the subClassStmt so that we can query for it!
g.add((FOAF.Person, rdflib.RDFS.subClassOf, FOAF.Agent))

# Find all FOAF Agents
for x in g.query("PREFIX foaf: <%s> SELECT * WHERE { ?s a foaf:Agent}" % FOAF):
    print(x)

## Ćwiczenia

### ĆWICZENIE 1 - Polscy Poeci

Użyj kwerendy SPARQLowej, aby wydobyć z DBpedii następujące informacje o polskich poeatach:
- nazwa (imię i nazwisko)
- data urodzenia
- biogram (w języku polskim)

Jakich relacji i klas użyjesz?

Wynik kwerendy umieść w liście, którą zapisz następnie jako plik excele.

In [None]:
# Pani Alicja
from rdflib import Graph
import pandas as pd
graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

lista = graph.query('''
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX dbo: <http://dbpedia.org/ontology/>
SELECT ?birthName ?birthDate ?abstract
WHERE {?s rdf:type <http://dbpedia.org/class/yago/WikicatPolishPoets> ;
                    dbo:birthName ?birthName ;
                    dbo:birthDate ?birthDate ;
                    dbo:abstract ?abstract }
''')

poets_list = []
for row in lista:
    poets_list.append([row.birthName, row.birthDate, row.abstract])

# poets = {
#     'birthName': [],
#     'birthDate': [],
#     'abstract': []
# }

# for poet in poets_list:
#     poets['birthName'].append(poet[0])
#     poets['birthDate'].append(poet[1])
#     poets['abstract'].append(poet[2])

 
df = pd.DataFrame(poets_list, columns = ['birthName', 'birthDate', 'abstract'])
df.to_excel('poets_alicja.xlsx', index=False, header=True)

In [None]:
# Pan Rafał

graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

temp = graph.query('''
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX dbo: <http://dbpedia.org/ontology/>
SELECT ?birthName ?birthDate ?abstract
WHERE {?ppoet rdf:type <http://dbpedia.org/class/yago/WikicatPolishPoets> ;
                    dbo:birthName ?birthName ;
                    dbo:birthDate ?birthDate ;
                    dbo:abstract ?abstract}'''
                  )

print(temp)

poets_list = []
for row in temp:
    poets_list.append([row.birthName, row.birthDate, row.abstract])

df = pd.DataFrame(poets_list, columns = ['Name', 'Birth date', 'Abstract'])
df.to_excel('Lista_poetow_Rafal.xlsx', encoding='UTF-8')

In [None]:
from rdflib import Graph
from rdflib.plugins.stores.sparqlstore import SPARQLStore
import pandas as pd

graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

qres = graph.query('''
                    PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
                    PREFIX dbo: <http://dbpedia.org/ontology/>
                    PREFIX yago: <http://dbpedia.org/class/yago/>
                    SELECT ?birthName ?birthDate ?abstract
                    WHERE {?ppoet rdf:type yago:WikicatPolishPoets ;
                                    dbo:birthName ?birthName ; 
                                    dbo:birthDate ?birthDate ;
                                    dbo:abstract ?abstract }
                    '''
                  )

poets_list = []

for row in qres:
    if row.abstract.language == "pl":
        poets_list.append([row.birthName.value, 
                           str(row.birthDate.value), 
                           row.abstract.value])   
    
poets_list[0]
df = pd.DataFrame(poets_list)
df.to_excel("polish_poets_pl.xlsx", header=["Imię i nazwisko", "Data urodzenia", "Biogram"])  

In [None]:
from rdflib import Graph
from rdflib.plugins.stores.sparqlstore import SPARQLStore
import pandas as pd

graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

qres = graph.query('''
                    PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
                    PREFIX dbo: <http://dbpedia.org/ontology/>
                    PREFIX yago: <http://dbpedia.org/class/yago/>
                    SELECT ?birthName ?birthDate ?abstract
                    WHERE {?ppoet rdf:type yago:WikicatPolishPoets ;
                                    dbo:birthName ?birthName ; 
                                    dbo:birthDate ?birthDate ;
                                    dbo:abstract ?abstract .
                           FILTER(lang(?abstract) = 'pl')         
                            }
                    '''
                  )

poets_list = []

for row in qres:
    poets_list.append([row.birthName.value, 
                       str(row.birthDate.value), 
                       row.abstract.value])   
    
poets_list[0]
df = pd.DataFrame(poets_list)
df.to_excel("polish_poets2_pl.xlsx", header=["Imię i nazwisko", "Data urodzenia", "Biogram"])  

In [None]:
from rdflib import Graph
from rdflib.plugins.stores.sparqlstore import SPARQLStore
import pandas as pd

graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

qres = graph.query('''
                    PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
                    PREFIX dbo: <http://dbpedia.org/ontology/>
                    PREFIX yago: <http://dbpedia.org/class/yago/>
                    PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
                    PREFIX foaf: <http://xmlns.com/foaf/0.1/>
                    SELECT ?foafName ?birthDate ?abstract
                    WHERE {?ppoet rdf:type yago:WikicatPolishPoets .
                           OPTIONAL { ?ppoet foaf:name ?foafName . }          
                           OPTIONAL { ?ppoet dbo:birthDate ?birthDate . }
                           OPTIONAL { ?ppoet dbo:abstract ?abstract . }
                           FILTER (lang(?abstract) = 'pl')
                           FILTER (REGEX(STR(?birthDate),"[0-9]{4}-[0-9]{2}-[0-9]{2}")).
                            }
                    '''
                  )

poets_list = []

for row in qres:
    poets_list.append([str(row.foafName), 
                       str(row.birthDate), 
                       row.abstract.value])   
    
df = pd.DataFrame(poets_list)
df.to_excel("polish_poets4_date.xlsx", header=["Imię i nazwisko", "Data urodzenia", "Biogram"])  

In [None]:
from rdflib import Graph
from rdflib.plugins.stores.sparqlstore import SPARQLStore
import pandas as pd

graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

qres = graph.query('''
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX dbo: <http://dbpedia.org/ontology/>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX dbr: <http://dbpedia.org/resource/>
SELECT ?name ?birth ?description ?person 
WHERE {?person a dbo:Philosopher .
?person dbo:birthPlace dbr:Warsaw .
?person dbo:birthDate ?birth .
?person foaf:name ?name .
?person rdfs:comment ?description .
FILTER (LANG(?description) = 'pl') . 
} 
ORDER BY ?name
''')

for row in qres:
    print(row.name, "\n", " ", row.birth, "\n", "  ", row.person, "\n", "   ", row.description, "\n")

### ĆWICZENIE 2 -  Scarlett Johansson i problem najmniejszej miejscowości

https://imdbpy.readthedocs.io/en/latest/

In [None]:
"""
Requires download and import of Python imdb library from
https://imdbpy.github.io/ - (warning: installation
will trigger automatic installation of several other packages)
"""

!pip install imdbpy

In [None]:
import datetime
import os
import sys
import re
import time

try:
    import imdb
except ImportError:
    imdb = None

from rdflib import BNode, ConjunctiveGraph, URIRef, Literal, Namespace, RDF
from rdflib.namespace import FOAF, DC

storefn = os.path.expanduser("movies.n3")
storeuri = storefn

IMDB = Namespace("http://imdb.com/")

class Store:
    def __init__(self):
        self.graph = ConjunctiveGraph()
        if os.path.exists(storefn):
            self.graph.load(storeuri, format="n3")
        self.graph.bind("dc", DC)
        self.graph.bind("foaf", FOAF)
        self.graph.bind("imdb", IMDB)

    def save(self):
        self.graph.serialize(storeuri, format="n3")

    def new_movie(self, movie):
        movieuri = URIRef("http://www.imdb.com/title/tt%s/" % movie.movieID)
        self.graph.add((movieuri, RDF.type, IMDB["Movie"]))
        self.graph.add((movieuri, DC["title"], Literal(movie["title"])))
        self.graph.add((movieuri, IMDB["year"], Literal(int(movie["year"]))))
        self.save()

    def movie_is_in(self, uri):
        return (URIRef(uri), RDF.type, IMDB["Movie"]) in self.graph


i = imdb.IMDb()
movie = i.get_movie("0133093")
print("%s (%s)" % (movie["title"].encode("utf-8"), movie["year"]))

for director in movie["director"]:
    print("directed by: %s" % director["name"].encode("utf-8"))

for writer in movie["writer"]:
    print("written by: %s" % writer["name"].encode("utf-8"))

s = Store()    
s.new_movie(movie)

In [None]:
movie['rating']

In [None]:
movie.keys()

In [None]:
person = i.get_person("0424060")
print(person['name'])
person['filmography']

In [None]:
from rdflib import Graph
from rdflib.plugins.stores.sparqlstore import SPARQLStore
import pandas as pd

graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

qres = graph.query('''
                    PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
                    PREFIX dbo: <http://dbpedia.org/ontology/>
                    PREFIX yago: <http://dbpedia.org/class/yago/>
                    SELECT ?s
                    WHERE {?s ?p 'Scarlett Johansson'@en .        
                            }
                    '''
                  )

for row in qres:
    print(row)

In [None]:
person.keys()

### ĆWICZENIE 3 - Testy higieniczne, czyli czego brakuje mojej ontologii

- Załaduj ontologię https://spec.edmcouncil.org/auto/ontology/master/latest/AboutAUTODev.rdf
- Stwórz listę wszystkich odnośników (URL) importowanych w powyższej ontologii (skorzystaj z `owl:imports`)
- Korzystając z listy importów, załaduj wszystkie importowane ontologie do jednego grafu
- Napisz 2 kwerendy SPARQLowe, które sprawdzą, czy zasoby tych ontologii mają `rdfs:label` i `skos:definition`; kweredy te muszą zawierać "WARN" podobnie do kwerendy https://github.com/edmcouncil/fibo/blob/master/etc/testing/hygiene/testHygiene1103.sparql

In [None]:
import rdflib
from rdflib import Graph
from rdflib.namespace import OWL

g = Graph()
g.load("https://spec.edmcouncil.org/auto/ontology/master/latest/AboutAUTODev.rdf")
print(len(g))

In [None]:
import_list = []
for ontology_import in g.objects(None, OWL.imports):
    import_list.append(ontology_import)
 
for ontology_import in import_list:
    print(ontology_import)
    
graph = Graph()
for ontology_import in import_list:
    graph.load(ontology_import)    

In [None]:
label_query = graph.query('''
    PREFIX owl:   <http://www.w3.org/2002/07/owl#>
    SELECT DISTINCT ?error
    WHERE {
      ?class a owl:Class .
      FILTER NOT EXISTS {?class rdfs:label ?label}
      FILTER (!isBlank(?class))
      BIND (concat ("WARN: Class ", str(?class), " has no label.") AS ?error)
    }
    ''')

print(len(label_query))

for row in label_query:
    print(row.error)

In [None]:
definition_query = graph.query('''
                PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
                PREFIX owl:   <http://www.w3.org/2002/07/owl#>

                SELECT DISTINCT ?error
                WHERE {
                  ?class a owl:Class .
                  FILTER NOT EXISTS {?class skos:definition ?definition}
                  FILTER (!isBlank(?class))
                  BIND (concat ("WARN: Class ", str(?class), " has no definition.") AS ?error)
                }
                ''')

print(len(definition_query))

for row in definition_query:
    print(row.error)

### ĆWICZENIE 4 - Poczet Królów Polskich

https://pl.wikipedia.org/wiki/Kr%C3%B3l_Polski

In [None]:
from rdflib import Graph, URIRef, Namespace
from rdflib.plugins.stores.sparqlstore import SPARQLStore

dbo = Namespace("http://dbpedia.org/ontology/")
dbp = Namespace("http://dbpedia.org/property/")

In [None]:
graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

pop = graph.value(URIRef("http://dbpedia.org/resource/Stanisław_August_Poniatowski"), dbp.father)

print(pop)

http://dbpedia.org/resource/Stanisław_Poniatowski_(1676–1762)


In [None]:
from rdflib.namespace import RDF, SKOS

graph = Graph("SPARQLStore", identifier="http://dbpedia.org")
graph.open("http://dbpedia.org/sparql")

In [None]:
hasFather = set()
hasMother = set()

In [None]:
qres = graph.query('''
               PREFIX owl: <http://www.w3.org/2002/07/owl#>
               PREFIX : <http://dbpedia.org/resource/>
               PREFIX dbo: <http://dbpedia.org/ontology/>
               PREFIX dbp: <http://dbpedia.org/property/>
               SELECT ?s ?f ?m
               WHERE {                  
                       ?s a <http://dbpedia.org/class/yago/WikicatPolishMonarchs> .
                       OPTIONAL{?s dbp:father ?f}
                       OPTIONAL{?s dbp:mother ?m}
                   }
                   ''') 

for row in qres:
    monarch = str(row[0])
    monarch_father = str(row[1])
    monarch_mother = str(row[2])
#     print(monarch,"\n","\t",monarch_father,"\n","\t",monarch_mother)
    if monarch_father != "None":
        hasFather.add((monarch, monarch_father))
    if monarch_mother != "None":
        hasMother.add((monarch, monarch_mother))  



In [None]:
hasFather2 = set()
for child_father in hasFather:
    father = child_father[1]
    father_iri = "<"+father+">"
    qres = graph.query('''
               PREFIX owl: <http://www.w3.org/2002/07/owl#>
               PREFIX : <http://dbpedia.org/resource/>
               PREFIX dbo: <http://dbpedia.org/ontology/>
               PREFIX dbp: <http://dbpedia.org/property/>
               SELECT ?f
               WHERE {                  
                       %s dbo:child ?f
                   }
                   ''' % father_iri) 
    for row in qres:
        hasFather2.add((str(row[0]),father))

In [None]:
hasMother2 = set()
for child_mother in hasMother:
    mother = child_mother[1]
    if "dbpedia.org/resource" in mother:
        mother_iri = "<"+mother+">"
        qres = graph.query('''
                   PREFIX owl: <http://www.w3.org/2002/07/owl#>
                   PREFIX : <http://dbpedia.org/resource/>
                   PREFIX dbo: <http://dbpedia.org/ontology/>
                   PREFIX dbp: <http://dbpedia.org/property/>
                   SELECT ?f
                   WHERE {                  
                           %s dbo:child ?f
                       }
                       ''' % mother_iri) 
        for row in qres:
            hasMother2.add((str(row[0]),mother))

In [None]:
hasMother = hasMother.union(hasMother2)
hasFather = hasFather.union(hasFather2)

In [None]:
hasMother