# Manejo de datos RDF en Python. Carga, edición, consulta

La librería más habitual para trabajar con RDF en Python es rdflib. Aunque existen alternativas, suelen construirse extendiendo rdflib de alguna manera.

Ya has visto un ejemplo sobre cómo cargar datos en rdflib. En las siguientes líneas, símplemente cargaremos un grafo en memoria utilizando código similar al ejemplo que ya tenéis disponible en la asignatura.

1º, instalamos clonamos este mismo repositorio para disponer de los ejemplos en el entorno de ejecución:

In [1]:
!git clone https://github.com/cursosLabra/miw_websem2425.git

Cloning into 'miw_websem2425'...
remote: Enumerating objects: 24, done.[K
remote: Counting objects: 100% (24/24), done.[K
remote: Compressing objects: 100% (16/16), done.[K
remote: Total 24 (delta 6), reused 17 (delta 5), pack-reused 0 (from 0)[K
Receiving objects: 100% (24/24), 13.74 KiB | 1.72 MiB/s, done.
Resolving deltas: 100% (6/6), done.


Tras ello, instalamos rdflib y sus dependencias con pip.

In [2]:

!pip install rdflib

Collecting rdflib
  Downloading rdflib-7.1.3-py3-none-any.whl.metadata (11 kB)
Downloading rdflib-7.1.3-py3-none-any.whl (564 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m564.9/564.9 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: rdflib
Successfully installed rdflib-7.1.3


Y ahora lanzamos código para parsear con rdflib el grafo de datos situado en /Introduction/

In [3]:

from rdflib import Graph
g = Graph()
base_path = "/content/miw_websem2425/Introduction/"
g.parse(base_path + "example1.ttl")
g.parse(base_path + "example2.ttl")
g.parse(base_path + "example3.ttl")
print(g.serialize(format="turtle"))

@prefix dc: <http://purl.org/dc/elements/1.1/> .
@prefix uni: <http://uniovi.es/> .

uni:biologia dc:creator uni:ana,
        uni:juan .

uni:derecho dc:creator uni:luis .

uni:quimica dc:creator uni:ana,
        uni:luis .

uni:juan a uni:Profesor .

uni:ana a uni:Profesor .

uni:luis a uni:Becario .




Una vez cargados los datos, vamos a ver algo de código para recorrerlos.

In [4]:
# Los grafos de rdflib son iterables. Como tal, podemos recorrerlos con un bucle for each. Lo que tenemos en cada iteración es una tripleta

for a_triple in g:
  print(a_triple)

(rdflib.term.URIRef('http://uniovi.es/quimica'), rdflib.term.URIRef('http://purl.org/dc/elements/1.1/creator'), rdflib.term.URIRef('http://uniovi.es/ana'))
(rdflib.term.URIRef('http://uniovi.es/luis'), rdflib.term.URIRef('http://www.w3.org/1999/02/22-rdf-syntax-ns#type'), rdflib.term.URIRef('http://uniovi.es/Becario'))
(rdflib.term.URIRef('http://uniovi.es/quimica'), rdflib.term.URIRef('http://purl.org/dc/elements/1.1/creator'), rdflib.term.URIRef('http://uniovi.es/luis'))
(rdflib.term.URIRef('http://uniovi.es/derecho'), rdflib.term.URIRef('http://purl.org/dc/elements/1.1/creator'), rdflib.term.URIRef('http://uniovi.es/luis'))
(rdflib.term.URIRef('http://uniovi.es/biologia'), rdflib.term.URIRef('http://purl.org/dc/elements/1.1/creator'), rdflib.term.URIRef('http://uniovi.es/juan'))
(rdflib.term.URIRef('http://uniovi.es/juan'), rdflib.term.URIRef('http://www.w3.org/1999/02/22-rdf-syntax-ns#type'), rdflib.term.URIRef('http://uniovi.es/Profesor'))
(rdflib.term.URIRef('http://uniovi.es/ana

In [5]:
# Las tripletas son tuplas de 3 elementos. Para los que no estéis muy habituados a trabajar en Python, una tupla es una lista inmutable. Las tuplas son, a su vez, iterables.
for a_triple in g:
  for elem in a_triple:
    print(elem)
  print("-----")

# Otra manera visual de recorrer las tripletas usando unpacking de Python
for a_triple in g:
  s, p, o = a_triple
  print(s, p, o)


http://uniovi.es/quimica
http://purl.org/dc/elements/1.1/creator
http://uniovi.es/ana
-----
http://uniovi.es/luis
http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://uniovi.es/Becario
-----
http://uniovi.es/quimica
http://purl.org/dc/elements/1.1/creator
http://uniovi.es/luis
-----
http://uniovi.es/derecho
http://purl.org/dc/elements/1.1/creator
http://uniovi.es/luis
-----
http://uniovi.es/biologia
http://purl.org/dc/elements/1.1/creator
http://uniovi.es/juan
-----
http://uniovi.es/juan
http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://uniovi.es/Profesor
-----
http://uniovi.es/ana
http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://uniovi.es/Profesor
-----
http://uniovi.es/biologia
http://purl.org/dc/elements/1.1/creator
http://uniovi.es/ana
-----
http://uniovi.es/quimica http://purl.org/dc/elements/1.1/creator http://uniovi.es/ana
http://uniovi.es/luis http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Becario
http://uniovi.es/quimica http://purl.org/dc/elemen

Graph de rdflib ofrece un método muy útil para recorrer tripletas y, potencialmente, hacer alguna consulta básica: el método Graph.triples(). Así funciona:

In [6]:
# g.triples() es un método que espera 1 tupla de 3 elementos como parámetro. En caso de que esos 3 parámetros sean None, se comporta igual que al recorrer el grafo con un for each:
for a_triple in g.triples(  (None, None, None)  ):
  s, p, o = a_triple
  print(s,p,o)

http://uniovi.es/quimica http://purl.org/dc/elements/1.1/creator http://uniovi.es/ana
http://uniovi.es/luis http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Becario
http://uniovi.es/quimica http://purl.org/dc/elements/1.1/creator http://uniovi.es/luis
http://uniovi.es/derecho http://purl.org/dc/elements/1.1/creator http://uniovi.es/luis
http://uniovi.es/biologia http://purl.org/dc/elements/1.1/creator http://uniovi.es/juan
http://uniovi.es/juan http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Profesor
http://uniovi.es/ana http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Profesor
http://uniovi.es/biologia http://purl.org/dc/elements/1.1/creator http://uniovi.es/ana


In [7]:
# El método gana "poder" cuando damos un valor a alguno de los elementos de esa tupla. Por ejemplo:
from rdflib import URIRef

for a_triple in g.triples(  (None, URIRef('http://www.w3.org/1999/02/22-rdf-syntax-ns#type'), None)  ):
  s, p, o = a_triple
  print(s,p,o)

http://uniovi.es/juan http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Profesor
http://uniovi.es/ana http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Profesor
http://uniovi.es/luis http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Becario


In [8]:
# Con el código anterior hemos recorrido todas las tripletas del grafo que tienen rdf:type como predicado. Cada una de las posiciones de esa tupla sirve para filtrar, si queremos, tripletas que no coincidan con el valor que utilicemos.

# El primer elemento de la tupla fija un sujeto. Si es None, cualquier sujeto.
# El segundo elemento de la tupla fija un predicado. Si es None, cualquier predicado.
# El tercer elemento de la tupla fija un objeto. Si es None, cualquier objeto.

# Esto nor permite incluso hacer "consultas simples". No son consultas en el sentido de que el resultado siempre son tripletas, estructura ?s, ?p ?o. No podemos sacar/introducir variables, pero sigue siendo útil.

# Tripletas que contengan becarios:
for a_triple in g.triples(  (None,
                             URIRef('http://www.w3.org/1999/02/22-rdf-syntax-ns#type'),
                             URIRef('http://uniovi.es/Becario')   )  ):
  s, p, o = a_triple
  print(s,p,o)


http://uniovi.es/luis http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Becario


In [9]:
# Tripletas  donde Ana sea sujeto:
for a_triple in g.triples(  (URIRef('http://uniovi.es/ana'),
                             None,
                             None   )  ):
  s, p, o = a_triple
  print(s,p,o)


http://uniovi.es/ana http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Profesor


In [10]:
# Tripletas donde Ana sea objeto
for a_triple in g.triples(  (None,
                             None,
                             URIRef('http://uniovi.es/ana')   )  ):
  s, p, o = a_triple
  print(s,p,o)


http://uniovi.es/biologia http://purl.org/dc/elements/1.1/creator http://uniovi.es/ana
http://uniovi.es/quimica http://purl.org/dc/elements/1.1/creator http://uniovi.es/ana


rdflib también nos proporciona mecanismos para hacer consultas de SPARQL reales contra los datos cargados un en un objeto Graph(). Bastará con crear un string con una consulta SPARQL con sintaxis válida y llamar al método de Graph query().


In [11]:
# Consulta para obtener pares instance-clase
str_query = """
select * where {
  ?s a ?o
}
"""
query_result = g.query(str_query)

# Los resultados se recorren por filas, quizá te recuerde a resultsets de librerías para ejecutar consultas SQL.
# Cada fila contiene objeto de dominio de rdflib (URIRef, Literal...) en variables que se llaman exactamente como los nombres de variables en la consulta SPARQL
for a_row in query_result:
  an_instance = a_row.s
  a_class = a_row.o
  print(an_instance, a_class)



http://uniovi.es/juan http://uniovi.es/Profesor
http://uniovi.es/ana http://uniovi.es/Profesor
http://uniovi.es/luis http://uniovi.es/Becario


In [12]:
# Solamente instancias de profesor:
str_query = """
PREFIX uni: <http://uniovi.es/>

select * where {
  ?s a uni:Profesor
}
"""
query_result = g.query(str_query)

# Los resultados se recorren por filas, quizá te recuerde a resultsets de librerías para ejecutar consultas SQL.
# Cada fila contiene objeto de dominio de rdflib (URIRef, Literal...) en variables que se llaman exactamente como los nombres de variables en la consulta SPARQL
for a_row in query_result:
  print(a_row.s)


http://uniovi.es/juan
http://uniovi.es/ana


El código que hemos visto nos sirve para consultar datos del grafo, pero RDFlib también nos permite editar un grafo existente eliminando/añadiendo tripletas. Para hacer eso debemos de manejar, fundamentalmente, 3 clases:



*   URIRef --> Nos permite instanciar objetos que representan URIs
*   Literal --> Nos permite instancias cualquier tipo de literal. Los literales, además de su valor, pueden tener valores asociados como tipo de datos (string, int, float, date, bool, etc.), o etiqueta le lenguage (español, inglés, etc.).
*   BNode --> Nos permite instancias nodos anónimos. Mientras que conservemos en nuestro programa una referencia a estos objetos, podremos vinclular un mismo nodo anónimo con varios elementos.

No existe una clase para representar la idea de tripleta. Se añaden tripletas a un grafo mediante el método add, que espera recibir como parámetro una tupla conteniendo sujeto, predicado y objeto ordenados.




In [13]:
from rdflib import Literal
# from rdflib import URIRef

juan = URIRef("http://uniovi.es/juan")
age = URIRef("http://xmlns.com/foaf/0.1/age")
edad_juan = Literal(21, datatype="http://www.w3.org/2001/XMLSchema#")  # rdflib hace inferencias de tipo adecuadas
                                   # en general en función del tipo de datos de lo que se pase como primer valor al
                                   # constructor. Pero no viene mal declarar tipos explícitos y asegurarse de que
                                   # esto no fallará

g.add( (juan, age, edad_juan)  )
for a_triple in g.triples( (juan, None, None) ):
  s,p,o = a_triple
  print(s, p, o)

http://uniovi.es/juan http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Profesor
http://uniovi.es/juan http://xmlns.com/foaf/0.1/age 21


Hay una cuarta clase que no es esencial, pero nos ayuda mucho a escribir código de edición de grafos: Namespace(). Podemos declarar un espacio de nombres y añadir sujetos/propiades de manera mucho más sencilla:

In [14]:
from rdflib import Namespace

otracosa = Namespace("http://otracosa.es/")
uni = Namespace("http://uniovi.es/")

# rdflib ya tiene algunos namespaces precargados típicos, que podemos importaqr isn necesidad de cargar de cero:

from rdflib import XSD

g.add(   (uni.ana, otracosa.cantidad_ojos, Literal(2,datatype=XSD.int))   )

for a_triple in g.triples( (uni.ana, None, None) ):
  s,p,o = a_triple
  print(s, p, o)


http://uniovi.es/ana http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://uniovi.es/Profesor
http://uniovi.es/ana http://otracosa.es/cantidad_ojos 2


Si tenemos intención de serializar nuestro grafo, conviene hacer binding de los namespaces. Fíjate lo que ocurre con la lista de prefijos al tratar de serializar nuestor grafo actual:

In [15]:
print(g.serialize())

@prefix dc: <http://purl.org/dc/elements/1.1/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix ns1: <http://otracosa.es/> .
@prefix uni: <http://uniovi.es/> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

uni:biologia dc:creator uni:ana,
        uni:juan .

uni:derecho dc:creator uni:luis .

uni:quimica dc:creator uni:ana,
        uni:luis .

uni:juan a uni:Profesor ;
    foaf:age "21"^^xsd: .

uni:ana a uni:Profesor ;
    ns1:cantidad_ojos "2"^^xsd:int .

uni:luis a uni:Becario .




rdflib asignará prefijos "guapos" a los namespaces que haya parseado o que ya conozca (ya conoce FOAF). Pero aquellos que no, como http://otracosa.es/, les dará un valor por defecto, "feo".

Esto no tiene por qué ser así. Podemos indicar cómo queremos que serialice nuestros namespaces con prefijos que tengan sentido para nosotros.

In [16]:
g.bind("o_c", otracosa)
print(g.serialize())

@prefix dc: <http://purl.org/dc/elements/1.1/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix ns1: <http://otracosa.es/> .
@prefix uni: <http://uniovi.es/> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

uni:biologia dc:creator uni:ana,
        uni:juan .

uni:derecho dc:creator uni:luis .

uni:quimica dc:creator uni:ana,
        uni:luis .

uni:juan a uni:Profesor ;
    foaf:age "21"^^xsd: .

uni:ana a uni:Profesor ;
    ns1:cantidad_ojos "2"^^xsd:int .

uni:luis a uni:Becario .




rdflib, no obstante, nos proporciona herramientas para manipular y recorrer rdflib.Graphs. No nos proporciona formas de consumir contenido de un endpoint SPARQL, que es un caso de uso habitual. Para eso, debemos utilizar la librería SPARQLWrapper. Es de los mismos desarrolladores y comparte algunos objetos de modelo.

In [17]:
!pip install sparqlwrapper

Collecting sparqlwrapper
  Downloading SPARQLWrapper-2.0.0-py3-none-any.whl.metadata (2.0 kB)
Downloading SPARQLWrapper-2.0.0-py3-none-any.whl (28 kB)
Installing collected packages: sparqlwrapper
Successfully installed sparqlwrapper-2.0.0


In [18]:
from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

    SELECT ?label  WHERE {
      <http://dbpedia.org/resource/Oviedo> rdfs:label ?label
      }"""
    )  # Consulta para traer todas las etiquetas de Oviedo en DBpedia (potencvialmente en distintas lenguas)

sparql.setReturnFormat(JSON)  # Deberíamos configurar un formato de salida. Es habitual trabajar con JSON, pero tenemos más opciones
results = sparql.query().convert()  # Query hace la consulta, convert adapta los datos a nuestro formato de salida
for result in results["results"]["bindings"]:  # En el nodo results-->bindings del JSON encontramos una línea con los resultados.
    print(result["label"]["value"]) # En cada línea encontraremos claves que hacen referencia a las variables de nuestra query.
print("--------")
print(results["results"]["bindings"][0]) # Cada uno de esos nodos de resultado no contiene solo el valor sino más datos asociados, como tipo de datos o etiqueta de lenguaje.
                                         # No todos los bindings-->nombre de variable ofrecen los mismos campos. "value" siempre está, lo demás depende del tipo de datos que estés tratando.


Oviedo
أبيط (إسبانيا)
Oviedo
Oviedo
Oviedo
Οβιέδο
Oviedo
Oviedo
Oviedo
Oviedo
Oviedo
Oviedo
Oviedo
オビエド
오비에도
Oviedo (stad)
Oviedo
Oviedo
Овьедо
Oviedo, Asturien
Ов'єдо
奥维耶多
--------
{'label': {'type': 'literal', 'xml:lang': 'en', 'value': 'Oviedo'}}


In [19]:


sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    SELECT ?p ?o  WHERE {
      <http://dbpedia.org/resource/Oviedo> ?p ?o
      } LIMIT 100"""
    )  # Consulta para traer cosas sobre Oviedo (no más de 100)

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    print("Par predicado-objeto: " + result["p"]["value"] + " " + result["o"]["value"])
    print("Aspecto de la fila de resultado: " + str(result))
    print()

print("--------")


Par predicado-objeto: http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://www.w3.org/2002/07/owl#Thing
Aspecto de la fila de resultado: {'p': {'type': 'uri', 'value': 'http://www.w3.org/1999/02/22-rdf-syntax-ns#type'}, 'o': {'type': 'uri', 'value': 'http://www.w3.org/2002/07/owl#Thing'}}

Par predicado-objeto: http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://dbpedia.org/ontology/Place
Aspecto de la fila de resultado: {'p': {'type': 'uri', 'value': 'http://www.w3.org/1999/02/22-rdf-syntax-ns#type'}, 'o': {'type': 'uri', 'value': 'http://dbpedia.org/ontology/Place'}}

Par predicado-objeto: http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://dbpedia.org/ontology/Location
Aspecto de la fila de resultado: {'p': {'type': 'uri', 'value': 'http://www.w3.org/1999/02/22-rdf-syntax-ns#type'}, 'o': {'type': 'uri', 'value': 'http://dbpedia.org/ontology/Location'}}

Par predicado-objeto: http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://schema.org/Place
Aspecto de la fila de resulta