Para consultar datos, debemos tener 1) datos, y 2) un sitio donde consultarlos.

En el contexto de esta asignatura, se espera que hayas desarrollado ya tu propio conjunto de datos y sobre ellos harás las consultas que entregues. No obstante, para esta sesión, utilizaré datos de DBpedia.

En cuanto a dónde colocar tus datos para consultas, necesitamos un endpoint de SPARQL. Existen muchas alternativas:

* Fuseki (https://jena.apache.org/documentation/fuseki2/#download-fuseki), parte de Apache Jena. Utilizado, por ejemplo, en YAGO (https://yago-knowledge.org/).  Los datos se dividen en datasets aislados entre sí. Cada dataset tendrá su propia URL para exponer un endpoint para consultas. Esto no quiere decir que cada dataset consista en un único grafo. Se pueden introducir distintos grafos dentro de un mismo dataset, y consultarlos por separado en el mismo endpoint utilizando sentencias graph en SPARQL (el modelo de tripletas evolucionaría al modelo de quads).

* GraphDB (https://graphdb.ontotext.com/). Habitual en muchas empresas, con soporte comercial, robusto y estable.

* Virtuoso (https://vos.openlinksw.com/owiki/wiki/VOS/VOSDownload). Usado, por ejemplo, en DBpedia.  Muy consolidada y estable. Opción comercial y edición open source. Fama de eficiente con grandes volúmenes de datos, pero parece que hay propuestas más recientes que le aventajan en ese aspecto.

* Blazegrph(https://blazegraph.com/). Usado, por ejemplo, en Wikidata. Puede manejar muchos datos con la infraestructura adecuada, pero en Wikidata comienza a dar problemas. Sin soporte desde 2020 (la mayoría de sus ingenieros fueron contratados por Amazon Neptune). A pesar de que siga en Wikidata, la falta de soporte lo hace una opción arriesgada.

* QLever(https://github.com/ad-freiburg/QLever). Diseñado para funcionar bien con enormes volumenes de datos. Sus datos anunciados en presentaciones o documentos de investigación son espectaculares comparándolos con el rendimiento de otros motores, pero no está lo suficientemente probado en entornos reales. Implementado y mantenido por institución académica

* Oxigraph (https://github.com/oxigraph/oxigraph). Implementado en Rust, prometedor. Iniciativa OpenSource.

* RDFox (https://www.oxfordsemantic.tech/download). No sólo funciona como motor de SPARQL típico, soporte a razonadores.

En esta asignatura no pretendemos convertirte en un experto o experta en la administración de ningún endpoint concreto. No nos meteremos, en ningún caso, a hacer condiguraciones avanzadas de permisos de los mismos. Sólo buscamos que sepas que existen alternativas y seas capaz de instalar, poblar con datos y utilizar unpar cualquier de enpoints. Si no tienes ninguna preferencia, una opción factible sería instalar Fuseki y GraphDB. En ambos casos, tanto la instalación como el despliegue son sencillos y autoexplicativos en su versión básica. Pero puedes probar cualquier otro.

En este enlace encontrarás una lista (incompleta) de motores de SPARQL: https://en.wikipedia.org/wiki/List_of_SPARQL_implementations

En este otro, una lista (incompleta) de algunos endpoint públicos asociados a algún KG en RDF que puedes explorar a través de consultas SPARQL: https://www.w3.org/wiki/SparqlEndpoints


En este Jupyter vamos a experimentar con el endpoint de DBpedia. Escogiendo como dominio libros y entidades relacionadas, iremos poniendo ejemplos de consultas con mayor complejidad cada vez, que quizá te sirvan de inspiración para obtener consultas relacionadas con tu propio conjunto de datos.

Ejecutaremos estas consultas contra el endpoint de SPARQL de DBpedia utilizando SPARQLWrapper. Si prefieres utilizar el interfaz web para ver los resultados de las consultas, tan sólo copia y pega el string de la consulta que corresponda en el interfaz web del endpoint de DBpedia: https://dbpedia.org/sparql/

ADVERTENCIA: Si quieres ejecutar consultas contra tu propio endpoint con tus datos desde Jupyter, ten en cuenta que, por defecto, las referencias a localhost no podrán resolverse. Utiliza una URL pública fija en su lugar una vez tengas tu endpoint desplegado en un servidor. Esto aplica a Jupyter en Colab, pero no a Python. Si ejecutas cierta consulta desde la consola de tu equipo o desde cualqueir IDE, las referencias a localhost funcionarán sin problema.






## ACLARACIÓN IMPORTANTE

En las consultas de ejemplo contra el endpoint de DBpedia, utilizaemos prefijos comunes como:
* dbr --> http://dbpedia.org/resource/  -> Espacio de nombres para entidades (instancias) en DBpedia.
* dbo --> http://dbpedia.org/ontology/  -> Espacio de nombres para conceptos (clases) en DBpedia.
* rdfs --> http://www.w3.org/2000/01/rdf-schema# --> Espacio de nombres para algunas propiedades especiales y habituales de rdf, como rdfs:label para etiquetas, rdfs:comment para descripciones o rdfs:seeAlso para relacionar conceptos mediante un tipo de relación de semántica inespecífica.

Esto funcionará aunque no hagamos declaraciones de prefijos al principio de la consulta. Pero esto no significa que cualqueir consulta SPARQL en cualquier endpoint vaya a funcionar sin declarar prefijos. Ocurre que el endpoint público de DBpedia maneja unos cuantos prefijos y espacios de nombres extremadamente comúnes para ahorrarnos que los escribamos. Pero es una particularidad de esta instalación concreta de este endpoint, no podemos asumir que funcionará así en otros.

In [None]:
!pip install sparqlwrapper

Collecting sparqlwrapper
  Downloading SPARQLWrapper-2.0.0-py3-none-any.whl.metadata (2.0 kB)
Collecting rdflib>=6.1.1 (from sparqlwrapper)
  Downloading rdflib-7.1.3-py3-none-any.whl.metadata (11 kB)
Downloading SPARQLWrapper-2.0.0-py3-none-any.whl (28 kB)
Downloading rdflib-7.1.3-py3-none-any.whl (564 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m564.9/564.9 kB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: rdflib, sparqlwrapper
Successfully installed rdflib-7.1.3 sparqlwrapper-2.0.0


In [None]:
#Consulta para encontrar URIs de libros

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select * where {
?s a dbo:Book
}  LIMIT 100
  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="  ")
    print()
print("--------")

http://dbpedia.org/resource/Cabal_(novella)  
http://dbpedia.org/resource/Caddo_Valley_Academy_Complex  
http://dbpedia.org/resource/Cafe_Little_Wish  
http://dbpedia.org/resource/Cage_on_the_Sea  
http://dbpedia.org/resource/Caigentan  
http://dbpedia.org/resource/Calcium_beta-hydroxy-beta-methylbutyrate  
http://dbpedia.org/resource/Calcium_citrate_malate  
http://dbpedia.org/resource/Calcium_glubionate  
http://dbpedia.org/resource/Calcium_glucoheptonate  
http://dbpedia.org/resource/Calcium_gluconate  
http://dbpedia.org/resource/Calcium_glycerylphosphate  
http://dbpedia.org/resource/Calcium_pangamate  
http://dbpedia.org/resource/Calculating_God  
http://dbpedia.org/resource/Calculus  
http://dbpedia.org/resource/Calculus_on_Manifolds_(book)  
http://dbpedia.org/resource/California_Dreaming_(novel)  
http://dbpedia.org/resource/California_Manual_on_Uniform_Traffic_Control_Devices  
http://dbpedia.org/resource/Call_It_Courage  
http://dbpedia.org/resource/Call_Me_Dave  
http://dbp

In [None]:
#Consulta para encontrar URIs de libros además de la(s) etiqueta(s) asociadas a estas URIs

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select * where {
?s a dbo:Book ;
   rdfs:label ?label .
}  LIMIT 100
  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="  ")
    print()
print("--------")

http://dbpedia.org/resource/Cabal_(novella)  Cabal  
http://dbpedia.org/resource/Cabal_(novella)  Cabal (novella)  
http://dbpedia.org/resource/Cabal_(novella)  Cabal (romanzo)  
http://dbpedia.org/resource/Cabal_(novella)  Ночной народ (роман)  
http://dbpedia.org/resource/Cabal_(novella)  Кабал  
http://dbpedia.org/resource/Caddo_Valley_Academy_Complex  Caddo Valley Academy Complex  
http://dbpedia.org/resource/Cafe_Little_Wish  Cafe Little Wish  
http://dbpedia.org/resource/Cafe_Little_Wish  Cafe Little Wish  
http://dbpedia.org/resource/Cafe_Little_Wish  Cafe Little Wish  
http://dbpedia.org/resource/Cage_on_the_Sea  Cage on the Sea  
http://dbpedia.org/resource/Caigentan  Caigentan  
http://dbpedia.org/resource/Caigentan  Propos sur la racine des légumes  
http://dbpedia.org/resource/Caigentan  菜根譚  
http://dbpedia.org/resource/Caigentan  채근담  
http://dbpedia.org/resource/Caigentan  Caigentan  
http://dbpedia.org/resource/Caigentan  菜根譚  
http://dbpedia.org/resource/Calcium_beta-h

In [None]:
# Libros y sus etiquetas, pero sólo aquellas etiquetas que se señale explícitamente que están en español.


from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select * where {
?s a dbo:Book ;
   rdfs:label ?label .

   FILTER(lang(?label) = "es")
}  LIMIT 100
  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="  ")
    print()
print("--------")

http://dbpedia.org/resource/Cabal_(novella)  Cabal  
http://dbpedia.org/resource/Calcium_gluconate  Gluconato cálcico  
http://dbpedia.org/resource/Calculating_God  El cálculo de Dios  
http://dbpedia.org/resource/Calculus  Cálculo infinitesimal  
http://dbpedia.org/resource/Call_for_the_Dead  Llamada para el muerto  
http://dbpedia.org/resource/Camaya_Falls  Cascadas de Camaya  
http://dbpedia.org/resource/Campbell's_Soup_Cans  Latas de sopa Campbell  
http://dbpedia.org/resource/Cancer_Ward  Pabellón del cáncer  
http://dbpedia.org/resource/Candide  Cándido  
http://dbpedia.org/resource/Candy_Candy  Candy Candy  
http://dbpedia.org/resource/Capital_in_the_Twenty-First_Century  El capital en el siglo XXI  
http://dbpedia.org/resource/Captain_Fantastic_and_the_Brown_Dirt_Cowboy  Captain Fantastic and the Brown Dirt Cowboy  
http://dbpedia.org/resource/Captain_Tempesta  El capitán Tormenta  
http://dbpedia.org/resource/Carpe_Jugulum  Carpe Jugulum  
http://dbpedia.org/resource/Carrie_(n

In [None]:
# Lo mismo de antes, pero sólo novelas de fantasía


from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select * where {
?s a dbo:Book ;
   rdfs:label ?label ;
   dbo:literaryGenre dbr:Fantasy_novel .

   FILTER(lang(?label) = "es")

}  LIMIT 100
  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="  ")
    print()
print("--------")

http://dbpedia.org/resource/Beautiful_Chaos_(Garcia_and_Stohl_novel)  Hermoso caos  
http://dbpedia.org/resource/Beautiful_Creatures_(novel)  Hermosas criaturas  
http://dbpedia.org/resource/Beautiful_Darkness  Hermosa oscuridad  
http://dbpedia.org/resource/Midnight_Sun_(Meyer_novel)  Sol de medianoche (novela)  
http://dbpedia.org/resource/Momo_(novel)  Momo (novela)  
http://dbpedia.org/resource/The_Amulet_of_Samarkand  El amuleto de Samarkanda  
http://dbpedia.org/resource/Day_Watch_(novel)  Guardianes del día  
http://dbpedia.org/resource/Dead_Until_Dark  Muerto hasta el anochecer  
http://dbpedia.org/resource/Dead_as_a_Doornail  Más muerto que nunca  
http://dbpedia.org/resource/All_Together_Dead  De muerto en peor  
http://dbpedia.org/resource/All_Together_Dead  Todos juntos y muertos  
http://dbpedia.org/resource/Hush,_Hush  Hush, Hush (novela)  
http://dbpedia.org/resource/Beyond_the_Shadows  Más allá de las sombras (novela)  
http://dbpedia.org/resource/Dead_Reckoning_(novel)

In [None]:
# Ya no quiero saber la URI de las novelas, pero sí quiero conocer la URI del autor o autores de cada libro


from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select ?label ?author where {
?s a dbo:Book ;
   rdfs:label ?label ;
   dbo:literaryGenre dbr:Fantasy_novel ;
   dbo:author ?author .

   FILTER(lang(?label) = "es")

}  LIMIT 100
  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="  ")
    print()
print("--------")

Hermoso caos  http://dbpedia.org/resource/Margaret_Stohl  
Hermoso caos  http://dbpedia.org/resource/Kami_Garcia  
Hermosas criaturas  http://dbpedia.org/resource/Margaret_Stohl  
Hermosas criaturas  http://dbpedia.org/resource/Kami_Garcia  
Hermosa oscuridad  http://dbpedia.org/resource/Margaret_Stohl  
Hermosa oscuridad  http://dbpedia.org/resource/Kami_Garcia  
Sol de medianoche (novela)  http://dbpedia.org/resource/Stephenie_Meyer  
Momo (novela)  http://dbpedia.org/resource/Michael_Ende  
El amuleto de Samarkanda  http://dbpedia.org/resource/Jonathan_Stroud  
Muerto hasta el anochecer  http://dbpedia.org/resource/Charlaine_Harris  
Más muerto que nunca  http://dbpedia.org/resource/Charlaine_Harris  
De muerto en peor  http://dbpedia.org/resource/Charlaine_Harris  
Todos juntos y muertos  http://dbpedia.org/resource/Charlaine_Harris  
Hush, Hush (novela)  http://dbpedia.org/resource/Becca_Fitzpatrick  
Más allá de las sombras (novela)  http://dbpedia.org/resource/Brent_Weeks  
El d

In [None]:
# Lo de antes, pero con el nombre real del autor, no su URI

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select ?label ?nameAuthor where {
?s a dbo:Book ;
   rdfs:label ?label ;
   dbo:literaryGenre dbr:Fantasy_novel ;
   dbo:author ?author .

   ?author dbp:name ?nameAuthor .

   FILTER(lang(?label) = "es")

}  LIMIT 100
  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

Príncipe mecánico       Cassandra Clare       
Princesa mecánica       Cassandra Clare       
Ángel mecánico       Cassandra Clare       
Hush, Hush (novela)       Becca Fitzpatrick       
El pozo de la ascensión       Brandon Sanderson       
La tormenta (novela)       Brandon Sanderson       
Un recuerdo de luz       Brandon Sanderson       
Sombras de identidad       Brandon Sanderson       
Aleación de ley       Brandon Sanderson       
El imperio final       Brandon Sanderson       
El héroe de las eras       Brandon Sanderson       
El metal perdido       Brandon Sanderson       
Torres de medianoche       Brandon Sanderson       
El aliento de los dioses       Brandon Sanderson       
Más allá de las sombras (novela)       Brent Weeks       
El camino de las sombras (novela)       Brent Weeks       
Al filo de las sombras       Brent Weeks       
Detective Esqueleto       Derek Landy       
Skulduggery pleasant       Derek Landy       
Blood and Chocolate (novela)       Annette 

In [None]:
# Lo de antes, pero ahora sólo quiero autores que hayan nacido en 1960 o después

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select ?label ?nameAuthor ?bdate where {
   ?s a dbo:Book ;
       rdfs:label ?label ;
       dbo:literaryGenre dbr:Fantasy_novel ;
       dbo:author ?author .

   ?author dbp:name ?nameAuthor ;
           dbp:birthDate ?bdate .

   FILTER(lang(?label) = "es")
   FILTER(?bdate >= "1960-01-01"^^xsd:date)


}  LIMIT 100
  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

Princesa mecánica       Cassandra Clare       1973-07-27       
Príncipe mecánico       Cassandra Clare       1973-07-27       
Ángel mecánico       Cassandra Clare       1973-07-27       
Hush, Hush (novela)       Becca Fitzpatrick       1979-02-03       
El pozo de la ascensión       Brandon Sanderson       1975-12-19       
Al filo de las sombras       Brent Weeks       1977-03-07       
Más allá de las sombras (novela)       Brent Weeks       1977-03-07       
El camino de las sombras (novela)       Brent Weeks       1977-03-07       
Skulduggery pleasant       Derek Landy       1974-10-23       
Detective Esqueleto       Derek Landy       1974-10-23       
El amuleto de Samarkanda       Jonathan Stroud       1970-10-27       
El ojo del Golem       Jonathan Stroud       1970-10-27       
Sol de medianoche (novela)       Stephenie Meyer       1973-12-24       
Profundidades       Stephenie Meyer       1973-12-24       
Túneles (novela)       Stephenie Meyer       1973-12-24       


In [None]:
# Autores que han escrito algún libro de fantasía y nacidos después de 1960

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select distinct ?nameAuthor ?bdate where {
   ?s a dbo:Book ;
       rdfs:label ?label ;
       dbo:literaryGenre dbr:Fantasy_novel ;
       dbo:author ?author .

   ?author dbp:name ?nameAuthor ;
           dbp:birthDate ?bdate .

   FILTER(lang(?label) = "es")
   FILTER(?bdate >= "1960-01-01"^^xsd:date)


}  LIMIT 100
  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

Cassandra Clare       1973-07-27       
Becca Fitzpatrick       1979-02-03       
Brandon Sanderson       1975-12-19       
Brent Weeks       1977-03-07       
Derek Landy       1974-10-23       
Jonathan Stroud       1970-10-27       
Stephenie Meyer       1973-12-24       
J. K. Rowling       1965-07-31       
Kami Garcia       1972-03-25       
Michelle Paver       1960-09-07       
Sergei Lukyanenko       1968-04-11       
Eoin Colfer       1965-05-14       
Libba Bray       1964-03-11       
Alyson Noël       1965-12-03       
Christie Golden       1963-11-21       
--------


In [None]:
# Esos mismos autores pero ordenados por edad de forma descendente

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select distinct ?nameAuthor ?bdate where {
   ?s a dbo:Book ;
       rdfs:label ?label ;
       dbo:literaryGenre dbr:Fantasy_novel ;
       dbo:author ?author .

   ?author dbp:name ?nameAuthor ;
           dbp:birthDate ?bdate .

   FILTER(lang(?label) = "es")
   FILTER(?bdate >= "1960-01-01"^^xsd:date)


}  ORDER BY DESC(?bdate)
   LIMIT 100

  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

Becca Fitzpatrick       1979-02-03       
Brent Weeks       1977-03-07       
Brandon Sanderson       1975-12-19       
Derek Landy       1974-10-23       
Stephenie Meyer       1973-12-24       
Cassandra Clare       1973-07-27       
Kami Garcia       1972-03-25       
Jonathan Stroud       1970-10-27       
Sergei Lukyanenko       1968-04-11       
Alyson Noël       1965-12-03       
J. K. Rowling       1965-07-31       
Eoin Colfer       1965-05-14       
Libba Bray       1964-03-11       
Christie Golden       1963-11-21       
Michelle Paver       1960-09-07       
--------


In [None]:
# Todo lo anterior pero, además, quiero saber cuántas novelas de fantasía escribieron cada uno.
# Y, además, ordenaré los resultados por número de novelas, no por fecha de nacimiento

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select  distinct ?nameAuthor ?bdate (count(?s) as ?numBooks) where {
   ?s a dbo:Book ;
       rdfs:label ?label ;
       dbo:literaryGenre dbr:Fantasy_novel ;
       dbo:author ?author .

   ?author dbp:name ?nameAuthor ;
           dbp:birthDate ?bdate .

   FILTER(lang(?label) = "es")
   FILTER(?bdate >= "1960-01-01"^^xsd:date)


}  ORDER BY DESC(?numBooks)
   LIMIT 100

  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

Brandon Sanderson       1975-12-19       10       
J. K. Rowling       1965-07-31       7       
Michelle Paver       1960-09-07       6       
Stephenie Meyer       1973-12-24       6       
Eoin Colfer       1965-05-14       4       
Brent Weeks       1977-03-07       3       
Cassandra Clare       1973-07-27       3       
Kami Garcia       1972-03-25       3       
Sergei Lukyanenko       1968-04-11       2       
Derek Landy       1974-10-23       2       
Jonathan Stroud       1970-10-27       2       
Christie Golden       1963-11-21       1       
Becca Fitzpatrick       1979-02-03       1       
Libba Bray       1964-03-11       1       
Alyson Noël       1965-12-03       1       
--------


Prueba en esta última consulta a poner valores distintos al filtro de lengua. O a quitar el filtro de lengua. Esto te ayudará a entender el funcionamiento de count. Auqnue contemos ?s, que representa un libro, no contamos exactamente las URIs de libros. Contamos las veces para las que, para una combinación de ?authorName y ?bdate, que son las otras dos variables de la select, encajan en un patrón nuevo de grafo con todo lo que tenemos en la consulta. Si, por ejemplo, quitas el filtro, saldrá que JK Rowling tiene más de 140 libros. No es así en realidad, ni es así en DBpedia. Pero al tener etiquetas traducidas a muchos lenguajes por cada uno de sus libros, el patrón encaja con distintos datos todas esas veces.


Para seguir viendo elemento de SPARQL vamos a quitar el count en las siguientes consultas, para no complicar las cosas más de lo necesario.



In [None]:
# Autores "jovenes" con libros de fantasía. Si está la información de donde nacieron, que salga. Y si no no pasa nada, que no salga.

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")
sparql.setQuery("""
    select  distinct ?nameAuthor ?bdate ?place where {
   ?s a dbo:Book ;
       rdfs:label ?label ;
       dbo:literaryGenre dbr:Fantasy_novel ;
       dbo:author ?author .

   ?author dbp:name ?nameAuthor ;
           dbp:birthDate ?bdate .

   OPTIONAL { ?author dbp:birthPlace ?place }

   FILTER(lang(?label) = "es")
   FILTER(?bdate >= "1960-01-01"^^xsd:date)


}  ORDER BY DESC(?bdate)
   LIMIT 100

  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

Becca Fitzpatrick       1979-02-03       
Brent Weeks       1977-03-07       Montana, USA       
Brandon Sanderson       1975-12-19       Lincoln, Nebraska, U.S.       
Derek Landy       1974-10-23       Lusk, County Dublin, Ireland       
Stephenie Meyer       1973-12-24       Hartford, Connecticut, U.S.       
Cassandra Clare       1973-07-27       Tehran, Iran       
Kami Garcia       1972-03-25       
Jonathan Stroud       1970-10-27       Bedford, England       
Sergei Lukyanenko       1968-04-11       http://dbpedia.org/resource/Karatau,_Kazakhstan       
Sergei Lukyanenko       1968-04-11       http://dbpedia.org/resource/Soviet_Union       
Alyson Noël       1965-12-03       Laguna Beach, California, United States       
J. K. Rowling       1965-07-31       Yate, Gloucestershire, England       
Eoin Colfer       1965-05-14       Wexford, Ireland       
Libba Bray       1964-03-11       http://dbpedia.org/resource/United_States       
Libba Bray       1964-03-11       http://dbp

In [None]:
# Toda la información y condiciones anteriores. Pero ahora quiero autores con libros de fantasía y/o distopías

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""
    select  distinct ?nameAuthor ?bdate ?place where {
   { ?s a dbo:Book ;
       rdfs:label ?label ;
       dbo:literaryGenre dbr:Fantasy_novel ;
       dbo:author ?author .

   ?author dbp:name ?nameAuthor ;
           dbp:birthDate ?bdate .

   OPTIONAL { ?author dbp:birthPlace ?place }

   FILTER(lang(?label) = "es")
   FILTER(?bdate >= "1960-01-01"^^xsd:date)
  }

  UNION

  { ?s a dbo:Book ;
       rdfs:label ?label ;
       dbo:literaryGenre dbr:Utopian_and_dystopian_fiction ;
       dbo:author ?author .

   ?author dbp:name ?nameAuthor ;
           dbp:birthDate ?bdate .

   OPTIONAL { ?author dbp:birthPlace ?place }

   FILTER(lang(?label) = "es")
   FILTER(?bdate >= "1960-01-01"^^xsd:date)
  }

}  ORDER BY DESC(?bdate)
   LIMIT 100

  """
    )


sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

Christopher Paolini       1983-11-17       Los Angeles, California, U.S.       
Becca Fitzpatrick       1979-02-03       
Brent Weeks       1977-03-07       Montana, USA       
Brandon Sanderson       1975-12-19       Lincoln, Nebraska, U.S.       
Derek Landy       1974-10-23       Lusk, County Dublin, Ireland       
Stephenie Meyer       1973-12-24       Hartford, Connecticut, U.S.       
Cassandra Clare       1973-07-27       Tehran, Iran       
Ernest Cline       1972-03-29       Ashland, Ohio, U.S.       
Kami Garcia       1972-03-25       
Jonathan Stroud       1970-10-27       Bedford, England       
Dave Eggers       1970-03-12       Boston, Massachusetts, U.S.       
Sergei Lukyanenko       1968-04-11       http://dbpedia.org/resource/Karatau,_Kazakhstan       
Sergei Lukyanenko       1968-04-11       http://dbpedia.org/resource/Soviet_Union       
Alyson Noël       1965-12-03       Laguna Beach, California, United States       
J. K. Rowling       1965-07-31       Yate, Glouc

Existen más funciones, más lógica de conjuntos, etc. Pero a partir de aquñi probablemente tenga más sentido consultar documentación de SPARQL si necesitas algo fuera de lo visto.

Queda por abordar el macanismo que, sobre el papel, da tanta potencia por facilidad de integración a los estándares de web semántica: consultas federadas. La posibilidad de mezclar la información de un endpoint con otro.

Para a¡hacer una consulta federada, dentro de nuestra SELECT tenemos que incluir la sentencia SERVICE, seguida por la URL del endpoint objetivo, y entre llaves un atrón de grafo que se debe cumplir en el endpoint objetivo. La gracia es que fuera del service y dentro del service se tendría que estar haciendo referencia a algún elemento común (una URI presente en ambos endpoints) que me permita unir los grafos.

Para este ejemplo, no obstante, no podemos usar el endpoint de DBpedia como base. El endpoint público de DBpedia (la instalación de ese endpoint, no el motor Virtuoso por defecto) no permite federación como medida de seguridad. El siguietne código (fallará) es sintaxis válida para sacar las propiedades que haya en Wikidata de cualqueir libro de Brandon Sanderson que tenga un enlace explícito de DBpedia a Wikidata:

In [None]:
# Información en Wikidata de libros de Brandon Sanderson que están en DPbedia

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://dbpedia.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""

    PREFIX wdt: <http://www.wikidata.org/prop/direct/>
    PREFIX wd: <http://www.wikidata.org/entity/>

select  distinct ?nameAuthor ?p ?o where {
   ?s a dbo:Book ;
       rdfs:label ?label ;
       dbo:author ?Brandon_Sanderson ;
       owl:sameAs ?wikiURI .

    SERVICE <https://query.wikidata.org/sparql> {
      ?wikiURI    wdt:P50 wd:Q28392 ;  # P50 = Autor, Q28392 = Brandon Sanderson
                  wdt:P31 wd:Q571 ;  # P31 = Instancia de, Q571 = Libro
                  ?p ?o .
    }
}  LIMIT 100

  """
    )
sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

EndPointInternalError: EndPointInternalError: The endpoint returned the HTTP status code 500. 

Response:
b'Virtuoso 42000 Error SQ070:SECURITY: Must have SELECT privileges on view DB.DBA.SPARQL_SINV_2 for group ID 111 (SPARQL), user ID 111 (SPARQL)\n\nSPARQL query:\n#output-format:application/sparql-results+json\n\n\n    PREFIX wdt: <http://www.wikidata.org/prop/direct/>\n    PREFIX wd: <http://www.wikidata.org/entity/>\n\n    select  distinct ?nameAuthor ?bdate ?place where {\n   ?s a dbo:Book ;\n       rdfs:label ?label ;\n       dbo:author ?Brandon_Sanderson ;\n       owl:sameAs ?wikiURI .\n      \n    SERVICE <https://query.wikidata.org/sparql> {\n      ?wikiURI    wdt:P50 wd:Q28392 ;  # P50 = Autor, Q28392 = Brandon Sanderson\n                  wdt:P31 wd:Q571 ;  # P31 = Instancia de, Q571 = Libro\n                  ?p ?o .\n                      \n                  \n    }\n\n   \n}  LIMIT 100\n   \n  \n'

Como ves en la traza de error, esto no funciona por algo relacionado con permisos, no tiene nada que ver con como de conectada está la información a nivel de datos. De hecho, si intentamos hacer esto mismo pero al revés, es decir, tirar esta consulta contra el endpoint de Wikidata tratando de federar el endpoint de DBpedia, sí podemos ejecutar la consulta.


In [None]:
from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("https://query.wikidata.org/sparql")  # Construimos un objeto para acceder a cierto endpoint. En este caso, DBpedia
sparql.setQuery("""

prefix wdt: <http://www.wikidata.org/prop/direct/>
prefix wd: <http://www.wikidata.org/entity/>
prefix wikibase: <http://wikiba.se/ontology#>
prefix dbr: <http://dbpedia.org/resource/>
prefix dbo: <http://dbpedia.org/ontology/>
prefix dbp: <http://dbpedia.org/property/>

SELECT DISTINCT ?obra_dbpedia ?p ?o WHERE {
  ?obra_wikidata wdt:P50 wd:Q457608 ;
                 wdt:P31 wd:Q1667921 ;
                 ?p ?o .

  SERVICE <http://dbpedia.org/sparql> {
    ?obra_dbpedia owl:sameAs ?obra_wikidata ;
                  dbp:author dbr:Brandon_Sanderson .

  }

} LIMIT 100

  """
    )

sparql.setReturnFormat(JSON)
results = sparql.query().convert()
for result in results["results"]["bindings"]:
    for a_var_key in result:
      print(result[a_var_key]["value"], end="       ")
    print()
print("--------")

http://schema.org/version       2299571138       http://dbpedia.org/resource/The_Wheel_of_Time       
http://www.w3.org/2004/02/skos/core#altLabel       The Wheel of Time       http://dbpedia.org/resource/The_Wheel_of_Time       
http://schema.org/description       knižní fantasy série Roberta Jordana       http://dbpedia.org/resource/The_Wheel_of_Time       
http://www.w3.org/2000/01/rdf-schema#label       La roda del temps       http://dbpedia.org/resource/The_Wheel_of_Time       
http://www.w3.org/2000/01/rdf-schema#label       Кола Часу       http://dbpedia.org/resource/The_Wheel_of_Time       
http://www.w3.org/2004/02/skos/core#altLabel       RdT       http://dbpedia.org/resource/The_Wheel_of_Time       
http://www.w3.org/2004/02/skos/core#altLabel       WoT       http://dbpedia.org/resource/The_Wheel_of_Time       
http://schema.org/description       Dodecalogia de noveŀles de fantasia d'en Robert Jordan       http://dbpedia.org/resource/The_Wheel_of_Time       
http://www.w3.or