# Wikidata

[Wikidata](https://www.wikidata.org/wiki/Wikidata:Main_Page) es una gran base de conocimiento gratuíta en forma de red semántica, que crece mediante el esfuerzo colaborativo de distintas comunidades. Proporciona conocimiento estructurado extraído de distintas wikis entre las que destacan [Wikipedia](https://es.wikipedia.org/wiki/Wikipedia:Portada) y [Wikimedia Commons](https://commons.wikimedia.org/wiki/Main_Page).

## Estructura de las entidades

Cuando consultamos una página de la Wikipedia, como la del [Museo del Prado](https://es.wikipedia.org/wiki/Museo_del_Prado), encontramos mucha información en texto natural que es difícil de interpretar y utilizar por un programa. A la derecha de la página aparece un cuadro con algunos datos relevantes del museo en forma de pares atributo-valor, pero la mayor parte de la información está escrita en lenguaje natural.

![Página del Museo del Prado](museo_prado_wikipedia.png)

A la izquierda de la página hay un menú con distintas opciones. En la parte de __Herramientas__ encontramos un enlace la [Elemento de Wikidata](https://www.wikidata.org/wiki/Q160112) correspondiente a esta página de la Wikipedia.

![Página del Museo del Prado en Wikidata](museo_prado_wikidata.png)

La página de wikidata muestra una vista HTML de la información que contiene la base de conocimiento sobre el Museo del Prado. El Museo del Prado es el _item_ Q160112 de la base de conocimiento. Cada item está descrito por una etiqueta, una descripción y un conjunto de alias, todo ello en varios idiomas.

A continuación aparecen un conjunto de _statements_ o __sentencias__ que describen características de la entidad. Cada sentencia consiste en una propiedad y un valor. Por ejemplo, la propiedad _instance of_ tiene el identificador P31 y nos indica que esta entidad es instancia de las clases _art museum_, _national museum_ y _organization_ que, a su vez, son otros items de la base de conocimiento. Los valores asociados a las propiedades pueden ser cadenas de texto, imágenes, coordenadas geográficas, enlaces a otras bases de datos, etc.

Los valores pueden, a su vez, contener __cualificadores__ y __referencias__. Los cualificadores muestra meta-información sobre el valor mientras que las referencias contienen información sobre la fuente del dato. Por ejemplo, en la siguiente imagen podemos ver el esquema del item correspondiente al escritor inglés [Douglas Adams](https://www.wikidata.org/wiki/Q42).

<!--![Esquema de un item en wikidata](wikidata_item.png)-->
<img src="wikidata_item.png" alt="Esquema de un item en wikidata" style="width: 75%;"/>

## Punto de acceso SPARQL

Además de navegar por la web, Wikidata nos ofrece otros interfaces con los que buscar información. Uno de ellos es un punto de acceso [SPARQL](https://query.wikidata.org/) donde podemos ejecutar consultas y recuperar información en forma de tripletas.

![Punto de acceso SPARQL](sparql_endpoint.png)


En el cuadro de texto podemos escribir directamente la consulta en SPARQL.
Si en la barra vertical izquierda pulsamos el logo con la "i" de información, se nos despliega un asistente de consultas. En dicha barra también hay otras ayudas para crear consultas resolviendo nombres de items y propiedades y formateando adecuadamente de la consulta. 

En la parte inferior de la pantalla aparecen los resultados de la consulta cuando la ejecutamos con el botón Play. 

En el menú de __Ayuda__ podemos encontrar enlaces a recursos interesantes. A continuación mostramos algunos de ellos:

- [Tutorial de SPARQL](https://www.wikidata.org/wiki/Wikidata:SPARQL_tutorial) donde se explican muchas más opciones de las que nosotros hemos visto en clase.
- [Ejemplos de consultas](https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/queries/examples) donde se muestran y explican decenas de consultas distintas.
- [Modelo de datos RDF](https://www.mediawiki.org/wiki/Wikibase/Indexing/RDF_Dump_Format) que se utiliza al exportar versiones de wikidata que se pueden descargar y utilizar offline.
- [Manual de usuario de Wikidata Query Service](https://www.mediawiki.org/wiki/Wikidata_Query_Service/User_Manual) que es el software que proporcional el punto de acceso SPARQL a Wikidata. 

El punto de acceso SPARQL de Wikidata ofrece ciertos extras sobre el estándar. Por ejemplo, la línea SERVICE de la consulta nos permite obtener automáticamente la etiqueta de cualquier item con sólo crear una nueva variable que termine en Label (por ejemplo ?itemLabel en la consulta).

Prueba a ejecutar una consulta como [esta](https://query.wikidata.org/#%23Gatos%0ASELECT%20%3Fitem%20%3FitemLabel%20%0AWHERE%20%0A%7B%0A%20%20%3Fitem%20wdt%3AP31%20wd%3AQ146.%0A%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cen%22.%20%7D%0A%7D) que recupera todos los gatos domésticos que aparecen en la base de conocimiento. 

Puedes descargar los resultados en formato _Tabla HTML_ y de esa manera podrías integrarlos en un notebook. Sin embargo, también se puede hacer directamente como mostramos a continuación.

## Consultando Wikidata con SPARQL desde el notebook

Para poder hacerlo una alternativa cómoda consiste en instalar el paquete [wdsparql](https://pypi.org/project/wdsparql/), desarrollado por David Davó ex-alumno de la asignatura. 

En `wdsparql` se definen unas funciones para `IPython`, la librería de Python interactivo que usan los notebooks, que haciendo uso a su vez de las [funciones mágicas de IPython](https://ipython-books.github.io/14-creating-an-ipython-extension-with-custom-magic-commands/) nos permite ejecute nuestras consultas SPARQL contra el servicio de consultas de Wikidata y que los resultados de las mismas se integren en el notebook en formato tabla (usando Pandas).

In [8]:
## Lo primero sería instalar en tu entorno de Python wdsparql
## Si no lo tienes instalado, puedes hacerlo desde el notebook
import sys

!{sys.executable} -m pip install wdsparql

Collecting wdsparql
  Using cached wdsparql-0.0.3-py3-none-any.whl (5.0 kB)
Installing collected packages: wdsparql
Successfully installed wdsparql-0.0.3


Los siguientes comandos de IPython permiten cargar `wdsparql`, que es una [extensión de IPython](https://ipython.readthedocs.io/en/stable/config/extensions/index.html).

In [2]:
%load_ext autoreload
%load_ext wdsparql
%autoreload 2


Una vez cargado, se invoca con `%%` siguiendo la sintáxis de los llamados comandos mágicos de IPython y escribiendo a continuación la consulta.

Probaremos con una [consulta de ejemplo](https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/queries/examples) de las que aparecen en Wikidata. 

In [3]:

%%wdsparql

SELECT ?item ?itemLabel ?pic
WHERE
{
?item wdt:P31 wd:Q146 .
?item wdt:P18 ?pic
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" }
}

Unnamed: 0,item,itemLabel,pic
0,http://www.wikidata.org/entity/Q49581026,Toffee,http://commons.wikimedia.org/wiki/Special:File...
1,http://www.wikidata.org/entity/Q51596094,Crimean Tom,http://commons.wikimedia.org/wiki/Special:File...
2,http://www.wikidata.org/entity/Q53216650,Nitama,http://commons.wikimedia.org/wiki/Special:File...
3,http://www.wikidata.org/entity/Q54087698,Foss,http://commons.wikimedia.org/wiki/Special:File...
4,http://www.wikidata.org/entity/Q61133276,Şero,http://commons.wikimedia.org/wiki/Special:File...
5,http://www.wikidata.org/entity/Q62128317,Naro,http://commons.wikimedia.org/wiki/Special:File...
6,http://www.wikidata.org/entity/Q66737405,Mittens,http://commons.wikimedia.org/wiki/Special:File...
7,http://www.wikidata.org/entity/Q76974430,Apelmon,http://commons.wikimedia.org/wiki/Special:File...
8,http://www.wikidata.org/entity/Q94990539,Pip,http://commons.wikimedia.org/wiki/Special:File...
9,http://www.wikidata.org/entity/Q105330885,Tuna,http://commons.wikimedia.org/wiki/Special:File...


Observa que al escribir la consulta en el notebook no tenemos todas las ayudas que sí que nos brinda la interfaz de query.wikidata.org y que nos facilitan mucho la escritura de consultas. Por ejemplo, el coloreado sintáctico o las herramientas de búsqueda y auto-completado. 

Por eso recomendamos que escribas la consulta sobre la interfaz y la copies aquí en su versión definitiva.

Puedes desinstalar el paquete en cualquier momento ejecutando la siguiente celda:

In [7]:
## Desinstalar wdsparql
import sys

!{sys.executable} -m pip uninstall -y wdsparql

Found existing installation: wdsparql 0.0.3
Uninstalling wdsparql-0.0.3:
  Successfully uninstalled wdsparql-0.0.3


##  El paquete `qwikidata`

Aunque no lo vayamos a usar es interesante saber que existe también el paquete `qwikidata` el cual permite interactuar con Wikidata desde Python, entre otras cosas, definiendo clases que permiten representar las entidades de Wikidata así como interfaces para acceder al servicio de consultas de SPARQL.