# Wikidata

[Wikidata](https://www.wikidata.org/wiki/Wikidata:Main_Page) es una gran base de conocimiento gratuíta en forma de red semántica, que crece mediante el esfuerzo colaborativo de distintas comunidades. Proporciona conocimiento estructurado extraído de distintas wikis entre las que destacan [Wikipedia](https://es.wikipedia.org/wiki/Wikipedia:Portada) y [Wikimedia Commons](https://commons.wikimedia.org/wiki/Main_Page).

## Estructura de las entidades

Cuando consultamos una página de la Wikipedia, como la del [Museo del Prado](https://es.wikipedia.org/wiki/Museo_del_Prado), encontramos mucha información en texto natural que es difícil de interpretar y utilizar por un programa. A la derecha de la página aparece un cuadro con algunos datos relevantes del museo en forma de pares atributo-valor, pero la mayor parte de la información está escrita en lenguaje natural.

![Página del Museo del Prado](museo_prado_wikipedia.png)

A la izquierda de la página hay un menú con distintas opciones. En la parte de __Herramientas__ encontramos un enlace la [Elemento de Wikidata](https://www.wikidata.org/wiki/Q160112) correspondiente a esta página de la Wikipedia.

![Página del Museo del Prado en Wikidata](museo_prado_wikidata.png)

La página de wikidata muestra una vista HTML de la información que contiene la base de conocimiento sobre el Museo del Prado. El Museo del Prado es el _item_ Q160112 de la base de conocimiento. Cada item está descrito por una etiqueta, una descripción y un conjunto de alias, todo ello en varios idiomas.

A continuación aparecen un conjunto de _statements_ o __sentencias__ que describen características de la entidad. Cada sentencia consiste en una propiedad y un valor. Por ejemplo, la propiedad _instance of_ tiene el identificador P31 y nos indica que esta entidad es instancia de las clases _art museum_ y _national museum_ que, a su vez, son otros items de la base de conocimiento. Los valores asociados a las propiedades pueden ser cadenas de texto, imágenes, coordenadas geográficas, enlaces a otras bases de datos, etc.

Los valores pueden, a su vez, contener __cualificadores__ y __referencias__. Los cualificadores muestra meta-información sobre el valor mientras que las referencias contienen información sobre la fuente del dato. Por ejemplo, en la siguiente imagen podemos ver el esquema del item correspondiente al escritor inglés Douglas Adams.

<!--![Esquema de un item en wikidata](wikidata_item.png)-->
<img src="wikidata_item.png" alt="Esquema de un item en wikidata" style="width: 75%;"/>

## Punto de acceso SPARQL

Además de navegar por la web, Wikidata nos ofrece otros interfaces con los que buscar información. Uno de ellos es un punto de acceso [SPARQL](https://query.wikidata.org/) donde podemos ejecutar consultas y recuperar información en forma de tripletas.

![Punto de acceso SPARQL](sparql_endpoint.png)

En la parte superior derecha podemos escribir directamente la consulta en SPARQL. El panel de la parte superior izquierda nos ayuda a crear consultas resolviendo nombres de items y propiedades y ayudándonos con la estructura de la consulta. En la parte inferior de la pantalla aparecen los resultados de la consulta cuando la ejecutamos con el botón Play. 

En el menú de __Ayuda__ podemos encontrar enlaces a recursos interesantes. A continuación mostramos algunos de ellos:

- [Tutorial de SPARQL](https://www.wikidata.org/wiki/Wikidata:SPARQL_tutorial) donde se explican muchas más opciones de las que nosotros hemos visto en clase.
- [Ejemplos de consultas](https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/queries/examples) donde se muestran y explican decenas de consultas distintas.
- [Modelo de datos RDF](https://www.mediawiki.org/wiki/Wikibase/Indexing/RDF_Dump_Format) que se utiliza al exportar versiones de wikidata que se pueden descargar y utilizar offline.
- [Manual de usuario de Wikidata Query Service](https://www.mediawiki.org/wiki/Wikidata_Query_Service/User_Manual) que es el software que proporcional el punto de acceso SPARQL a Wikidata. 

El punto de acceso SPARQL de Wikidata ofrece ciertos extras sobre el estándar. Por ejemplo, la línea SERVICE de la consulta nos permite obtener automáticamente la etiqueta de cualquier item con sólo crear una nueva variable que termine en Label (por ejemplo ?itemLabel en la consulta).

## Interfaz python

Podemos utilizar el paquete [qwikidata](https://qwikidata.readthedocs.io/en/stable/) para acceder a Wikidata desde un programa Python.

### Instalación

La forma más sencilla de instalar esta biblioteca es mediante el siguiente comando:

In [1]:
# Descomentar para instalar el paquete
#%pip install qwikidata

### Interfaz SPARQL

Podemos ejecutar consultas SPARQL y obtener lo resultados en forma de diccionario.

__Nota__: si el punto de acceso está sobreutilizado la consulta puede fallar. En ese caso se puede volver a lanzar.

In [2]:
from qwikidata.sparql import return_sparql_query_results

sparql_query = """
SELECT ?item ?itemLabel 
WHERE 
{
  ?item wdt:P31 wd:Q146.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
"""
res = return_sparql_query_results(sparql_query)
res

{'head': {'vars': ['item', 'itemLabel']},
 'results': {'bindings': [{'item': {'type': 'uri',
     'value': 'http://www.wikidata.org/entity/Q28114535'},
    'itemLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'Mr. White'}},
   {'item': {'type': 'uri',
     'value': 'http://www.wikidata.org/entity/Q28665865'},
    'itemLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'Myka'}},
   {'item': {'type': 'uri',
     'value': 'http://www.wikidata.org/entity/Q28792126'},
    'itemLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'Gli'}},
   {'item': {'type': 'uri',
     'value': 'http://www.wikidata.org/entity/Q30600575'},
    'itemLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'Orlando'}},
   {'item': {'type': 'uri',
     'value': 'http://www.wikidata.org/entity/Q42442324'},
    'itemLabel': {'xml:lang': 'en',
     'type': 'literal',
     'value': 'Kiisu Miisu'}},
   {'item': {'type': 'uri',
     'value': 'http://www.wikidata.org/entity/Q43260736'},
    'itemLabel': {'

También hay alguna función de utilidad extra que nos permite, por ejemplo, obtener las subclases de una entidad.

In [3]:
from qwikidata.sparql import get_subclasses_of_item

Q_RIVER = "Q4022"
subclasses_of_river = get_subclasses_of_item(Q_RIVER)
subclasses_of_river

['Q4022',
 'Q100649',
 'Q159675',
 'Q591942',
 'Q653247',
 'Q794428',
 'Q1074069',
 'Q1140845',
 'Q1299258',
 'Q1460693',
 'Q1531228',
 'Q1720683',
 'Q1746748',
 'Q1986504',
 'Q2048585',
 'Q2230783',
 'Q2375084',
 'Q2557367',
 'Q3073652',
 'Q3196604',
 'Q4176368',
 'Q4366834',
 'Q4392849',
 'Q4392856',
 'Q4733366',
 'Q4879406',
 'Q5371585',
 'Q7164110',
 'Q7580767',
 'Q8026426',
 'Q10670417',
 'Q10875106',
 'Q11553102',
 'Q12099220',
 'Q12149663',
 'Q12309892',
 'Q16465938',
 'Q16638716',
 'Q18915937',
 'Q20529834',
 'Q21079327',
 'Q21573828',
 'Q27067659',
 'Q42122394',
 'Q51205815',
 'Q60061427',
 'Q60823417',
 'Q71184245',
 'Q12048869',
 'Q90905898',
 'Q3058945',
 'Q21504956']

### Interfaz Linked data

Podemos recuperar la información de distintas entidades y propiedades de Wikidata y acceder a ellas mediante objetos de Python. En este ejemplo vamos a trabajar con el item [Douglas Adams (Q42)](https://www.wikidata.org/wiki/Q42).

In [4]:
from qwikidata.entity import WikidataItem, WikidataProperty, WikidataLexeme 
from qwikidata.linked_data_interface import get_entity_dict_from_api

# obtener un objeto con la información del escritor douglas Adams
Q_DOUGLAS_ADAMS = 'Q42'
q42_dict = get_entity_dict_from_api(Q_DOUGLAS_ADAMS)
q42 = WikidataItem(q42_dict)
q42

WikidataItem(label=Douglas Adams, id=Q42, description=English writer and humorist, aliases=['Douglas Noel Adams', 'Douglas Noël Adams', 'Douglas N. Adams'], enwiki_title=Douglas Adams)

Ahora podemos navegar por la información del objeto.

In [5]:
q42.entity_type

'item'

In [6]:
q42.get_label()

'Douglas Adams'

In [7]:
q42.get_description()

'English writer and humorist'

In [8]:
q42.get_aliases()

['Douglas Noel Adams', 'Douglas Noël Adams', 'Douglas N. Adams']

In [9]:
q42.get_enwiki_title()

'Douglas Adams'

In [10]:
q42.get_sitelinks()

{'enwiki': {'site': 'enwiki',
  'title': 'Douglas Adams',
  'badges': [],
  'url': 'https://en.wikipedia.org/wiki/Douglas_Adams'},
 'enwikiquote': {'site': 'enwikiquote',
  'title': 'Douglas Adams',
  'badges': [],
  'url': 'https://en.wikiquote.org/wiki/Douglas_Adams'}}

También podemos acceder a los grupos de sentencias asociadas a la entidad. Cada grupo de sentencias o __claim group__ representa los distintos valores que podemos encontrar asociados a una propiedad. Por ejemplo, si una entidad es instancia de varias clases distintas encontraremos un __claim group__ asociado a la propiedad __instance of (P31)__ que contiene a su vez varias sentencias individuales o __claims__. 

Por ejemplo, [Douglas Adams](https://www.wikidata.org/wiki/Q42) estudió en dos escuelas diferentes (St John's College y Brentwood School). Podemos encontrarlas mediante la propiedad __educated at (P69)__.

![Douglas Adams - educated at](adams_educated_at.png)

In [11]:
# Acceso al grupo de sentencias asociados a una propiedad
EDUCATED_AT = 'P69'
claim_group = q42.get_truthy_claim_group(EDUCATED_AT)
claim_group

WikidataClaimGroup(property_id=P69, claims=[WikidataClaim(type=statement, rank=normal, mainsnak=WikidataSnak(snaktype=value, property_id=P69, snak_datatype=wikibase-item, value_datatype=wikibase-entityid, datavalue=WikibaseEntityId(id=Q691283)), qualifiers=OrderedDict([('P582', [WikidataQualifier(hash=cf63122733bae275108bbf5d043d46669f782697, snak=WikidataSnak(snaktype=value, property_id=P582, snak_datatype=time, value_datatype=time, datavalue=Time(time=+1974-01-01T00:00:00Z, precision=9)))]), ('P812', [WikidataQualifier(hash=e03f82fd83e940fdf0020ded271f0edf11977d72, snak=WikidataSnak(snaktype=value, property_id=P812, snak_datatype=wikibase-item, value_datatype=wikibase-entityid, datavalue=WikibaseEntityId(id=Q186579)))]), ('P512', [WikidataQualifier(hash=e1bbba02ae21a15bcef937d017c8142e5cf73a88, snak=WikidataSnak(snaktype=value, property_id=P512, snak_datatype=wikibase-item, value_datatype=wikibase-entityid, datavalue=WikibaseEntityId(id=Q1765120)))]), ('P580', [WikidataQualifier(hash

Cada sentencia o __claim__ tiene un valor o __mainsnak__ que puede ser, a su vez, el identificador de otra entidad de Wikidata.

In [12]:
claim = claim_group[0]
claim.mainsnak

WikidataSnak(snaktype=value, property_id=P69, snak_datatype=wikibase-item, value_datatype=wikibase-entityid, datavalue=WikibaseEntityId(id=Q691283))

In [15]:
claim.mainsnak.

'wikibase-entityid'

Podemos comprobar que la entidad Q691283 corresponde con el collegio [St John's College](https://www.wikidata.org/wiki/Q691283) donde estudió el escritor.

Cada sentencia puede tener un conjunto de cualificadores y/o referencias asociados, como se muestra en la imagen anterior.

El siguiente fragmento de código muestra cómo recorrer los __qualificadores__ de esta sentencia donde encontraremos meta-información sobre la estancia de Douglas Adams en St John's College.

In [14]:
# pid es el identificador de la propiedad
# quals son los data qualifiers
for pid, quals in claim.qualifiers.items():
    # recuperar la entidad que representa la propiedad
    prop = WikidataProperty(get_entity_dict_from_api(pid))
    # recuperar los cualificadores e imprimir los que sean de tipo value
    for qual in quals:
        if qual.snak.snaktype == "value":
            print(f"{prop.get_label()}: {qual.snak.datavalue}")

end time: Time(time=+1974-01-01T00:00:00Z, precision=9)
academic major: WikibaseEntityId(id=Q186579)
academic degree: WikibaseEntityId(id=Q1765120)
start time: Time(time=+1971-00-00T00:00:00Z, precision=9)


Además de los cualificadores, podemos encontrar referencias que indican la fuente del dato. El siguiente fragmento de código muestra cómo recorrer las __referencias__ de esta sentencia.

In [15]:
for ref_num, ref in enumerate(claim.references):
    print(f"REFERENCIA {ref_num}")
    # cada referencia contiene un id de propiedad y un conjunto de snaks o datos de la referencia
    for pid, snaks in ref.snaks.items():
        prop = WikidataProperty(get_entity_dict_from_api(pid))
        for snak in snaks:
            if snak.snaktype == "value":
                print(f"{prop.get_label()}: {snak.datavalue}")

REFERENCIA 0
stated in: WikibaseEntityId(id=Q5375741)
REFERENCIA 1
reference URL: String(value=http://www.nndb.com/people/731/000023662/)
language of work or name: WikibaseEntityId(id=Q1860)
publisher: WikibaseEntityId(id=Q1373513)
retrieved: Time(time=+2013-12-07T00:00:00Z, precision=11)
title: MongolingualText(text=Douglas Adams, language=en)
