Auteur: Jean-Claude Moissinac, juin 2021

Note: pour des considérations techniques sur la réalisation de ce notebook, voir le blog http://www.bobdc.com/blog/jupytersparql/

Le Centre des monuments nationaux (CMN) rassemble un ensemble de monuments sur le territoire français. Certains sont présents dans Wikidata. On peut de se servir de la représentation utilisée pour ces monuments comme modèle de représentation pour d'autres monuments.

D'abord, indiquons que nous allons interroger le point d'accès SPARQL de Wikidata:

In [1]:
%endpoint http://query.wikidata.org/bigdata/namespace/wdq/sparql
%format any
%display table

Définissons quelques préfixes qui seront ajoutés au début de chaque requête SPARQL ci-dessous.

In [15]:
%PREFIX wdt: <http://www.wikidata.org/prop/direct/>
%PREFIX wd: <http://www.wikidata.org/entity/>
%PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
%PREFIX p: <http://www.wikidata.org/prop/>
%PREFIX ps: <http://www.wikidata.org/prop/statement/>
%PREFIX wikibase: <http://wikiba.se/ontology#>
%PREFIX bd: <http://www.bigdata.com/rdf#>

Cherchons l'entité "Centre des monuments nationaux" avec l'extension SPARQL de Wikidata qui permet de faire une recherche 'libre'

In [16]:
SELECT distinct ?candidate ?label WHERE {
  SERVICE wikibase:mwapi {
    bd:serviceParam wikibase:api "EntitySearch" .
    bd:serviceParam wikibase:endpoint "www.wikidata.org" .
    bd:serviceParam mwapi:search "Centre des monuments nationaux" .
    bd:serviceParam mwapi:language "fr" .
    bd:serviceParam wikibase:limit 5 .
    ?candidate wikibase:apiOutputItem mwapi:item .
  }
  ?candidate rdfs:label ?label;
             filter(lang(?label)="fr")
} 


candidate,label
http://www.wikidata.org/entity/Q2945551,Centre des monuments nationaux


Nous pouvons chercher les monuments qui ont un lien avec le Centre des monuments nationaux (CMN).

In [17]:
SELECT distinct ?candidate ?candidateLabel WHERE {
  ?candidate ?prop <http://www.wikidata.org/entity/Q2945551> .
  ?candidate p:P31/ps:P31/wdt:P279* wd:Q41176 .
  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr". } 
} 

candidate,candidateLabel
http://www.wikidata.org/entity/Q138101,conciergerie de Paris
http://www.wikidata.org/entity/Q306155,abbaye du Thoronet
http://www.wikidata.org/entity/Q585752,Château de Vincennes
http://www.wikidata.org/entity/Q1815544,château de Châteaudun
http://www.wikidata.org/entity/Q2969939,château de Montal
http://www.wikidata.org/entity/Q184407,basilique Saint-Denis
http://www.wikidata.org/entity/Q188856,Panthéon
http://www.wikidata.org/entity/Q578771,palais du Tau
http://www.wikidata.org/entity/Q1062732,chapelle expiatoire
http://www.wikidata.org/entity/Q1479356,château de Talcy


Dans la requête, la première ligne dans le select (ligne9) sélectionne les entités dont une propriété (?prop) crée un lien avec le CMN. La ligne suivante sélectionne les entités de classe bâtiment ou une sous-classe de cete classe. La ligne suivante est une extension de Wikidata qui facilite la récupération d'un label associé à une entité. 

Nous pouvons maintenant chercher par quelle(s) propriété(s) ces entités sont reliées au CMN:

In [8]:
SELECT distinct ?prop  WHERE {
  ?candidate ?prop <http://www.wikidata.org/entity/Q2945551> .
  ?candidate p:P31/ps:P31/wdt:P279* wd:Q41176 .
} 

prop
http://www.wikidata.org/prop/direct/P1416
http://www.wikidata.org/prop/direct/P137
http://www.wikidata.org/prop/direct/P466
http://www.wikidata.org/prop/direct/P127
http://www.wikidata.org/prop/direct/P463


En cliquant sur les liens, on trouve que
- P1416 = affiliation
- P137 = operator
- P466 = occupant
- P127 = owned by
- P463 = member of
Ce qui illustre un problème de ce genre de dataset: les contributeurs n'expriment pas tous un fait similaire de la même façon, avec une seule et même propriété: ici le lien entre le monument et le CMN. Il est possible que toutes les propriétés utilisées soient exactes, mais on a une diversité de représentation, éventuellement légitime: par exemple, certains monuments peuvent être à la fois la propriété du CMN et un membre du CMN, mais certains ont un propriétaire distinct.

Maintenant, cherchons toutes les propriétés utilisées pour décrire ces monuments et classons-les par nombre d'utilisations:

In [12]:
%show 50

In [14]:
SELECT  ?p (count(distinct ?candidate) as ?c) WHERE {
  ?candidate ?prop <http://www.wikidata.org/entity/Q2945551> .
  ?candidate p:P31/ps:P31/wdt:P279* wd:Q41176 .
  ?candidate ?p []
}
group by ?p
order by desc(?c)

p,c
http://schema.org/version,35
http://schema.org/dateModified,35
http://schema.org/description,35
http://www.w3.org/2000/01/rdf-schema#label,35
http://wikiba.se/ontology#statements,35
http://wikiba.se/ontology#sitelinks,35
http://wikiba.se/ontology#identifiers,35
http://www.wikidata.org/prop/direct/P17,35
http://www.wikidata.org/prop/direct/P18,35
http://www.wikidata.org/prop/direct/P31,35


On voit que 288 propriétés sont utilisées. Certaines 35 fois, surement une fois sur chacun des 35 monuments: ce seront les propriétés que nous allons envisager comme obligatoires. On peut voir aussi que de nombreuses propriétés semblent avoir deux variantes présentes le même nombre de fois, par exemple http://www.wikidata.org/prop/direct/P12 et http://www.wikidata.org/prop/P127 (les deux ont pour label owned by). Il s'agit de spécificités de mise en oeuvre de Wikidata sur lesquelles je ne vais pas m'étendre ici. Nous allons nous concentrer sur celles qui commencent par http://www.wikidata.org/prop/direct/. Nous utilisons ici en plus une construction particulière de Wikidata pour associer un label à une propriété (c'est lié aux mêmes spécificités qui font qu'un fait est accompagné d'un statement; voir https://stackoverflow.com/questions/56486888/how-to-get-property-labels-from-wikidata-using-sparql).

In [20]:
SELECT  ?p ?wdLabel (count(distinct ?candidate) as ?c) WHERE {
  ?candidate ?prop <http://www.wikidata.org/entity/Q2945551> .
  ?candidate p:P31/ps:P31/wdt:P279* wd:Q41176 .
  
  ?candidate ?p ?statement .

  ?statement ?ps ?ps_ .
  ?wd wikibase:claim ?p.
  ?wd wikibase:statementProperty ?ps.  
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
group by ?p ?wdLabel
order by desc(?c)

p,wdLabel,c
http://www.wikidata.org/prop/P18,image,35
http://www.wikidata.org/prop/P373,Commons category,35
http://www.wikidata.org/prop/P17,country,35
http://www.wikidata.org/prop/P31,instance of,35
http://www.wikidata.org/prop/P131,located in the administrative territorial entity,35
http://www.wikidata.org/prop/P625,coordinate location,35
http://www.wikidata.org/prop/P380,Mérimée ID,34
http://www.wikidata.org/prop/P1435,heritage designation,34
http://www.wikidata.org/prop/P646,Freebase ID,31
http://www.wikidata.org/prop/P137,operator,30


On voit de nombreux labels avec la chaîne ID. En fait, ce sont des identifiants d'entités équivalentes dans d'autres jeux de données. Ces identifiants permettent d'accéder à des données dans d'autres jeux de données et d'éventuellement compléter les données déjà disponibles; "ISNI" est aussi un identifiant. Cela peut nous suggérer des jeux de données utiles pour aller chercher des informations sur l'entité que nous souhaitons créer. Nous verrons une autre fois comment exploiter cette possibilité.