Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

extraction Wikidata : 16099 URLs (exploitables ?) #41

Open
3l3gant-cod3s opened this issue Jul 10, 2022 · 13 comments
Open

extraction Wikidata : 16099 URLs (exploitables ?) #41

3l3gant-cod3s opened this issue Jul 10, 2022 · 13 comments

Comments

@3l3gant-cod3s
Copy link
Contributor

NB pas nécessairement pertinent du point de vue temporel (cf liste des ministères dans la PJ)

La requête SPARQL sur Wikidata :
https://query.wikidata.org/#SELECT%20DISTINCT%20%3Fclass%20%3FclassLabel%20%3Fitem%20%3FitemLabel%20%3Furl%0AWHERE%20%0A%7B%0A%20%20%20%20%3Fclass%20wdt%3AP279%2a%20wd%3AQ87712822%20.%0A%23%20%20%20%20%3Fsubclass%20wdt%3AP279%20%3Fclass%20.%0A%20%20%20%20%3Fitem%20wdt%3AP31%20%3Fclass%20.%0A%20%20%20%20%3Fitem%20wdt%3AP856%20%3Furl%0A%20%20%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22fr%22%20.%20%7D%0A%7D%0ALIMIT%20100000

SELECT DISTINCT ?class ?classLabel ?item ?itemLabel ?url
WHERE 
{
    ?class wdt:P279* wd:Q87712822 .
    ?item wdt:P31 ?class .
    ?item wdt:P856 ?url
    SERVICE wikibase:label { bd:serviceParam wikibase:language "fr" . }
}
LIMIT 100000

fournit 16099 URLs d’entités qui sont toutes instances de la classe « personne morale et organisme soumis au droit administratif (Q87712822) » (= une administration) ou de ses sous-classes (cf P279*)
entité administrative avec URL (16099) v2.ods

Résultats catégorisés en :

  1. agence régionale de santé
  2. arrondissement municipal
  3. arrondissement municipal de Marseille
  4. autorité administrative ou publique indépendante
  5. caisse de crédit municipal
  6. collectivité d'outre-mer
  7. collectivité territoriale
  8. collectivité territoriale française à statut particulier
  9. collège
  10. collège expérimental
  11. communauté de communes
  12. commune de la Nouvelle-Calédonie
  13. commune de la Polynésie française
  14. commune française
  15. commune française à statut particulier
  16. Conseil départemental de l'accès au droit
  17. département
  18. département d'outre-mer
  19. district des Terres australes et antarctiques françaises
  20. établissement public administratif
  21. établissement public local culturel
  22. établissement public local d'enseignement
  23. groupement d'intérêt public (GIP)
  24. métropole
  25. ministère
  26. organisme consulaire
  27. pôle d'équilibre territorial et rural (PETR)
  28. pôle métropolitain
  29. province de la Nouvelle-Calédonie
  30. région
  31. service déconcentré de l'état à compétence (inter) départementale
  32. service départemental d'incendie et de secours (SDIS)
  33. subclassLabel
  34. syndicat intercommunal à vocation multiple
  35. syndicat intercommunal à vocation unique
@JulienPalard
Copy link
Collaborator

Joli ! J'avais tenté des requêtes SPARQL mais j'avais raté Q87712822, je m'était bêtement restreint à tenter de lister toutes les mairies.

Veux-tu tenter une PR avec ces données ?

@3l3gant-cod3s
Copy link
Contributor Author

on pourrait se faire un point physique ou une visio avec bzg ? Je voudrais être sûr de bien comprendre vos critères de OK/KO des URLs…
R1
comme quoi les repas Blue Hats…

@JulienPalard
Copy link
Collaborator

Je voudrais être sûr de bien comprendre vos critères de OK/KO des URLs…

Le README indique :

noms de domaine d’organismes remplissant des missions de service public

Ça a été discuté un peu ici : #28 (comment) et ici #28 (comment) aussi.

on pourrait se faire un point physique ou une visio avec bzg ?

ping @bzg ^

@3l3gant-cod3s
Copy link
Contributor Author

j’ai aussi Banatic dans le viseur https://www.banatic.interieur.gouv.fr/V5/accueil/index.php

@bzg
Copy link
Member

bzg commented Jul 13, 2022

Merci @3l3gant-cod3s !

On va programmer un échange en visio pour la rentrée - mais comme c'est dans longtemps, n'hésite pas à proposer une PR pour ajouter ces données.

Pour banatic, peux-tu ouvrir cette perspective dans une nouvelle issue ?

Merci beaucoup !

@3l3gant-cod3s
Copy link
Contributor Author

ça ne pouvait pas être autrement que #42 ;)

@3l3gant-cod3s
Copy link
Contributor Author

Joli ! J'avais tenté des requêtes SPARQL mais j'avais raté Q87712822, je m'était bêtement restreint à tenter de lister toutes les mairies.

@JulienPalard pas vraiment étonnant :

hiérarchie descendante de Q87712822
obtenu avec GraphViz, sur la base de :
SELECT DISTINCT ?classLabel ?subclassLabel WHERE { ?class wdt:P279* wd:Q87712822 . ?subclass wdt:P279 ?class . SERVICE wikibase:label { bd:serviceParam wikibase:language "fr" . } }
(ajouté des « -> » etc.)
« De la simplicité » John Maeda

@3l3gant-cod3s
Copy link
Contributor Author

on repère tout de suite une erreur sur collège (en bas) : tous les collèges privés vont ressortir…

@JulienPalard
Copy link
Collaborator

on repère tout de suite une erreur sur collège (en bas) : tous les collèges privés vont ressortir…

Une erreur Wikidata alors, ça devrait être "collège public" ?

@bzg
Copy link
Member

bzg commented Jul 17, 2022

PS: À un moment donné, si notre jeu de données utilise des données de Wikidata et que nous avons des chantiers à ouvrir sur la curation de ces données, on pourra prendre contact avec quelques wikidatiens pour nous aider.

@Erwan-le-Gall
Copy link

@JulienPalard oui. Ou on pourrait inverser la relation : les collèges se sont (parfois) des EPLE (mais pas toujours : le web sémantique affirme des faits sans prétendre qu’ils sont exhaustifs (qu’il existe p. ex. des collèges (privés) qui ne sont pas des EPLE).

@bzg
Copy link
Member

bzg commented Nov 12, 2022

Hello @3l3gant-cod3s, nous avons un point à Etalab en présentiel le 2 décembre 2022 à 14h, tu es évidemment le bienvenu.

Ne pas hésiter à nous envoyer un mail à logiciels-libres@data.gouv.fr si besoin pour les détails.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants