Skip to content
EaSy Data edited this page Aug 12, 2024 · 11 revisions

Périmètre de EaSy Data

Quels types de données peuvent être accueillies dans l’entrepôt ?

L’entrepôt accueille des données géo-référencées des domaines Système Terre et Environnement.  Il peut s’agir de données de recherche liées à des projets (Ex: le projet FAIR EASE), ou des données de longue traîne, issues du traitement de données brutes, de simulations, de modélisations, en vue de publication.

Comment puis-je savoir si mon dataset entre dans le périmètre de l’entrepôt ?

Les périmètres ont été définis par les pôles de donnée et sont disponibles dans le guide de l'utilisateur. Si toutefois, vous avez un doute, vous pouvez contacter les équipes de modération aux adresses suivantes :

Contexte national

- Est ce que l'entrepôt EaSy Data a vocation de moissonner d'autres entrepôts ?

  • EaSy Data va moissonner d'autres entrepots thématique comme Seanoe ou data.indores qui ont vocation à accueillir des dépôts de la recherche effectués par des scientifiques en vue d'un DOI pour publication, ou issus de projets portés par Data Terra, ou pour des données dites orphelines.
  • En revanche, EaSy Data ne moissonera pas des entrepots qui ont vocation à accueillir des données des producteurs comme le Sedoo. C'est la responsabilité des CDOS (Centre D’Observation et de Services).
  • A terme, les données présentes dans l'entrepot seront visibles dans le catalogue fédéré de Data Terra et dans le catalogue de (RDG).

Quel est le lien entre l’entrepôt EaSy Data et la plateforme nationale fédérée des données de recherche ?

L’entrepôt EaSy Data est l’entrepôt thématique national pour les domaines Système Terre et Environnement. La plateforme nationale accueille, quant à elle, les données de recherche de tous les domaines qui n’ont pas leur place dans les centres de données ou les entrepôts thématiques.

Principes FAIR

image

Le principe Findable a pour objectif de faciliter la découverte des données par les humains et les systèmes informatiques et requiert une description et une indexation des données et des métadonnées (Tout ce qui sert à décrire et caractériser une donnée, comme son titre, le nom de ses auteurs, sa taille, son format ou la date de sa création).

  • F1: Les données et les métadonnées sont identifiées par un identifiant global unique et pérenne (PID) => Dans EaSy Data, un DOI est attrivué pour chaque JDD déposé dans l'entrepot et validé par les modérateurs.

  • F2: F2 Les métadonnées décrivant les données sont riches. Pour les rédiger, il est recommandé d’utiliser des standards spécifiques (Dublin Core, DDI, ISO 19115...) et des formats ouverts (XML...). => Le format de Métadonnées utilisé par défaut dans EaSy Data respecte le standard ISO 19115-3, mais les métadonnées sont également disponibles au format DataCite et DCAT-AP. Les métadonnées sont disponibles via une API en XML, JSON et rdf.

  • F3: Les données et les métadonnées sont enregistrées et indexées dans un dispositif permettant de les rechercher => L’entrepôt de données EaSy Data permet l’enregistrement et l’indexation des données et métadonnées du système Terre et Environnement. Il offre un dispositif de recherche permettant de les retrouver, et des API pour gérer l’ensemble du catalogue

  • F4: Les métadonnées spécifient l’identifiant de la donnée. Pour être FAIR, les métadonnées doivent contenir le PID du jeu de données décrit => Dans l’entrepôt EaSy Data, l’élément de métadonnée MD_Identifier spécifie le DOI qui a été attribué à la donnée.

Le principe Accessible encourage à stocker durablement les données et les métadonnées et à faciliter leur accès et/ou leur téléchargement, en spécifiant les conditions d’accès (accès ouvert ou restreint) et d’utilisation (licence).

  • A1: Les données et les métadonnées sont accessibles par leur identifiant via un protocole de communication standardisé.

    • A1.1: Le protocole utilisé est ouvert (accessible à tous gratuitement), libre (sans licence restrictive d’utilisation) et peut être implémenté de manière universelle => Le protocole mis en œuvre dans l’entrepôt pour accéder aux métadonnées et aux données est le protocole HTTP.

    • A1.2: Le protocole utilisé permet l’accès par authentification et autorisation si besoin => Le protocole HTTPS qui est utilisé pour sécuriser l’accès aux métadonnées et aux données.

  • A2 Les métadonnées sont accessibles même quand les données ne le sont pas ou plus => Dans l’entrepôt EaSy Data, les métadonnées sont toujours disponibles même si les données ne le sont plus.

Le principe Interoperable peut se décomposer en : téléchargeable, utilisable, intelligible, et combinable avec d'autres données, par des humains et des machines. Pour garantir cela, les (méta)données doivent respecter un schéma standard, commun et partagé pour garantir une harmonie. Ce principe préconise d'utiliser des standards comme par exemple les normes ISO, des réglementations pour structurer des informations géographiques, la retranscription de dates... et éviter les confusions entre les systèmes et la mauvaise interprétation des informations

  • I1: Les données et les métadonnées utilisent un langage formel, accessible, partagé et largement applicable pour la représentation des connaissances (vocabulaire controlé). Afin que les données restent automatiquement accessibles et compréhensibles, leur description doit suivre un vocabulaire contrôlé et un modèle de représentation servant à le structurer.Cela fournit des ressources compréhensibles par les humains et par les machines. L'échange de données peut ainsi se faire automatiquement d'un système à l'autre => Plusieurs éléments de métadonnées permettant de décrire les données (ex : Thématiques et mots clés) utilisent des thesaurus qui sont exposés selon différents formats du web sémantique (rdf-ttl, rdf/XML, JSON-LD) et accessibles via un serveur de registre (LD Registry) ou un catalogue d'artefacts sémantiques (EarthPortal). De plus, les métadonnées respectent le schéma de la norme ISO19115-3 qui spécifie l’utilisation de listes de code pour définir certains éléments (rôle, représentation spatiale, …).

  • I2: Les données et les métadonnées utilisent des vocabulaires qui respectent les principes FAIR. Il s'agit de vocabulaires contrôlés dont on peut retrouver la documentation grâce à un PID. Il doit être documenté (décrit par des métadonnées) et lisible par les machines => Les vocabulaires utilisés dans l’entrepôt EaSy Data sont documentés par des métadonnées et lisibles par des machines. De plus, ils sont partagés dans un catalogue d'artefacts sémantiques : le EarthPortal.

  • I3 Les données et les métadonnées incluent des liens vers d’autres (méta)données => Dans l’entrepôt EaSy Data, il est possible de faire référence à d’autres métadonnées ou données via les ressources associées

image

Le principe Reusable met en avant les caractéristiques qui rendent les données réutilisables pour de futures recherches ou d’autres finalités (enseignement, innovation, reproduction/transparence de la science). Il vise en premier lieu à rendre tous les résultats vérifiables.

  • R1: Les données et les métadonnées ont des attributs multiples et pertinents => Dans l’entrepôt EaSy Data, les données sont décrites avec de multiples attributs issus de la norme ISO 19115 qui sont décrits dans le fichier métadonnées.

    • R1.1 Les données et les métadonnées sont mises à disposition selon une licence explicite et accessible => Pour les données, toutes les licences Creative Commons et la licence ouverte Etalab sont proposées. Pour les métadonnées, la licence par défaut est la Licence CC-BY-4.0.

    • R1.2 Les données et les métadonnées sont associées à leur provenance => Un attribut traçabilité doit être obligatoirement renseigné pour indiquer la provenance des données qui sont stockées dans l’entrepôt Data Terra. Cet attribut, présent dans la norme ISO19115 (Lineage) doit décrire le producteur de la donnée brute, les sources utilisées pour créer le jeu de donnée avec leur DOI et les traitements effectués pour la création du jeu de données déposé. L'outil associé pour les métadonnées (Geonetwork) gère le lien de filiation entre les fiches de métadonnées liées. Dans EaSy Data, il y a deux niveaux de granularité des fiches de métadonnées : Un niveau Dépot et un niveau JDD. La filiation entre les JDD et le dépôt associé peut être retrouvée.

    • R1.3 Les données et les métadonnées correspondent aux standards des communautés indiquées => Les métadonnées sont conformes au standard ISO 19115-3, standard largement utilisé dans la communauté Système Terre et Environnement. Elles sont exposées également au format Dcat-AP et DataCite (V4.1). Exemple de fiche au format DataCite : https://dataterra.brgm-rec.fr/geonetwork/srv/api/records/e0d1040b-533e-4b4b-bcd5-f2a355027c92/formatters/datacite?output=xml. Les formats de données ne sont pas contraints car les formats de données généralement utilisés utilisent des standards communautaires (netCDF). Un guide de bonnes pratiques et une liste de format préconisé (la liste Facil du CINES) sont fournis. La modération veille à ce que les formats utilisés soient des formats communautaires et ouverts autant que possible.

Synthèse

image

Organisation de l’entrepôt

Qui sont les référents et quel est leur rôle ?

Le référent n’est pas forcément un scientifique. Il fait le lien entre les chefs de projet/administrateurs d'EaSy Data et les communautés, trouve et forme les modérateurs, accompagne les déposants si nécessaire et propose des améliorations dans leurs pratiques. Chaque communauté identifie et nomme ses référents, qui peuvent être également modérateurs. Pour connaître les référents de votre communauté ou vous porter volontaire, adressez-vous à votre pôle de données.

Qui sont les modérateurs et quel est leur rôle ?

C’est un scientifique identifié par un référent de la communauté. Il est en charge de l’analyse des propositions de dépôts, notamment leur adéquation au périmètre de l’entrepôt et l'adéquation avec le schéma de métadonnées dans son domaine de compétences. Après dépôt par le déposant, le modérateur s’assure de la qualité des métadonnées, contenus et formats et, si besoin, entreprend un échange avec le déposant pour arriver à un versement optimal en qualité. Lorsque le dépôt est bien renseigné et de qualité, le modérateur le valide pour que le DOI soit attribué et le dépôt puisse être visible. Il peut être également référent. Pour toute question concernant l'aide au dépot d'un jeu de données ou la modération d'un JDD déjà déposé, vous pouvez contacter :

A qui et comment puis-je faire part de problèmes techniques, suggestions d'améliorations, questions sur l’entrepôt ?

Si votre question concerne tout autre sujet que la modération d'un jeu de données que vous avez déposé ou une aide au dépôt (cf partie précédente), vous pouvez vous adresser à l’équipe projet via ce mail : entrepot@data-terra.org.

Comptes et identifiants

Comment puis-je obtenir un compte pour accéder à la plateforme de dépôt ?

Vous pouvez vous connecter de plusieurs manières :

  • En créant un compte directement sur l'interface
  • En utilisant EduGain
  • En utilisant votre compte ORCID Lors de la première connexion, vous devrez valider la demande d'inscription.

Procédure de dépôt

Lorsque j’ai terminé mon dépôt, est-ce qu’un DOI est attribué au(x) jeu(x) de données ?

Il faut d’abord que le modérateur vérifie que le dépôt répond aux critères de qualité. C’est lui qui valide définitivement le dépôt et déclenche l’attribution du DOI.

Si on crée dans le temps plusieurs versions du produit déposé, faudra-t-il un nouveau DOI par version ou le DOI restera-t-il le même depuis la version 0 ?

  • Dans la première version de l'entrepôt, il n'y a pas de gestion de version (donc il y aura un DOI par jeu de données).
  • Dans une version future, nous souhaitons mettre cela en place ce qu'on appelle les fragments (suffixes derrière le DOI) afin d'identifier la filiation entre les différentes versions d'un même jeu de données. Donc même DOI mais avec fragment différents. Seule la dernière version du jeu de données serait visible dans le catalogue de l'entrepôt (mais les versions plus anciennes resteraient bien évidemment accessibles).
Clone this wiki locally