Permalink
Switch branches/tags
Nothing to show
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
51 lines (29 sloc) 5.27 KB

Barcamp2017

Barcamp des Archives nationales - Samedi 9 décembre 2017

Quelques éléments d’introduction aux jeux de données exposés par les Archives nationales pour le barcamp 2017

Données et métadonnées

Les jeux de données présentés pour le barcamp sont de quatre natures :

  • Inventaires (ou métadonnées de description) : la plupart des documents originaux conservés aux Archives nationales sont sur support papier. Ils sont décrits par des inventaires, qui aujourd’hui sont majoritairement édités sous forme de fichiers conformes au standard de description archivistique Encoded Archival Description XML-EAD. Il existe également des archives sur support photographique ou analogique audiovisuel. Les données structurées nativement numériques sont également décrites par des métadonnées comportant la liste des variables, les dictionnaires de codes, de données et de structures.

  • Images numérisées des originaux papier : certains fonds d’archives ont fait l’objet de campagnes de numérisation afin d’être diffusables en ligne. Il s’agit de fichiers .jpg, liés aux descriptions présentes dans les fichiers XML-EAD.

  • Données nativement numériques : depuis les années 1980, les Archives nationales reçoivent des archives nativement numériques, qui ne possèdent donc pas de version papier. Il peut s’agir d’exports de bases de données au format .csv, de documents audiovisuels (.mov, .mp4, etc.), etc. Ces versements ont également fait l’objet d’inventaires en XML-EAD.

  • Référentiels produits par les Archives nationales : afin de compléter la description des fonds d’archives, les Archives nationales ont normalisé la description des personnes ou organismes dont émanent les archives et constitué ainsi un référentiel des producteurs d’archives, conforme au schéma XML-EAC. A cela s’ajoutent des référentiels plus classiques, concernant les lieux et les personnes physiques.

Qualité des métadonnées

Les inventaires de fonds d’archives : une longue histoire !

Les Archives nationales existent depuis plus de deux siècles, et elles produisent des inventaires depuis l’origine ! La façon de rédiger les inventaires a évolué avec le temps, avant d’être normalisée à la fin du XXe siècle (première norme internationale publiée en 1994). De ces normes ont découlé des standards d’encodage basés sur le langage XML : l’EAD pour les inventaires, l’EAC pour la description des producteurs d’archives. Cette longue histoire est une des explications de l’hétérogénéité des inventaires et de la finesse du niveau de description.

Un grand pas en avant : la dématérialisation des inventaires

A l’occasion de la construction d’un nouveau bâtiment pour les Archives nationales à Pierrefitte-sur-Seine, de grands chantiers de modernisation de l’institution ont été lancés, parmi lesquels la dématérialisation des inventaires qui étaient majoritairement sous forme papier et donc inaccessibles en ligne. Une gigantesque opération de rétroconversion sous forme numérique et d’encodage a eu lieu, portant sur environ 20 000 inventaires. Cette opération s’inscrivait dans une politique de mise en ligne massive des clés d’accès à nos fonds, répondant à une forte demande de notre public et reposant sur une stratégie de recherche sur le plein texte des inventaires. L’interrogation ponctuelle permet désormais de trouver des réponses même dans des fonds où on ne s’attendrait pas à les trouver.

Les limites actuelles

La dématérialisation des inventaires n’a pas supprimé leur hétérogénéité ; ils diffèrent entre eux notamment par :

  • le niveau de description (série de dossiers, dossier, pièce du dossier…) ;
  • la finesse de structuration de l’information (utilisation d’une seule balise pour des informations de différents natures) ;
  • la présence d’indexation (personne, lieux, matière, etc.) ;
  • la qualité orthographique (la rétroconversion a porté aussi sur des inventaires manuscrits qui ont été saisis manuellement) ;
  • etc.

Nous avons choisi de présenter dans le barcamp les inventaires tels qu’ils sont, même si de notre point de vue certains ne semblent pas facilement exploitables.

Enjeux du barcamp

Analyser la qualité des jeux de données

Un des objectifs du barcamp est l’analyse qualitative des jeux de données présentés, qu’il s’agisse des inventaires, des images numérisées, des données nativement numériques (par exemple, comment décrire/exploiter une messagerie électronique?) ; nous attendons des retours des participants sur l’intelligibilité et l’exploitabilité de nos données et métadonnées.

→ Enjeu : Comment améliorer la qualité des métadonnées, donc l’accès aux données/documents originaux ?

Une nouvelle vie pour nos données et métadonnées

L’objectif corollaire du barcamp est d’ouvrir nos ressources à d’autres communautés que celles de nos usagers habituels. Les fiches de présentation des jeux de données comportent des suggestions d’usage tels que nous pouvons les imaginer ; elles ne sont en aucun cas limitatives et ne servent qu’à lancer la réflexion.

→ Enjeu : Quels nouveaux usages pour les (méta-)données des Archives nationales ?