Chapitre 7 : quatre stratégies alternatives pour obtenir des données

Dans les chapitres précédents, j’ai essayé de montrer avec un regard critique l’impact de l’open data sur la transparence, l’innovation et la transformation des administrations. Tout du long, il est apparu que de nombreuses données manquent à l’appel pour répondre aux besoins de la société civile. Que faire lorsque les données ne sont pas disponibles ? Ce chapitre présente quatre stratégies pour obtenir des données lorsque celles-ci ne sont pas disponibles ou n’existent pas. La première passe par la voie réglementaire, il s’agit d’avoir recours au droit d’accès à l’information publique. Même si nous avons vu précédemment ses limites, le cadre juridique français peut permettre d’obtenir des données pertinentes à quiconque a connaissance du droit et sait se montrer persévérant. Autre option : aspirer les données présentes sur les sites web en ayant recours au scraping. Cette méthode repose souvent sur un assemblage incertain et demande des ajustements réguliers pour que les robots parviennent à extraire en continu les éléments pertinents des pages web. Si l’administration ne produit pas ces données, ne les expose pas ou refuse catégoriquement de les libérer, il est toujours possible d’arriver à reconstituer les données. La troisième méthode consiste à constituer une base de données en rapprochant des sources éparses (presse, rapports officiels, récits, publications sur les réseaux sociaux…). Elle repose généralement sur un travail manuel et fastidieux de compilation, d’analyse et de dé-duplication. Dans certains cas, l’effort de collecte des données se révèle trop important pour une personne ou une équipe. Il est alors possible d’avoir recours à la mobilisation d’une foule de contributeurs pour collecter ensemble une base de données exploitable. Les projets qui se réclament du crowdsourcing, terme généralement utilisé pour désigner ces pratiques, prennent des formes très différentes allant de la micro-contribution ponctuelle jusqu’à l’organisation collective et auto-gouvernée de communs de données. _ _

Recourir au droit d'accès

Malgré les limitations que nous avons exposées dans le chapitre 4, le recours au droit d’accès reste la première voie pour obtenir des données lorsqu’elles ne sont pas disponibles. Bien sûr, le droit d’accès se limite uniquement aux données produites dans le cadre de missions de service public, exclut les secrets protégés comme celui des affaires ou des délibérations du gouvernement et ne permet pas de demander à l’administration de produire des données qu’elle ne détient pas. Mais, dans bien des cas, le droit d’accès s’est révélé être un contre-pouvoir efficace afin de permettre de disposer des informations dont les citoyens ont besoin. Aux États-Unis, le droit d’accès a permis l’émergence d’un genre journalistique à part entière, le FOIA Journalism qui consiste à s’appuyer quasi uniquement sur le droit d’accès pour réaliser une enquête. Récemment, le Washington Post a publié des révélations compromettantes avec les _Afghanistan Papers _en obtenant par le droit d’accès des documents révélant que l’armée américaine savait pertinemment en partant en la guerre en Afghanistan qu’elle s’apprêtait à entrer dans un bourbier.

L’exercice du droit d’accès est simplifié par des plateformes qui facilitent et rendent visibles les demandes. WhatDoTheyKnow, la première et la plus connue d’entre elles, a été lancée en 2006 par l’association britannique MySociety afin de faciliter les demandes. Basée sur le logiciel libre Alaveteli, cette plateforme permet de contacter directement le bon interlocuteur dans les collectivités pour exercer le droit d’accès et rend visible l’intégralité de la correspondance relative à la demande¹. La plateforme a connu un grand succès puisque plus de 500 000 demandes ont été effectuées. Aux Etats-Unis, le site Muckrock administré par une organisation à but non-lucratif reprend ces fonctionnalités en ajoutant une dimension éditoriale. Des journalistes administrent le site et lancent régulièrement des enquêtes collaboratives qui s’appuient sur des requêtes en vertu du _Freedom of Information Act. _Les correspondances relatives à ces requêtes sont visibles en ligne ainsi que tous les documents obtenus qui sont ensuite exploités dans des enquêtes. Aujourd’hui, on trouve des portails de droits d’accès à l’information, s’appuyant généralement sur Alaveteli, dans près d’une vingtaine de pays.

En France, pendant très longtemps, il a été difficile de déployer un tel portail qui facilite et rend visible les demandes d’accès aux documents administratifs. Cela s’explique en partie par la difficulté de trouver les bons interlocuteurs dans les institutions publiques. Le Code des Relations entre le Public et l’Administration (CRPA), qui codifie la loi CADA, prévoit que chaque administration désigne une PRADA (Personne Responsable de l’Accès aux Documents Administratifs) chargée de traiter les demandes d’accès. Il s’avère que la base des PRADA est rarement mise à jour, que de nombreuses collectivités n’en ont pas désigné mais que surtout cette base n’est pas disponible en open data. Un annuaire est bien disponible sur le site de la CADA^⁠ mais il n’indiquait jusqu’à récemment que les adresses postales, alors que la loi permet la saisine par courriel. Avec la journaliste du _Monde _Laura Mottet, nous avons transmis une demande à la CADA afin d’obtenir les adresses mail des PRADA. Après un refus implicite de la CADA, nous avons saisi la même institution d’une demande d’avis (sic) sur notre requête à la CADA. L’institution a finalement validé notre demande et nous a permis d’obtenir les données demandées. Avec ces données et une petite équipe de contributeurs bénévoles au sein de l’association Open Knowledge France², nous avons pu lancer en octobre 2019 le portail madada.fr comme Ma Demande d’Accès aux Documents Administratifs. Au moment où j’écris ces lignes, le site a reçu une quarantaine de demandes en deux mois et permet de saisir près de 50 000 administrations publiques. Cette plateforme a déjà obtenu des résultats que ce soit pour identifier les données relatives à 7 milliards d’euros de subvention attribuées par l’Etat aux associations³ ou obtenir le nombre de véhicules passant sur les 5 dernières années pour plus de 200 capteurs en région PACA⁴. La visibilité des échanges sur la plateforme devrait favoriser une plus grande réactivité des administrations en exposant sur la place publique une procédure qui se déroulait jusqu’alors en coulisses. Ces réussites ne doivent toutefois pas cacher les difficultés récurrentes rencontrées par les demandeurs, qu’ils passent par une plateforme comme madada.fr ou traitent en direct avec les administrations. Même si la base des PRADA nous indique les contacts privilégiés dans les administrations, de nombreuses demandes n’aboutissent pas car elles n’arrivent pas aux bonnes personnes ou les destinataires ne connaissent pas les règles du droit d’accès. Si la demande est bien reçue, obtenir un accusé de réception est rare même si la loi le prévoit et le silence est courant, beaucoup d’administrations, en particulier locales, attendant un avis de la CADA avant de se prononcer même pour des demandes ne faisant aucunement débat. Enfin, lorsqu’on obtient les données, ces dernières ne correspondent souvent pas aux exigences de la loi pour une République numérique en matière de lisibilité par les machines et d’ouverture des formats. Plusieurs demandes sur madada.fr ont abouti à un courrier indiquant de télécharger un fichier PDF ou renvoyant vers un rapport dans lequel il est impossible d’exporter les données.

Malgré les limites connues du droit d’accès, ces plateformes ouvrent la possibilité inédite de constituer des bases de données à une échelle nationale à partir de demandes multiples. Une des limitations de l’ouverture des données locales réside dans le fait que les données publiées par une collectivité ne sont pas toujours ouvertes dans les autres territoires déjà investis dans une démarche d’open data. Rappelons par ailleurs que ces collectivités sont encore une exception. Selon les données de l’observatoire open data des territoires d’Open Data France⁵, seulement 7,8% des 5101 collectivités concernées par la loi pour une République numérique ont effectivement ouvert des données. Parmi celles-ci, 31% ont ouvert seulement un jeu de données et 67,5% au maximum 10 jeux de données.Il est donc rare qu’un même jeu de données puisse être retrouvé dans un nombre suffisant de collectivités pour atteindre une couverture complète du territoire. Pour des données produites uniquement par des collectivités locales, ces plateformes offrent la possibilité de réclamer le même jeu de données dans un grand nombre de territoires afin de créer une base de données à l’échelle nationale de phénomènes. A cette fin, MySociety vient de développer une fonctionnalité pour WhatDoTheyKnow afin de saisir à la volée jusqu’à plusieurs milliers d’administrations et d’assurer le suivi de ces demandes. En France, la société VroomVroom.fr est née suite à ce modèle de demandes CADA à la volée. Le site, qui propose un comparateur des auto-écoles en France, a demandé à chaque préfecture les statistiques de performance des auto-écoles et les a compilées dans une base de données unique qui a servi de base au développement du site.

Le droit d’accès, même simplifié et rendu visible, reste limité par l’étape du recours auprès du tribunal administratif. Cette procédure réclame des compétences juridiques rares et n’est pas accessible au citoyen en quelques clics. Rappelons que les avis de CADA sont consultatifs et qu’une administration peut toujours refuser la communication d’un document administratif suite à un avis favorable. Seul un jugement du tribunal administratif (ou du Conseil d’État pour un pourvoi en cassation) peut l’y contraindre. Bien que la démarche soit gratuite, le recours devant le juge administratif demande des compétences juridiques avancées, notamment dans la rédaction d’un mémoire. L’association Ouvre Boîte qui vise à « obtenir l'accès et la publication effective des documents administratifs » s’est fait la spécialité de tels recours. Elle met à disposition sur son site des exemples de mémoire au tribunal administratif pour contester un avis de la CADA ou obtenir la communication d’un document. Son action a permis l’ouverture de bases de données emblématiques comme le registre parcellaire graphique qui donne les contours des parcelles agricoles avec le type de culture, le répertoire des professionnels de santé, les code source de l’algorithme de calcul des aides de la CAF et de l’impôt sur le revenu. Ces exemples rappellent que le droit d’accès est un travail de longue haleine qui, avec de la pratique et de la tenacité, peut s’avérer fructueux. Mais, dans bien des cas, les personnes qui ont besoin de données ne font pas preuve d’une telle patience. Le scraping ou l’extraction de données issues de sites web peut alors s’avérer être une stratégie payante.

Scrapper les données sur le web

Le scraping⁶ consiste à extraire les données présentes sur des sites web généralement dans des pages éparses. Il est courant qu’une organisation diffuse des données sur le web mais ne mette pas à disposition les données derrière ces sites. Or, pour beaucoup de sites publics, ces données auraient vocation à être librement réutilisables par toutes et tous. Les outils de scraping permettent de cibler les éléments à extraire sur les pages (généralement par leurs propriétés dans le code source de la page ou dans la feuille de style), de lister toutes les pages concernées et d’extraire les éléments dans une base de données structurée.

Avant le développement de l’open data, le scraping était la seule voie pour obtenir des données publiques lisibles par les machines et en continu. L’exemple de GovTrack.us, un site de suivi de l’activité parlementaire, le montre bien. Ce site s’appuie uniquement sur l’extraction automatique des données publiées sur le site du Congrès des Etats-Unis. Présent à la conférence de Sebastopol en 2007, Joshua Tauberer à l’origine de GovTrack.us a joué un grand rôle dans la diffusion des principes de l’open data en publiant le site de référence opengovdata.org et en écrivant le livre _Open Gov Data _{Tauberer:2014td}. La présence de Tauberer à la conférence fondatrice et son activisme par la suite ne sont pas anodins. D’une certaine façon, les principes de l’open data ont tenté de résoudre les limitations du scraping qui s’apparente souvent à un bricolage. En l’absence de source de données ouvertes fiables, les robots qui permettent le scraping sont sensibles à la moindre évolution des sites web. Une modification de la feuille de style ou de nouveaux éléments ajoutés sur la page rendent souvent le script caduque et les données corrompues. L’organisation à l’origine du site peut facilement interrompre le scraping en changeant la structure du site, en bannissant les adresses IP correspondant aux scripts ou en empêchant un affichage trop rapide des pages. Les principes de l’open data tentent de pérenniser les outils réutilisant des données publiques là où le droit d’accès ou le scraping reposent sur des assemblages fragiles.

En France, la création d’un site de suivi de l’activité parlementaire, similaire à GovTrack.us, a donné lieu à la création de l’association Regards Citoyens, une des principales organisations militant en faveur de l’open data dans le pays. En 2009, l’association a créé nosdeputes.fr puis nossenateurs.fr pour suivre l’activité des parlementaires : amendements, questions écrites ou orales, interventions en hémicycle ou en commission, rapports ou propositions de loi. Ces sites sont nés à partir du scraping des sites de l’Assemblée nationale et du Sénat où l’activité des parlementaires est éparpillée dans des documents HTML ou PDF qui sont convertis dans des bases de données⁷. Ces données, repartagées ensuite en open data, offrent à chacun de nouveaux outils d’accès à ses élus : comparaison des activités des députés par groupe politique, représentation sur un graphe de l’activité individuelle des députés, nuages des mots-clés les plus employés par un député, comptes-rendus de séances enrichis de liens contextuels, alertes mails, possibilité de commenter chacun des travaux réalisés par les parlementaires… Bien que désormais l’Assemblée nationale et le Sénat proposent des portails open data, le scraping reste la principale source de données pour ces sites. Regards Citoyens doit donc régulièrement adapter ses scripts pour continuer à extraire les données malgré les évolutions régulières des sites parlementaires.

La plupart des exemples de scraping témoignent de la fragilité sur le moyen et long terme de cette technique d’obtention des données. Le journaliste Alexandre Léchenet avait réalisé en 2012 une enquête sur les dépassements d’honoraires des médecins (figure 5) pour _Le Monde _en extrayant les données du site ameli-direct.fr qui indique les tarifs habituellement exercés par chaque praticien.

Figure 5. Carte des dépassements d’honoraires à Paris réalisée à partir des données d’ameli-direct.fr

Ces données n’étaient pas mises à disposition par l’Assurance Maladie. Pour les extraire, Alexandre Léchenet a développé un robot qui contourne les différentes protections (cookie, moteur de recherche en Flash, URL unique pour chaque session…) mises en place sur le site⁸. Quelques mois après la publication de la carte par _Le Monde _qui révélait qu’en moyenne à Paris les dépassements étaient de 15€ par consultation, l’Assurance Maladie a fait évoluer le site pour empêcher de nouvelles extractions. Lors d’une audition par la mission commune d’information du Sénat sur l’open data, Mathieu Escot, chargé de mission santé à UFC-Que Choisir, expliquait que l’association avait du extraire les données d’ameli-direct pour conduire une étude similaire sur les dépassements d’honoraires des cabinets médicaux. Selon lui, cette opération a coûté 20 000 € à l’association « soit l'équivalent du budget annuel du pôle santé de l'association pour l'achat de prestations extérieures⁹. » Ces différentes protections, qui souvent visent d’abord à protéger des données personnelles ou sensibles, restreignent les capacités d’action de la société civile aux associations ou médias les plus aisés. Dans un tout autre domaine, la Cimade, une association de défense des réfugiés et du droit d’asile, a mis en place le site « A guichets fermés » pour dénoncer l’attente pour les formalités d’immigration devenue « un moyen de domination des personnes étrangères par la préfecture¹⁰. » L’association constate depuis plusieurs années que la dématérialisation des procédures crée des « files d’attente invisibles » et renforce la précarité des personnes immigrées. Pour produire le site « A guichets fermés », l’association a développé des robots qui se rendent toutes les deux heures sur les sites de prise de rendez-vous en préfecture et extraient le délai d’attente pour les principales formalités. Ces données ont permis de montrer que, dans de nombreux départements, les personnes en situation régulière ne peuvent jamais prendre de rendez-vous alors que le délai pour un visa de long séjour s’étend de un à deux mois dans la même préfecture. Le site propose pour chaque préfecture des visualisations du délai d’attente pour les différentes procédures (figure <$n:figure:agf), des graphiques qui peuvent être exportés à des fins de preuves dans des recours administratifs.

Figure 6 Exemple de délais dans une préfecture sur le site « A Guichets Fermés » de la Cimade

En l’absence de données officielles à ce niveau de précision, le scraping a permis de dénoncer des délais extrêmement longs, décourageant les réfugiés et les poussant à la clandestinité. Mais ces données n’ont pas suffi à résorber la pénurie de rendez-vous, bien au contraire. En 2018, le ministère de l’Intérieur a voulu mettre un terme aux plateformes automatisées qui monétisaient les créneaux réservés, profitant de la rareté des rendez-vous pour créer un marché parallèle. Effet collatéral, de mai à juin 2018, le robot de la Cimade a été bloqué, jusqu’à ce que l’association trouve un contournement. En avril 2019, le robot a encore été interrompu « et contrairement aux [blocages] précédents, un faisceau d’éléments indique que ce blocage s’adresse spécifiquement à La Cimade, facilement identifiable par l’adresse IP du robot¹¹. » Deux semaines après avoir interpellé le ministre et publié un communiqué de presse, la Cimade a pu de nouveau collecter les délais d’attente en préfecture suite à une intervention de la Place Beauvau.

L’exemple du décompte des soutiens à la proposition de loi s’opposant à la privatisation d’Aéroports de Paris (ADP) témoigne encore une fois de la fragilité du scraping. Le site du référendum d’initiative partagée (RIP) lancé en juin 2019 par le ministère de l’Intérieur ne fournissait aucun compteur des signatures. La proposition doit être signée par 10% du corps électoral (soit 4,7 millions de citoyens). Pour le ministère, le comptage de signataires relevait de la prérogative du Conseil constitutionnel. Quelques jours après le lancement du site, deux initiatives citoyennes ont comptabilisé les soutiens en contournant les obstacles placés par le ministère sur le site du RIP. Afin d’extraire le nombre de soutiens présentés sur plusieurs milliers de pages rangées par ordre alphabétique, il fallait valider à chaque page un captcha qui visait à valider que l’utilisateur est un humain. Pour contourner le captcha, un premier site avait eu recours à des micro-travailleurs rémunérés à la tâche tandis que le second proposait d’installer une extension sur son navigateur qui extrayait page par page le nombre de signatures. Ces deux méthodes étant particulièrement dépendantes des contributions humaines, une faille a été trouvée sur le site du RIP avec une page qui recensait la totalité des pages de la liste de soutien. Dans la journée après la découverte de cette page, le ministère de l’Intérieur a bloqué cette page obligeant à revenir aux précédentes méthodes de comptage¹². Ces exemples montrent que le scraping peut s’avérer être une méthode efficace pour obtenir rapidement des données de valeur mais qu’elle s’avère incertaine sur la durée sans procéder à des ajustements incessants.

Constituer des données à partir des informations disponibles

La troisième stratégie consiste à rassembler des informations disponibles mais éparses dans une base de données. Bien que l’ouverture des données soit aujourd’hui en France une obligation légale pour les acteurs investis d’une mission de service public, il est encore courant que des administrations publient des documents PDF dont il est très difficile d’extraire les données. Ce format a pour particularité de garantir une certaine forme d’immuabilité au document et de ne pas permettre à l’usager de le transformer aisément {Gitelman:2014vy}. Les documents publiés par les administrations comportent généralement des graphiques, des tableaux ou des indicateurs qui, pris isolément, ne permettent pas de refaire les calculs et de produire de nouvelles analyses. En 2015, j’avais accompagné le Syndicat de la Presse Indépendante d’Information en Ligne (SPIIL) dans une action de plaidoyer en faveur d’une meilleure répartition des aides à la presse pour les acteurs de la presse en ligne. Depuis les Etats généraux de la presse de 2008, le syndicat constate que les réformes s’enchainent pour accompagner le basculement vers le numériques des entreprises de presse alors que les usages sont déjà considérablement transformés. Dans les chiffres, les adhérents du SPIIL ont constaté que les aides étaient toujours en immense majorité réservées au support papier. A l’époque, les données disponibles ne concernaient pas l’ensemble des titres (seulement les 200 titres les plus aidés) ni l’ensemble des dispositifs (uniquement certaines aides directes). Pour disposer d’une vue d’ensemble des aides à la presse et objectiver son plaidoyer, le SPIIL a constitué une base de données estimant le montant de chacun des dispositifs d’aide à partir de sources très diverses (figure 7) : rapports annuels de performance établis par Bercy, rapport de la Cour des Comptes, budget de l’Etat, questions au gouvernement ou encore des estimations publiées par le SPIIL…

_Figure 7. Evolution annuelle des montants des différents dispositifs d’aides à la presse estimée par le SPIIL à partir de sources variées. _

Avec ces données, nous avons conçu des visualisations pour illustrer les messages portés par le SPIIL dans l’analyse de ces données (figure 8).

Figure 8. Visualisation de données produites avec le SPIIL sur l’évolution des aides à la presse

Quelques temps après la publication du panorama des aides à la presse, vraisemblablement en réaction à ce dernier, le ministère de la Culture a publié le détail des aides à la presse par titre sur l’ensemble des aides directes¹³.Ce cas illustre une difficulté courante dans la constitution d’une base de données à partir des informations disponibles sur le web. Avec des sources éparses, seul un travail manuel imposant suffit à constituer une base de données à partir d’informations jamais structurées de la même manière dans les différentes publications ou rapports qui assurent depuis longtemps la transparence étatique.

Dans tous les cas précédents, des informations publiques sont présentes sur le web mais sous une forme qui ne permet pas de constituer aisément une base de données. Pour certains sujets, les acteurs publics ne produisent aucune trace ou enregistrement des phénomènes étudiés ou au moins ne les rendent pas visibles. Pour parvenir quand même à constituer une base de données, une autre stratégie alternative consiste à structurer les informations publiées dans la presse ou dans la « littérature grise ». De mi-2013 à mi-2016, le projet Migrant Files est né du constat qu’il n’existait pas de base de données utilisables sur les personnes décédées en tentant de se réfugier en Europe. Une équipe de data journalistes européens a alors cherché à compléter les données existantes sur le sujet produites par United, qui fédère plus de 500 ONG européennes et Fortress Europe, créée par un journaliste italien¹⁴. Pour y parvenir, les journalistes ont compilé des informations sur les décès des réfugiés lors de leur migration en s’appuyant sur des articles de presse, des rapports officiels ou encore des témoignages. Chaque décès est enregistré en indiquant la date, la localisation la plus précise possible, le nombre de personnes décédées ou disparues ainsi que les causes de la mort. Même si de nombreux migrants décèdent sans laisser de trace, les Migrant Files ont révélé que l’ampleur des décès des migrants étaient 53% plus élevée que ce qu’avait mesuré United et 70% de Fortress Europe. Ces données (figure 9)_ _ont été utilisées par des centaines de médias, chercheurs et journalistes pour évaluer le nombre de décès découlant des politiques européennes de répression et de rejets des réfugiés.

Figure 9. Carte des décès sur les routes de la migration issue du site themigrantsfiles.com

Après avoir répertorié scrupuleusement plus de 30 000 décès en migration depuis 2000, l’équipe de Migrant Files a décidé d’interrompre la collecte des données considérant que leur objectif était réalisé puisque l’Organisation internationale pour les migrations (OIM), une agence apparentée aux Nations Unies, collecte désormais des données précises sur les décès lors de la migration. Ces données sont régulièrement employées pour décrire précisément la mortalité sur les différentes routes empruntées par les réfugiés.

Le projet de cartographie de la corruption de Transparency France a employé une stratégie similaire à celle des Migrant Files en s’appuyant sur la presse pour constituer des bases de données des condamnations pour corruption en France. Il vise à fournir des données objectives sur les caractéristiques de la corruption en France (ampleur, formes, récurrence, montants en jeu, sanctions) afin de procurer une meilleure compréhension du phénomène, de sensibiliser le grand public et d’informer à l’échelle locale sur les affaires de corruption au sein de sa ville, son département, sa région¹⁵. Le site part du constat qu’il n’existe pas de base de données publique des condamnations prononcées par la justice française. Le casier judiciaire national fournit des statistiques uniquement sur le nombre de condamnations annuelles tout crime ou délit confondu ou sur le genre et l’origine des personnes visées. Pour y remédier, un bénévole de Transparency France, Raymond Bonomo, surveille les chroniques judiciaires de la presse locale en France pour détecter les affaires de corruption au sens défini par l’association qui étend la définition du code pénal à l’ensemble des atteintes à la probité et malversations financières dans les secteurs publics et privés¹⁶. Chaque affaire répertoriée à partir de la presse comporte une description, une désignation anonyme des personnes ou entités impliquées, les dates et lieux des faits et de la condamnation, des tags et des références à l’article source dans la presse.

Figure 10. Cartographie de la corruption en France établie par Transparency France

Le site visualiserlacorruption.fr (figure 10) présente plus de 900 condamnations et a servi notamment à Transparency France pour calculer un délai moyen de 7 ans entre la date des faits et la condamnation, un chiffre important pour renforcer le plaidoyer de l’association sur le manque de moyens de la justice en France pour lutter efficacement contre la corruption.

Dans les cas précédents, les données ont finalement pu être produites et transformées à partir de sources existantes mais non exploitables par les machines. Les informations étaient disponibles sur le web et un petit nombre de contributeurs a pu les rassembler pour constituer une base de données à partir de laquelle diverses analyses et visualisations les ont restituées à un plus large public. Mais, il n’est souvent pas possible pour une petite équipe de constituer les données. Dans ces cas, il faut alors faire mobiliser à une foule de contributeurs pour obtenir les données.

Faire appel à une foule de contributeurs

On désigne couramment sous le terme de _crowdsourcing _l’acte de déléguer des actions à un grand nombre d’individus sous la forme d’un appel ouvert à la contribution {BurgerHelmchen:2011be}. Ces pratiques de contribution ouvertes ont été largement critiquées du fait qu’elles s’apparentent à un travail constitutif de la richesse de très nombreux services en ligne comme Tripadvisor, Foursquare ou Waze {Casilli:wh}. Le crowdsourcing peut aussi servir à des projets d’intérêt général afin de constituer des bases de données ouvertes. Dans l’ensemble des exemples qui suivent, les contributeurs se sont mobilisés pour collecter des données dans des projets à but non lucratif, souvent afin de servir une cause militante ou pour passion. En préparation des États Généraux de l’Alimentation de 2017, Greenpeace souhait montrer que nos enfants mangent au moins deux fois trop de viande dans les cantines scolaires mais ce constat cache une situation très hétérogène selon les villes. Certaines ont fait des efforts notables, d’autres continuent à servir viande et poisson tous les jours. Il n’existe toutefois aucune base de données au niveau national sur la composition des menus pour objectiver ce constat. Il y a bien quelques villes en France qui ont ouvert des données sur les menus des cantines comme Toulouse qui propose les menus quotidiens, les plats qui les composent et les denrées qui servent à leur élaboration. Pour obtenir les données dont nous avions besoin, j’ai travaillé avec Greenpeace pour concevoir une enquête contributive dans laquelle les sympathisants de l’ONG pourraient remonter les données concernant leurs écoles via une plateforme en ligne. En concevant cet outil, nous nous sommes rendus compte que les menus des cantines étaient effectivement publiés sur le web partout en France mais quasi exclusivement sous la forme de fichiers PDF. Dans ces menus, il n’y a pas de règle générale pour la présentation. Il n’était donc pas possible d’analyser automatiquement les fichiers pour déterminer la présence de viande ni de concevoir un outil qui indique automatiquement au contributeur quelle partie du fichier correspond à tel menu, à l’inverse du cas de Regards Citoyens où les déclarations d’intérêts étaient uniformisées, chaque partie du fichier correspondait à une section de la déclaration. Pour arriver à qualifier les menus des écoles primaires, nous avons conçu un site de contribution faisant appel aux sympathisants de l’association (figure 11).

_Figure 11. Capture d’écran du site de contribution à la campagne de Greenpeace sur les menus des cantines _

Entre septembre 2017 et février 2018, près de 8000 personnes ont collecté des données précieuses sur les menus de cantines des écoles primaires publiques en France : nombre de repas végétariens proposés, fréquence des options végétariennes, origine bio de la viande, intitulés des menus,…Grâce à cette grande enquête, Greenpeace a recueilli plus de 12 000 contributions couvrant plus de 3 200 villes et au moins 60 % de la population des écoliers. Bien qu’elles ne couvrent pas tout le territoire, ces données ont permis de montrer que 69 % des enfants sont obligés de manger de la viande ou du poisson presque tous les jours. Seuls 9 % des enfants mangent végétarien une fois par semaine et aucune ville n’atteint la préconisation de Greenpeace de deux repas végétariens par semaine. Les données issues de l’enquête ont été publiées sur data.gouv.fr et une carte a été produite pour consulter les résultats pour chacune des communes pour lesquelles des données ont été collectées (figure 12).

Figure 12. Carte produite à l’issue de l’enquête de campagne de Greenpeace sur les menus dans les cantines.

Dans un tout autre domaine, on peut citer aussi comme exemple de crowdsourcing la campagne réalisée par l’association Regards Citoyens en juillet 2013 pour numériser les déclarations d’intérêts des parlementaires. Suite à la loi du 11 octobre 2013 sur la transparence de la vie publique, les parlementaires doivent déclarer leurs intérêts à la Haute Autorité pour la Transparence de la Vie Publique en charge de les contrôler et de les rendre publics afin que chaque citoyen puisse évaluer les possibles risques de conflits d'intérêts de ses représentants. La loi prévoit que les déclarations d'intérêts soient diffusées en open data mais, ayant pris ses fonctions en décembre 2013 et devant collecter l’ensemble des déclarations avant janvier 2014, la HATVP a préféré garder l’ancienne procédure de la commission pour la transparence qui nécessitait de remplir un formulaire papier plutôt que de remplir un formulaire en ligne¹⁷. En juillet 2014, la HATVP a publié un jeu de données recensant les déclarations d'intérêts mais ces dernières étaient diffusées sous la forme de PDF images scannant les formulaires généralement manuscrits des parlementaires. Il était alors quasiment impossible d’extraire le texte manuscrit, indéchiffrable par la plupart des outils de reconnaissance de caractères (OCR). Regards Citoyens a ainsi développé une plateforme collaborative afin d’inviter les citoyens à saisir ces informations essentielles à la vie publique. Le site¹⁸ affichait d’un côté l’extrait de la déclaration du parlementaire et de l’autre une interface pour numériser chacun des éléments contenus dans la section du formulaire (figure 13).

Figure 13. Capture d’écran du site « Numérisons les intérêts des parlementaires » développé par Regards Citoyens

Le travail était rendu particulièrement difficile par le fait que certaines déclarations étaient pratiquement illisibles du fait de l’écriture manuscrite de son auteur, de ratures, d’annotations ou parfois même de déclarations hostiles à la démarche de transparence. Pour éviter d'intégrer toute erreur de saisie ou tentative de vandalisme, chaque extrait de formulaire était présenté au hasard aux utilisateurs et n'est considéré comme valablement numérisé que lorsque 3 utilisateurs différents auront saisi les mêmes informations. Certaines déclarations¹⁹ ont nécessité l’intervention de près de 70 personnes différentes pour être numérisées comme celle de Xavier Bertrand (figure 14).

Figure 14. Extrait de la déclaration d’intérêt de Xavier Bertrand

Au final, les déclarations remplies des 577 députés et 348 sénateurs comportant chacune 12 parties, soit un total de plus de 11 000 extraits de formulaires manuscrits, ont été numérisées en une semaine par près de 8000 contributeurs. Les données ont été republiées sous la forme d’un fichier csv comprenant tous les éléments contenus dans les déclarations permettant par exemple une analyse du nombre de collaborateurs par parlementaire. Depuis, la HATVP a généralisé la télé-déclaration des intérêts pour les personnes concernées et diffuse en open data l’intégralité des déclarations collectées.

Dans le domaine des transports, le baromètre des villes cyclables de la Fédération Française des Usagers de la Bicyclette (FUB) qui regroupe 320 associations adhérentes a aussi recours au crowdsourcing pour recueillir le ressenti des usagers sur la cyclabilité de leur ville, mesurer l’écart entre attentes et réalité constatée et développer les politiques cyclables en partant des besoins des usagers²⁰. Inspiré par une initiative similaire conduite en Allemagne depuis plus de vingt ans, le baromètre s’adresse à tous les cyclistes de France et comporte une série de questions sur la cyclabilité de leur commune dans cinq domaines : ressenti général, sécurité, confort, importance du vélo pour la commune, stationnement et services. Pour figurer dans le baromètre, une commune doit disposer de plus de cinquante réponses. Il est restitué au public une note globale et le détail des critères permettant d’identifier les points forts et les points à améliorer dans les politiques cyclables. Lors de la première édition nationale en 2017, 113 009 réponses ont été recueillies et les données ont contribué au lancement du plan vélo gouvernemental. Avec 184 000 réponses (+63% par rapport à la première édition) et 763 villes qualifiées, la deuxième édition lancée en septembre 2019 a dépassé le nombre de réponses de l’enquête allemande sur la cyclabilité²¹. Conçue pour influencer la campagne des élections municipales, il a déjà permis de localiser 400 000 points noirs dans la circulation cyclable en France. Ses résultats seront annoncés le 6 février 2020 lors du congrès annuel de la FUB.

Dans les projets précédents, la foule des contributeurs ne joue pas un rôle déterminant dans la gouvernance et l’évolution des projets. Ces structures étant basées sur un modèle associatif, il serait toutefois tout à fait possible pour un contributeur de rejoindre les instances décisionnelles de Greenpeace, Regards Citoyens ou de la FUB. Mais, dans leur conception, ces projets de crowdsourcing laissent très peu de possibilités de faire évoluer la manière dont les données sont collectées. Il en va tout autrement dans le domaine des communs. Rappelons-le, à la suite en particulier des travaux d’Elinor Olstrom, les communs désignent des ressources partagées, gérées, et maintenues collectivement par une communauté. Une erreur fréquente consiste à ranger l’ensemble des données ouvertes dans le champ des communs du fait qu’elles constituent des ressources partagées {Goeta:2014vb}. Comme le résume bien David Bollier, « un commun, c’est : une ressource + une communauté + un ensemble de règles sociales. Ces trois éléments doivent être conçus comme formant un ensemble intégré et cohérent. » Partant de cette définition, on peut citer quatre communs de données reposant sur la contribution d’une communauté participant à l'édification des règles de collecte et d’exploitation des données.

Dans le domaine des sciences du vivant, Tela Botanica constitue un commun de données emblématique. Fondée en 1999 afin de revitaliser la botanique dans un contexte où l’enseignement de cette discipline disparaissait des programmes d’éducation en France, cette association à but non lucratif est le plus important réseau des botanistes professionnels et amateur en langue française {Heaton:2010wj}. La collecte de données structurée et suivant des référentiels scientifiques figure au coeur des activités de l’association. L’association partage en particulier les données d’E-flore qui regroupe plus de 200 000 pages sur les taxons de la flore de France, d’Amérique du Nord et de quelques départements français d’outre-mer, une référence dans le domaine de la botanique. Les contributeurs (plus de 47 000 en 2020) peuvent déposer leurs observations dans le carnet de terrain en ligne. Les photos des espèces partagées par le réseau Tela Botanica ont par exemple servi à créer l’application Pl@ntnet qui permet d’identifier les plantes en les photographiant avec un smartphone. Cette application produite dans le cadre d’un projet de recherche reverse elle aussi ses données sous licence libre.

Le cas le plus connu de communs de données est celui d’OpenStreetMap (OSM), une base de données géographiques mondiale qui a été créée en 2004 par Steve Coast, étudiant londonien en physique, à la suite du refus de l’_Ordnance Survey (l’IGN britannique) _de partager ses données gratuitement. OSM repose sur les contributions de plus de 4 millions de contributeurs enregistrés dans le monde qui éditent le « Wikipedia de la carte » à partir d’images satellites ou directement sur le terrain muni d’un GPS, d’un carnet ou encore d’un smartphone. Bien que ce soit désormais la principale alternative à Google Maps, OSM est bien plus qu’une carte : c’est une base de données collaboratives sur tous les éléments présents dans l’espace public. Chaque objet dans OSM dispose de caractéristiques géographiques (sa forme, sa géolocalisation, sa relation avec les autres objets) et d’attributs présentés sous la forme de tags avec une paire clé/valeur pour décrire chaque objet {Dufeal:2017uq}. Illustrant parfaitement le triptyque ressource / communauté / règles qui définit un commun, les tags dans OSM font l’objet de constantes discussions parmi les contributeurs. Chaque objet peut être tagué librement même si la communauté s’accorde sur la page du wiki « éléments cartographiques » sur les tags reconnus officiellement, ceux qui apparaissent dans les fonds cartographiques. Ces débats permettent aux contributeurs de restituer la richesse et la multiplicité de leur expérience du territoire, comme par exemple dans le cas des infrastructures cyclables {Denis:2013is}. La communauté a considérablement grandi à la suite notamment du tremblement de terre à Haïti en 2010 où les contributeurs se sont mobilisés pour produire des fonds cartographiques pour faciliter les opérations humanitaires. Loin de constituer un projet amateur, les données d’OSM forment aujourd’hui l’infrastructure géographique de nombreux projets : Tesla, Wikimedia, Strava ou Snapchat figurent parmi les usagers des données OSM²². En janvier 2017, le très populaire jeu en réalité augmentée PokemonGo, qui a totalisé plus d’un milliard de téléchargements mondialement²³, a adopté OSM comme source de données à la place de Google Maps²⁴. Très vite, les joueurs ont trouvé comment éditer la carte pour faire apparaitre à proximité de chez eux des Pokemon rares en rajoutant des parcs qui parfois n’existaient pas²⁵. La communauté accompagne depuis les joueurs pour les encourager à contribuer²⁶ dans le respect des règles de la communauté. Elle a aussi développé ses mécanismes de lutte contre le vandalisme même si, le jeudi 30 aout, OSM s’est retrouvé sous les feux des projecteurs après une modification du nom de la ville de New York en « Jewtropolis », rapidement corrigé dans OSM mais conservé par erreur par Mapbox, un service de cartographie utilisé par de très nombreux services en ligne. Pendant une heure, les cartes présentes dans Snapchat, le site du New York Times ou encore Citybike ont affiché « Jewtropolis » et les captures d’écran ont très vite circulé sur les réseaux sociaux pour dénoncer cet acte d’antisémitisme s’immisçant dans les espaces numériques du quotidien des new-yorkais. Si, à la suite de Star et Ruhleder {Star:2010ue}, on se demande sur quand un objet fait infrastructure, cet exemple montre bien comment OSM s’est fondu dans l’arrière-plan jusqu’à disparaitre, la définition même d’une infrastructure qui devient visible essentiellement au moment d’une défaillance.

On retrouve cette caractéristique infrastructurelle dans un autre commun de données dans le domaine de l’alimentation. Lancé en mai 2012 sous l'impulsion de deux français, Stéphane Gigandet et Pierre Slamich, Open Food Facts (OFF) est une base de données ouvertes sur les produits alimentaires renseignée par plus de 15 000 contributeurs. OFF permet de numériser les informations contenues sur les étiquettes qui ne figurent dans aucune base de données ouvertes : nom, dénomination, conditionnement, catégories, lieu de fabrication, ingrédients, allergènes, valeurs nutritionnelles… La croissance d’OFF a été particulièrement soutenue à la suite d’une série d’évènements. A partir de 2014, le Nutri-Score, système d'étiquetage nutritionnel basé sur un logo avec cinq valeurs allant de A à E et du vert au rouge, a été élaboré par l'Equipe de Recherche en Epidémiologie Nutritionnelle (EREN) en utilisant la base OFF pour vérifier la validité de la notation dans différents pays²⁷. L’EREN utilise aussi OFF pour connaitre la composition des produits alimentaires consommés par les 160 000 participants de l’étude NutriNet-Santé sur les pratiques alimentaires afin d’étudier l’impact à long terme des additifs²⁸. En 2017, l’application Yuka est lancée en utilisant les données d’OFF mais en janvier 2018 son équipe a décidé de constituer sa propre base de données propriétaire²⁹. Yuka disposait de plus de 9 millions d’utilisateurs en mars 2019. En septembre 2018, sous l’impulsion de la couverture médiatique forte autour des produits ultra-transformés et avec le succès de Yuka, le nombre d'utilisateurs actifs de l'application OFF a doublé en un mois. Fin 2019, plus de 800 000 produits étaient référencés par les usagers dans OFF et l’association prévoit un doublement chaque année du nombre de produits avec l’internationalisation et le développement d’une équipe salariée, le projet reposant sur une base uniquement bénévole jusqu’alors. Avec la professionnalisation de l’association, OFF a insisté sur la continuité des principes qui ont guidé sa création : une association indépendante à but non lucratif refusant tout financement direct ou indirect de la part de l'industrie, des données ouvertes pour accroître l’impact et réduire les inégalités³⁰.

Ces exemples ont eu pour vocation de montrer qu’il existait des stratégies variées pour obtenir des données sans atteindre que l’administration les produise ou les mette à disposition de manière proactive. Les quatre grandes stratégies que j’ai proposées ici (le recours au droit d’accès, le scraping, le rapprochement de sources variées et le recours à une foule de contributeurs) constituent des idéaux-type de tactiques pour obtenir des données. Comme l’a bien montré le rapport « Changing What Counts » {Gray:2016vd}, ces données alternatives, produites par la société civile, ont bien souvent mené à faire évoluer les pratiques officielles des institutions publiques en matière de collecte de données. Les réponses à la publication de ces données ont pu donner lieu à de l’investissement (Open Food Facts a reçu plusieurs subventions importantes de la part de Santé Publique France), l’adoption des méthodes de collecte de données (comme dans le cas des Migrant Files), un soutien officiel (la ministre des transports Elisabeth Borne a appelé officiellement à participer à la deuxième édition du baromètre des villes cyclables) jusqu’à leur usage et leur reconnaissance par les autorités (OSM a signé un partenariat avec l’IGN, La Poste, l’État pour la création d’une base adresse nationale). Dans la plupart des cas, les données produites par les citoyens constituent ce que des chercheurs ont appelé des « just good enough data », des données suffisamment bonnes pour mobiliser et obtenir par la suite l’ouverture des données publiques {Gabrys:2016hd}. Si une administration considère que les données créées par les citoyens sont erronées ou incomplètes, elle pourra alors difficilement refuser encore l’ouverture de ses propres données.

Notes

Footnotes

. Les demandes relatives à des données personnelles ne sont pas possible sur le portail du fait que les données obtenues se retrouveraient sur la place publique. ↩
. Je profite de ce livre pour les citer et les remercier : Laurent Savaete, Pierre Chrzanowski, Pascal Romain, Anne-Laure Fréant, Thomas Parisot. La contribution de Claude Archer de transparencia.be a aussi été déterminante pour le lancement du site. ↩
. https://madada.fr/demande/subventions_aux_associations_oct#comment-4 ↩
. https://madada.fr/demande/donnees_trafic_du_reseau_de_la_d ↩
. http://www.observatoire-opendata.fr/resultats/ ↩
. Ce terme anglais vient du verbe _scrape _qui signifie toucher à la surface et en informatique désigne « copier des données d’un site web. » Il n’y a pas à ma connaissance de traduction satisfaisante et la plupart des acteurs emploient ce terme sans le traduire. ↩
. Pour en savoir plus, lire l’article « Comment Regards Citoyens a créé NosDéputés.fr, base de données de l’activité parlementaire » dans {Gray:2013ul}. Accessible en ligne à l’adresse suivante : http://jplusplus.github.io/guide-du-datajournalisme/pages/0417.html ↩
. Pour en savoir plus, lire l’article « Aspirer les données d’Ameli » dans {Gray:2013ul}. Accessible en ligne à l’adresse suivante :http://jplusplus.github.io/guide-du-datajournalisme/pages/0403.html ↩
. http://www.senat.fr/compte-rendu-commissions/20140113/mci_cada.html ↩
. À guichets fermés : Les personnes étrangères mises à distance des préfectures—La Cimade. (s. d.). Consulté 26 décembre 2019, à l’adresse https://www.lacimade.org/presse/a-guichets-fermes-les-personnes-etrangeres-mises-a-distance-des-prefectures/ ↩
. https://www.lacimade.org/dematerialisation-service-public-personnes-etrangeres-ministere-interieur-contre-transparence/?fbclid=IwAR3aFUdDgZvA-HeR8cPAUBQCoDUh7PnmPwcqITKcNYdX3iJtuXaj7fgp754 ↩
. https://www.liberation.fr/checknews/2019/06/26/referendum-adp-l-interieur-casse-le-compteur_1736096 ↩
. https://www.data.gouv.fr/fr/datasets/aides-a-la-presse-1/ ↩
. Documenter la mort aux frontières, par Jean-Marc Manach (Le Monde diplomatique, 31 mars 2014). (s. d.). Consulté 8 janvier 2020, à l’adresse https://www.monde-diplomatique.fr/carnet/2014-03-31-morts-aux-frontieres ↩
. Cartographie des affaires de corruption—Transparency International France. (s. d.). Consulté 27 décembre 2019, à l’adresse https://www.visualiserlacorruption.fr/analysis ↩
. [Interview] Que nous dit vraiment la cartographie de la corruption ? | Transparency International France. (s. d.). Consulté 27 décembre 2019, à l’adresse https://transparency-france.org/actu/interview-que-nous-dit-vraiment-la-cartographie-de-la-corruption/ ↩
. Déclarations d’intérêts des politiques : La HATVP vise un téléservice dès 2015—Next INpact. (s. d.). Consulté 28 juillet 2014, à l’adresse http://www.nextinpact.com/news/88901-declarations-d-interets-politiques-hatvp-vise-teleservice-des-2015.htm-) ↩
. Regards Citoyens. (2014). Numérisons les déclarations d’intérêts. Consulté 28 juillet 2014, à l’adresse Numérisons les déclarations d’intérêts—Regards Citoyens website: http://www.regardscitoyens.org/interets-des-elus/declaration.php?partie=12&nom=Jacques%20Myard) ↩
. Regards Citoyens. (2014). 8000 personnes libèrent en une semaine les données manuscrites des déclarations d’intérêts des parlementaires ! Consulté 4 août 2014, à l’adresse http://www.regardscitoyens.org/8000-personnes-liberent-en-une-semaine-les-donnees-manuscrites-des-declarations-dinterets-des-parlementaires/) ↩
. Baromètre des villes cyclables : Lancement d’une enquête nationale | Fédération française des usagers de la bicyclette. (s. d.). Consulté 16 janvier 2020, à l’adresse https://www.fub.fr/fub/actualites/barometre-villes-cyclables-lancement-enquete-nationale ↩
. https://www.fub.fr/sites/fub/files/fub/Communiques/cp_fub_cloture_barometre_03122019.pdf ↩
. https://en.wikipedia.org/wiki/OpenStreetMap#Popular_services ↩
. https://en.wikipedia.org/wiki/Pok%C3%A9mon_Go ↩
. https://www.ibtimes.com/pokemon-go-map-updated-osm-google-maps-what-openstreetmap-2622624 ↩
. « Pokémon Go » Hack : Altering OpenStreetMap data may create new spawn points in the game. (s. d.). Consulté 17 janvier 2020, à l’adresse https://www.mic.com/articles/166654/pokemon-go-hack-altering-openstreetmap-data-may-create-new-spawn-points-in-the-game#.RIHwa6oBo ↩
. Tips for new (Pokémon GO) mappers | OpenStreetMap Blog. (s. d.). Consulté 17 janvier 2020, à l’adresse https://blog.openstreetmap.org/2016/12/30/tips-pokemon-go/ ↩
. Les partenaires d’Open Food Facts. (s. d.). Consulté 17 janvier 2020, à l’adresse https://fr.openfoodfacts.org/partenaires ↩
. Participez à l’étude NutriNet-Santé pour faire avancer la recherche en nutrition ! (s. d.). Consulté 17 janvier 2020, à l’adresse https://fr.blog.openfoodfacts.org/news/participez-a-l-etude-nutrinet-sante-pour-faire-avancer-la-recherche-en-nutrition ↩
. Yuka (application). (2020). In Wikipédia. https://fr.wikipedia.org/w/index.php?title=Yuka_(application)&oldid=166406138 ↩
. Rapport d’activité 2018 : Un grand tournant pour Open Food Facts ! (s. d.). Consulté 17 janvier 2020, à l’adresse https://fr.blog.openfoodfacts.org/news/rapport-d-activite-2018-un-grand-tournant-pour-open-food-facts ↩

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

chapitre7.md

chapitre7.md

Chapitre 7 : quatre stratégies alternatives pour obtenir des données

Recourir au droit d'accès

Scrapper les données sur le web

Constituer des données à partir des informations disponibles

Faire appel à une foule de contributeurs

Notes

Files

chapitre7.md

Latest commit

History

chapitre7.md

File metadata and controls

Chapitre 7 : quatre stratégies alternatives pour obtenir des données

Recourir au droit d'accès

Scrapper les données sur le web

Constituer des données à partir des informations disponibles

Faire appel à une foule de contributeurs

Notes

Footnotes