Permalink
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
57 lines (33 sloc) 5.83 KB

Introduction

Maintenant que vous savez ce que sont les données et que vous avez défini les questions auxquelles vous voulez répondre, nous sommes prêts pour la chasse aux données en ligne. Dans ce tutoriel, vous apprendrez par où commencer. Nous présenterons ensuite différents moyens de récupérer des données, avant de vous laisser vous lancer !

Les sources des données

Il existe principalement trois moyens de se procurer des données:

  • Trouver des données déjà disponibles, celles qui sont mises à disposition en ligne,
  • Réclamer des données auprès des sources officielles, par exemple en application des lois sur le droit d'accès et de réutilisation (loi CADA de 1978 en France). Parfois une donnée est publiée en ligne mais n'est pas directement téléchargeable - ne vous découragez pas pour autant. Cette donnée peut être récupérée par les méthodes dites de "scraping".
  • Collecter vous même les données et les intégrer dans une base de données ou des feuilles de calcul - vous pouvez mener ce genre de projet tout seul ou à plusieurs, de manière collaborative.

Dans ce tutoriel, nous nous concentrons sur les données qui sont déjà disponibles en ligne. D'autres modules de l'Ecole des Données abordent les autres moyens évoqués ici (réclamer des données, faire sa propre collecte).

Etape1: Identifier les sources de données

De nombreuses sources publient régulièrement des données que vous pourrez réutiliser. Quelques exemples:

L'Etat et les collectivités. Depuis quelques années, les acteurs publics ont commencé à ouvrir une partie de leur données. Ils ont parfois créé des portails dédiés pour mettre à disposition les données publiques ouvertes. Par exemple, le gouvernement français publie des données sur le portail data.gouv.fr. Des portails de ce type existent au Royaume-Uni, aux Etats-Unis... mais aussi au Kenya ou au Brésil. Votre pays possède peut-être son propre portail Open Data ? (le site Datacatalogs.org peut-être un bonne ressource pour le découvrir)

Les organisations internationales. Elles constituent souvent des sources de données intéressantes. La Banque mondiale ou l'Organisation mondiale de la santé (OMS) publient régulièrement des rapports d'études et des jeux de données.

Les sources scientifiques. Les institutions de recherche publient des données à destination de leurs communautés scientifiques et du grand public. La NASA, l'agence spatiale américaine, publie de nombreuses données ouvertes; il existe aussi, pour de nombreuses disciplines scientifiques, des répertoires spécialisés de données - parfois librement réutilisables. De plus en plus de projets (par exemple Dryad) ont pour objectif de faciliter l'accès aux données déjà publiées. L'annuaire des répertoires de données scientifiques Open Access Directory, le site datahub.io (Open Knowledge Foundation) ou, en France, le site Nosdonnees.fr (Regards Citoyens) ont, eux aussi, été conçus pour vous aider à trouver les données. Ils recensent les sources de données, ou parfois les jeux de données eux-mêmes. L'Ecole des Données liste aussi les sources de données pertinentes, vous pouvez y contribuer !

Tâche: Vous avez identifié des sources de données qui ne sont pas mentionnées ici ? Ajoutez-les à notre liste de sources.

Etape 2: Récupérer des données dans le format dont vous avez besoin

Dans le premier module "Qu'est-ce qu'une donnée ?" nous avons déjà dit quelques mots sur l'importance d'avoir des données que l'on puisse lire avec des ordinateurs (machine-readable data). Vous vous éviterez beaucoup de problèmes et de temps perdu en récupérant des données qui sont déjà dans le bon format. Voilà un petit truc pour spécifier le type de format de documents que vous recherchez dans le moteur Google:

Utiliser des données pour répondre à votre question

Maintenant que vous avez une première vue d'ensemble de la donnée, il est temps de commencer à en chercher par vous-même ! Dans les différents modules de cette série sur les Fondamentaux de la Donnée, nous allons repartir de la question initiale: est-ce que le montant des dépenses de santé a un lien avec l'espérance de vie dans un pays ? Pour récupérer les données nécessaires, vous pouvez consulter notre recette "Utiliser les données de la Banque Mondiale".

Tâche: Vous avez trouvé d'autres jeux de données pour répondre à cette question ? Bravo ! Prenez un moment pour le référencer sur le site DataHub. Vous pouvez aussi consulter les découvertes des autres participants à l'Ecole des Données.

Tâche complémentaire: Naviguez sur le web, et repérez les données ouvertes. Si vous trouvez quelque chose de vraiment intéressant et pensez que cela pourrait répondre à une chouette question, tweetez-le à @EcoledesDonnees - ou publiez un court billet sur le blog de l'Ecole des Données.

Résumé Dans ce tutoriel, nous avons vu comment trouver des données pour répondre à notre question. Nous avons exploré les différents moyens pour récupérer des données, et avons listé un ensemble de ressources pointant vers des portails de données et des moteurs de recherche.

Au début de la section "Les Fondamentaux de la donnée", nous nous sommes posés une question: 'Est-ce que le montant des dépenses de santé influe sur l'espérance de vie ?'. En suivant notre recette, nous avons identifié un jeu de données de la Banque mondiale pour nous aider à répondre à la question.

Lectures complémentaires Recette: "Comment récupérer des données sur le portail de la Banque Mondiale" Vidéo (http://vimeo.com/45913395) "Comment partager des données sur le site datahub.io" Le guide du datajournalisme, dans sa section "5 minute field guide", recense un ensemble de trucs et astuces très utiles pour trouver des données

Quizz Participez au quizz pour vérifier que vous savez maintenant trouver des données.