Skip to content

ghisvail/inria-aphp-assignment

Repository files navigation

Exercice d'évaluation pour le poste Inria / AP-HP

Prérequis

Une installation fonctionnelle du gestionnaire d'environnement conda.

Je recommande la distribution miniconda.

Démarrage

Provisionnez l'environnment avec conda.

conda env create

Activez l'environnement dans votre shell.

conda activate inria-aphp-assignment

⚠️ Pour fonctionner, conda activate peut nécessiter une étape d'initialisation avec conda init.


Lancez Jupyter et accedez à l'interface web.

jupyter notebook

Ouvrir l'un des fichiers .ipynb ci-dessous.

Contenu

Ce répertoire contient les fichiers notebook suivants :

  • qa.ipynb : le notebook contenant l'analyse de qualité du dataset
  • eda.ipynb : le notebook contenant l'analyse exploratoire du dataset

Ces fichiers utilisent les ressources suivantes :

  • data.db : la base de données contenant le jeu de données brutes
  • entity_resolution.py : un module utilitaire contenant le code de nettoyage et déduplication du dataset
  • getting_started.py : un module utilitaire contenant le code partagé de chargement du dataset
  • state_postcode.csv : le référentiel des états et codes postaux australiens
  • aus_state.geojson : une carte de l'Australie au format GeoJSON distribuée sous licence MIT
  • australian_postcodes.csv : un référentiel des codes postaux avec leurs coordonnées géodésiques

Traitement des données

Le graphique ci-dessous illuste les traitements séquentiels effectués sur les données par la fonction detect_duplicates utilisée dans l'analyse exploratoire.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published