Skip to content
Branch: master
Find file History

Latest commit

Latest commit 6e95b41 Aug 2, 2019

Files

Permalink
Type Name Latest commit message Commit time
..
Failed to load latest commit information.
2016 reorg Apr 8, 2017
apiv3 meilleure prise en compte du throttle Nov 15, 2018
quotidien SIRENE v2019 Oct 13, 2018
v2019 version 2019-08 Aug 2, 2019
0_init.sh
1_batch_dep.sh reorg Apr 8, 2017
1b_sirene_geo.py SIRENE v2019 Oct 13, 2018
2_split_rsync.sh
France2018.tsv SIRENE v2019 Oct 13, 2018
README.md reorg Apr 8, 2017
cedex.csv SIRENE v2019 Oct 13, 2018
geocode.py prise en compte correcte des communes fusionnées Nov 15, 2018

README.md

Scripts de géocodage de la base SIRENE

Prérequis

Pour fonctionner, ces scripts ont besoin de deux instances du géocodeur addok:

  • l'une avec la BAN
  • la seconde avec la BANO

Ceci représente au moins 36Go de RAM. A titre d'information, le traitement intégral prends environ 8 heures 4 heures sur une machine avec 24 coeurs et 96Go de RAM.

Principe

Le fichier ZIP est décompressé et remis en forme (CSV, UTF8, virgules en séparateur, quotes uniquement si nécessaire). Cette remise en forme lui fait perdre 2Go.

Il est ensuite dénormalisé et simplifié:

  • élimination des libellés
  • dénormalisation des données géographiques

2Go de plus sont ainsi économisés.

Il est ensuite découpé par départements (colonne DEPET), pour un traitement en parallèle (avec GNU parallel).

Un script python effectue de multiples géocodages pour sélectionner le résultat le plus proche de l'information d'origine. Il utilise par défaut la BAN et BANO en second choix si l'adresse n'est pas trouvée ou si le score minimal n'est pas atteint. C'est l'adresse "géographique" qui est utilisée en premier et à défaut l'adresse déclarée (ligne4) ou l'adresse normalisée.

Si l'adresse n'est pas trouvée, les coordonnées du chef lieu de la commune sont utilisées comme longitude/latitude. Pour les adresses indiquées "MAIRIE" ou "HOTEL DE VILLE", les coordonnées sont reprises de l'annuaire des services publics diffusé en opendata par la DILA. Plus utilisé par manque de qualité de la géolocalisation. Pour les adresses indiquées "CHEF LIEU", "BOURG", "LE BOURG" ou "AU BOURG", les coordonnées du chef-lieu de la commune sont utilisées.

Colonnes ajoutées par le géocodage

Les champs ajoutés sont:

  • longitude (en degrés décimaux, WGS84)
  • latitude (en dégrés décimaux, WGS84)
  • geo_score : indice de similarité fournit par le moteur de géocodage
  • geo_type : "housenumber" = n° trouvé, "interpolation" = n° interpolé, "street" = voie trouvée, "locality" = lieu-dit (ou position de la mairie) pour les adresses indiquées "MAIRIE" ou "HOTEL DE VILLE", "municipality" = position de la commune car l'adresse n'a pas été trouvée.
  • geo_adresse : libellé de l'adresse trouvée
  • geo_id : id dans le référentiel BAN, ou BANO (si commence par "BANO_")
  • geo_ligne : ligne d'adresse géocodée (G = géographique, N = normalisée, D = déclarée)

Les données contenues dans les colonnes ajoutées par le géocodage sont sous licence ODbL 1.0.

Contact: adresse at data point gouv point fr

You can’t perform that action at this time.