Skip to content

# Journal du projet SmartPLU

SmartPLU-Transformer les règles d'urbanisme en formes edited this page May 23, 2019 · 45 revisions

Début 2017 : #HackUrba

En janvier et février 2017, le commissariat général au développement durable - CGDD et sa direction de la recherche et de l'innovation (DRI) (ministère en charge de l'environnement) et la Direction de l'habitat, de l'urbanisme et du paysage - DHUP ont organisé un hackathon, #HackUrba. L'objectif était de développer un nuage de services numériques en aval du Géoportail de l'urbanisme, une des briques de l'Etat plateforme.

Un des résultats a été de montrer que le point le plus bloquant était l'absence de modélisation des règles d'urbanisme. Celles-ci sont décrites par des textes dans les règlements des plans locaux d'urbanisme (PLU), publiés en PDF.

Mars-Juillet : et si, l'intelligence artificielle...?

Très vite, à partir d'une étincelle fournie par un des participants à #HackUrba (Jean-Michel Batto, d'Eiffage), la DRI et la DHUP ont construit le projet d'utiliser des techniques d'intelligence artificielle pour extraire les règles des PDF. En juillet, après l'échec de plusieurs projets de financement par des instances supérieures, sans doute en raison du risque inhérent à l'emploi de techniques mal maîtrisées au sein de l'Etat, la DRi et la DHUP ont décidé de financer eux-mêmes l'action.

Le 20 juin, nous organisions une réunion pour présenter l'état de l'art à nos décideurs. Nous avions choisi de faire intervenir deux chercheurs, Michalis Vazirgiannis, co-responsable du cycle Big Data de l'Ecole polytechnique, et Alexandre Gramfort, INRIA, et des représentants de deux sociétés, Jean-Michel Batto, déjà cité, et NUMEN Digital, par la voie d'articles.

Selon nous, cette prise de risque est justifiée par les gains gigantesques qu'un succès même partiel apporterait à à la meilleure connaissance par les élus de leur projet de ville par la visualisation des conséquences du projet de PLU en cours, mais aussi la simplification des procédures ou, au hasard, la cohérence des procédures sur un même territoire et tant d'autres choses.

Octobre : choix des premiers PLU de test

Les trois PLU de test seront ceux des villes de Lorient, d'Avion et d'Auzeville-Tolosane. Ils ont été choisi en raison de la taille et de la typologie de la commune. Deux des postulats du projet qui nous donnent confiance dans sa capacité à traiter au moins une partie du problème sont:

  • il n'y a somme toute qu'un nombre limité de bureaux d'étude produisant des PLU en France. Il est estimé qu'une grande partie des PLU a ainsi une sémantique et une syntaxe commune. Cela facilite d'autant leur traitement.
  • les règlements utilisent un méta-langage, c'est-à-dire un jargon. C'est donc un sous-ensemble assez réduit par rapport à la langue française, avec un volume réduit de termes dotés d'une signification précise.

fin 2017 : bouclage du projet

Le projet s'appelle désormais Smart PLU. Il vise à extraire des zones U des règlements des PLU, disponibles en PDF sur le géoportail de l'urbanisme, les règles portant sur les formes des bâtiments afin de les modéliser en trois dimensions à la parcelle. Deux ou trois servitudes seront également traitées. Le premier objectif-cible du projet est d'aider à la visualisation des règles d'urbanisme par les élus en cours d'élaboration de leur PLU.

Une présentation globale de Smart PLU est ici

Ce schéma montre le contexte dans lequel s'inscrit le projet. Même si la visualisation est indispensable, à la fois sur le plan pédagogique et sur celui de la curation, nous ne pensons pas que la partie "règles spatiales" soit majeure pour nous : il y a déjà sur cette partie de nombreuses activités, et nous ne voulons pas les concurrencer.

L'automne a été l'occasion de boucler le premier tour de table des partenaires:

  • NUMEN Digital va nous apporter son savoir-faire en machine learning, avec l'appui de Toolz, société lauréate de #HackUrba pour son savoir-faire en visualisation 3D.
  • L'INRIA, avec Alexandre Chamfort, nous apportera un appui scientifique sur le Machine Learning,
  • Le CEREMA/DecTv, avec Richard Mitanchey, nous apportera un appui en création d'ontologies à partir des PLU ciblés.

La durée du projet est de six mois. Son budget est de 180 000€, hors frais de personnel du ministère. Ses résultats seront évalués avant de lancer son extension aux autres zones du PLU, aux servitudes d'utilité publique et son industrialisation. Dit autrement, nous avons l'ambition de produire une première base d'apprentissage permettant de lancer le processus de machine learning.

Début 2018 : on y va!

Les ontologies ou concepts métiers (voir ce répertoire)

Au 12/01 : Pour les néophytes (comme le rédacteur de ces lignes), ce document .odt et celui-ci visent à donner quelques principes (connaissance de modélisation UML souhaitable, quand même).

A partir d'Urbamet, thésaurus métier des années 90, et du standard PLU du Conseil national de l'information géographique, le CEREMA a créé les fichiers code.rtf et plu.rdf. Notre analyse sémantique et syntaxique du PLU de Lorient a produit un lexique(fichier .ods) sous forme de tableur, format manipulable par chacun. Pour ceux qui le souhaitent, il est également disponible au format .owl SmartPLU.owl. Ce format spécialisé, comme le .rdf, est lisible avec le logiciel gratuit "Protégé" de l'université de Stanford. Il restitue mieux et graphiquement les relations entre les termes métiers.

Les deux autres PLU retenus pour la preuve de concept, Avion et Auzeville sont en cours d'analyse.

Début février, un groupe d'experts, praticiens des PLU, nous aidera à affiner ces concepts métiers pour produire le premier élément d'une base d'apprentissage.

Pour les aider à s'approprier le projet, nous avons produit une présentation expliquant pas-à-pas (fichier .odp) la méthode suivie à son lancement.

Au 20/02 : une nouvelle approche

Notre Partenaire NUMEN Digital nous a proposé une nouvelle approche à partir des 2200 PLU du Géoportail de l'urbanisme. Cette approche a été validée vendredi dernier.

Nous pensons désormais pouvoir livrer en fin de projet à peu près le tiers des PLU français avec des étiquettes codant les prescriptions d'urbanisme. Elles seront sans doute moins détaillées que ce que nous pensions jusqu'à présent mais, en revanche, nous espérons qu'elles seront directement visualisables à la parcelle par un connecteur avec le projet SimPLU de l'IGN (thèse de Mickaël Brasebin).

L'apport des experts urbanistes et en droit des sols des DDT de Haute-Savoie et des Côtes-d'Armor sera crucial pour la bonne qualification des livrables. Nous sommes ouverts à la participation d'autres praticiens, notamment du côté des collectivités territoriales.

Pour en savoir plus, nous avons mis en ligne une vidéo explicative : https://youtu.be/QDGJYcV8ng4 ATTENTION : cette vidéo montre le tout premier niveau d'extraction, avant nettoyage et traitements avancés. Elle n'est pas représentative du résultat final du projet, que nous espérons bien meilleur. L'idée est de pouvoir montrer de façon visuelle les différentes étapes des traitements dans le cadre de notre projet.

#Au 8/03 Réunion à l'IAU-IdF avec NUMEN Digital et l'IGN pour présenter SmartPLU. Très belle réaction de l'IAU-IdF qui accepte partager ses données ayant été traitées dans SimPLU avec nous. L'enjeu pour nous est de mieux qualifier ainsi nos traitements à partir de règlements traités par des humains compétents pour sécuriser l'exploitation en aval par SimPLU (vous suivez ;-)?)

Avril 2018 : on y voit plus clair

** Ontologies ** Mise en ligne d'une nouvelle ontologie dite "SNCR". Elle a été produite à partir d'éléments d'un projet réunissant le ministère de la cohésion sociale, trois établissements publics fonciers (Île-de-France, Hauts-de-France et Poitou-Charentes) et la société Buildrz (voir ce Git). Elle enrichit considérablement la version précédente. Nous espérons pouvoir séparer ce qui doit - ou peut - être dans un règlement, ce qui n'y figure pas mais mériterait d'être traité (les servitudes...), ce qui y figure sans en relever. La lecture et l'évaluation d'un PLU devient un sous-produit possible.

** Calendrier ** Nous pensons disposer d'une version nettoyée des mots des règlements fin avril. La partie Machine learning pourrait être disponible fin juin. NUMEN Digital s'est attaché les services de Christopher Kermorvant, de la société Teklia, pour cette partie.

** Livrables ** Nous espérons aujourd'hui trois livrables : une base structurée des mots des règlements des PLU, interrogeable et filtrable; un xml étiquetté de façon a être consommé par le projet SimPLU de l'IGN (extraction des variables (hauteur, distances) comprise); peut-être un certificat de constructibilité à la parcelle. NB : SimPLU est un outil de l'IGN qui permet de calculer le volume optimal constructible pour un bâtiment sur une parcelle sosu forme de "boîte à chaussure" en trois dimensions.

fin mai 2018

Nous avons désormais terminé une première phase avec l'étiquettage du XML d'un premier volet de 1896 fichiers XML correspondant à la reprise en XML après OCRisation des règlements PLUs récupérés sur le Géoportail de l'urbanisme.

C’est sur cette base de l'équipe de recherche mobilisé par NUMEN Digital a, d’une part, effectuer les analyses de word embedings (selon deux programmes, Word2Vec & FastText) dont les résultats sont ici. Vous verrez que l'étude a été conduite selon deux étendues spatiales (fichiers .zip) : les zones U (ZONES_URBAINES), cible initiale de la PoC, et l'ensemble des zones (ALL_ZONES). Ce corpus est, d'autre part, la source pour travailler sur les modèles de machine learning (travail en cours, durée évaluée à deux mois).

A noter un sous-produit inattendu, proposé par l'équipe de recherche, à savoir deux thésaurus des 500 premiers termes, là aussi selon les zones urbaines et l'ensemble des zones.

Ajout du 13 juin 2018

J'ai ajouté une Vidéo de 5'42" qui explique comment charger les fichiers résultants des analyses de word embedings puis le type d'exploration que l'on peut mener. Il s'agit d'interrogations ponctuelles, les traitements lourds étant à mener avec d'autres outils (en cours chez NUMEN Digital).

Rapport technique et analyse de proximité lexicale des PLU par région

Ajout d'une vidéo de 4'46" qui montre le résultat de l'analyse de proximité lexicale des PLU étudiés dans SmartPLU. Il s'agissait de vérifier l'hypothèse que les articles des PLU étaient rédigés de façon proche. La vidéo montre que cette hypothèse est vérifiée, ce qui est un élément positif pour Smart PLU.

Par ailleurs, je publie le rapport technique réalisé par NUMEN sur les premières phases de SmartPLU. Ce rapport montre d'abord la répartition par région puis par département des quelques 2493 PLU collectés sur GeoPortail (en juin). Vous verrez qu'Auvergne-Rhône-Alpes était la plus active, et que, pour les départements, c'est la Sarthe qui mène le bal. Je vous laisse découvrir la suite. Le rapport décrit brièvement les méthodes utilisées de façon plutôt claire pour un néophyte puis aborde l'analyse des chapitres, par exemple selon la fréquence des articles par zones. A noter que, si les logiciels de reconnaissance de caractère sont propriété de NUMEN, ceux de machine learning sont ouverts.

Les nouveautés de septembre 2018

SmartPLU S01E04 sur un premier prototype d'accessibilité à tous les PLU traités et tous leurs articles du point de vue d'un instructeur de permis de construire https://youtu.be/EkFtOosjyBc. Vidéo de SmartPLU, S01 E05 sur un prototype de fiche de constructibilité à la parcelle https://youtu.be/EkFtOosjyBc

Octobre 2018 : premier bilan

Les premiers livrables sont réunis ici.

Apport de la méthode de machine learning

Le second rapport décrit la méthode employée et estime la qualité du résultat par rapport à une méthode manuelle. Cette apport est parfois marginal mais peut atteindre aussi près de 20 % (passage de 71 % à 90%). Dans aucun des cas, il n'est inférieur.

Ainsi, il a été montré que, malgré le faible nombre de données en entrée, des modèles par apprentissage automatique pouvaient être entrainés et permettre d’obtenir des résultats supérieurs à des modèles manuels à base de règles.

Ce premier résultat de la preuve de concept est donc concluant. En confirmant l’intuition initiale, il ouvre la voie à l’extension à d’autres sujets (ne serait-ce que pour notre ministère : SUP, études d’impacts environnementales...). Le rapport propose des perspectives d’amélioration et de développement.

Il est envisagé de proposer un article à la conférence ICDAR 2019.

Février 2019 : fin de la saison 01 et lancement de la saison 02

La vidéo de fin de saison 01 est en ligne : https://youtu.be/sohYmbd0TiI

Elle met l'accent de façon synthétique (3'03"!) sur deux des trois résultats susceptibles d'intéresser au-delà des murs de notre ministère : la création d'une fiche de constructibilité, d'une part, et la production d'estimation des plus grands volumes constructibles à fin d'études statistiques foncières. Le troisième résultat est la création d'une base nationale de données des PLU, interrogeable, à fin d'études d'impact et de connaissance des PLU. Cette base sera ouverte aux services déconcentrés de l'Etat.

Ces trois sujets ont reçu l'intérêt des services et professionnels consultés, préalable à leur industrialisation.

Le prochain billet traitera de la portabilité du projet, sujet sensible, et de la validation de ces productions, chantier en cours.

Portabilité de SmartPLU et pérennité des services avals

La question de la portabilité du processus d'extraction des données des PLU devient notable lorsqu'on évoque la possibilité de créer des services en aval pérennes. En effet, le lien avec un prestataire privé est remis en question périodiquement à l'occasion de la fin du marché public. La question revient donc à la capacité du ministère à assurer la continuité du service dans le temps au-delà de l'actuel prestataire et de ses éventuels successeurs afin d'inspirer confiance aux réutilisateurs des productions issues de SmartPLU.

La portabilité se décompose en plusieurs parties, données et logiciels : passage du pdf en texte et nettoyage du texte pour amalgamer les différentes graphies/versions d'une même locution (en jargon : stemming & lemmatisation) ; annotations des textes en fonction des objectifs d'extraction poursuivis.

Phase I : passage du pdf en texte. La technologie et les logiciels appartiennent à Numen. Les résultats appartiennent au ministère. En fin de l'actuel marché et des suivants, sauf si elle était confiée à un établissement public, cette tâche sera confiée par appel d'offres.

Phase II : annotations par des humains pour créer la base d'apprentissage. La base résultante appartient au ministère. Elle intègre continûment les apports liés à la résolution de cas nouveaux et des cas litigieux. Accessible sous licence ouverte, elle sera à la disposition des futurs prestataires qui pourront ainsi l'intégrer dans leur propre méthode.

Les logiciels de traitement par machine learning sont en open source. Leur mise en oeuvre requiert des compétences spécifiques en machine learning, a priori absentes du ministère mais disponibles via un marché public.

L'industrialisation s'opère par adjonction de probablement quelques milliers de lignes logicielles qui adaptent le logiciel source aux logiciels utilisés par le prestataire. Il y a en effet dépendance entre cette partie logicielle et différents modules de production en amont et en aval. Ce développement n'est donc pas portable et doit être recommencé à chaque changement de prestataire. Là encore, c'est une pratique assez courante dans le cadre de succession de marchés publics.

En conclusion, le processus apparaît portable, au moins de prestataire en prestataire par voie de marché public.

Clone this wiki locally
You can’t perform that action at this time.