Cette démonstration présente la librairie Python Perdido pour le geoparsing et le geocoding de textes en français. Nous montrons en particulier comment utiliser Perdido
pour la reconnaissance des entités nommées (Named Entity Recognition) et la résolution de toponymes (Geocoding).
Nous expérimenterons le geoparsing et le geocoding au travers deux études de cas : le traitement d'articles encyclopédiques (corpus issu du projet GEODE) et le traitement de descriptions de randonnées (corpus issu du projet ANR CHOUCAS).
Auteurs : Ludovic Moncla (Univ Lyon, INSA Lyon, CNRS, UCBL, LIRIS, UMR 5205, F-69621) Mauro Gaio (Université de Pau et des Pays de l'Adour, CNRS, LMAP, UMR 5142)
- Reconnaissance et classification des entités nommées en français
- Créer et afficher une carte à partir d'un texte
- Résolution de toponymes (problématique de désambiguïsation)
Vous pouvez exécuter le notebook à distance en utilisant ou . Sinon, pour exécuter ce tutoriel depuis un environnement local sur votre ordinateur, vous pouvez suivre les instructions ci-dessous.
git clone https://github.com/ludovicmoncla/demo-perdido-egc-2023.git
- Créer un nouvel environnement nommé
demo-perdido-egc-py39
conda create -n demo-perdido-egc-py39 python=3.9
- Activer l'environnement
conda activate demo-perdido-egc-py39
- Installer le paquet
fiona
avec conda (évite une erreur lors de l'installation de cette dépendence avecpip
)
conda install fiona==1.8.21
- Installer les dépendances avec
pip
pip install -r requirements.txt
jupyter notebook