# Analyser les donn√©es ouvertes du patrimoine

D‚Äôimportantes bases de connaissance sont disponibles sous licence libre, transformant la recherche.
Avec la possibilit√© de mobiliser les m√©thodes computationnelles sur un volume consid√©rable de donn√©es in√©dites.
√Ä condition bien s√ªr de savoir acc√©der aux donn√©es, les traiter et les analyser.

Ce petit d√©monstrateur est une initiation aux m√©thodes de collecte, de traitement et d‚Äôanalyse des donn√©es patrimoniales.

Nous d√©couvrirons :

- les m√©thodes d‚Äôacc√®s aux donn√©es via des APIs, avec la librairie Python `requests`¬†;
- l‚Äô√©cosyst√®me des donn√©es ouvertes partag√©es par la BnF, Gallica en particulier, et DBPedia¬†;
- une m√©thode pour la reconnaissance et le liage des entit√©s nomm√©es (*Entity linking*) pour enrichir les donn√©es collect√©es ;
- comment construire une cha√Æne de traitement compl√®te de *geoparsing* dans des textes (issus de Gallica) ;
- une m√©thode de visualisation (cartographique) des r√©sultats ;
- comment une carte de chaleur avec la biblioth√®que `folium`.

Ce faisant, vous comprendrez mieux le fonctionnement du Web (HTTP), d√©couvrirez les formats de donn√©es structur√©s (CSV, JSON, XML) et aurez une exp√©rience pratique du langage de programmation Python.

Ce tutoriel reprend largement le cours de **Bertrand Dumenieu** (EHESS) d√©di√© √† l'exp√©rimentation du traitement automatique du langage naturel (TALN) gr√¢ce √† un mod√®le d'apprentissage profond. Un grand merci √† lui pour le partage de ces √©l√©ments.

## Automatiser la collecte de donn√©es

### Gallica

Librement accessible depuis 1997, [Gallica](https://gallica.bnf.fr/) est la biblioth√®que num√©rique de la Biblioth√®que nationale de France et de ses partenaires.

- acc√®s libre et gratuit √† 10 millions de documents num√©ris√©s
- de toutes √©poques et de tous supports (manuscrits, journaux, etc.)
- une application de recherche et de consultation : [https://gallica.bnf.fr/accueil/fr/html/accueil-fr](https://gallica.bnf.fr/accueil/fr/html/accueil-fr)
- des APIs : [https://api.bnf.fr/fr/recherche?q=recherche&f%5B0%5D=categories%3A4&f%5B1%5D=sources%3A197](https://api.bnf.fr/fr/recherche?q=recherche&f%5B0%5D=categories%3A4&f%5B1%5D=sources%3A197)

Une API (*Application Programming Interface*) est un moyen pour des programmes informatiques de communiquer entre eux.
Contrairement √† une interface utilisateur, qui relie un ordinateur √† une personne, une API relie des ordinateurs ou des logiciels entre eux. Elle n'est pas destin√©e √† √™tre utilis√©e directement par une personne (l'utilisateur final) autre qu'un programmeur informatique qui l'incorpore dans le logiciel.

- Une API permet √† un ordinateur de demander des informations √† un autre ordinateur via l'internet.
- Les points d'acc√®s aux donn√©es et le format de la r√©ponse sont normalis√©s conform√©ment √† une sp√©cification.


### Gallica Search API (XML)


La BnF a fait un travail impressionnant de mise √† disposition de ces ressources ouvertes, via diff√©rentes API qui permettent d'interagir avec diff√©rents services : m√©tadonn√©es, donn√©es textuelles, mais aussi recueil de donn√©es iconographiques.

Ces [API de Gallica sont document√©es](https://api.bnf.fr/recherche?f[0]=sources:197) de mani√®re exemplaire, avec une attention particuli√®re port√©e aux besoins des chercheurs.

**L‚ÄôAPI de recherche (SRU) permet d'effectuer des recherches dans la collection num√©rique de Gallica:**


- **Documentation** : [https://api.bnf.fr/fr/api-gallica-de-recherche](https://api.bnf.fr/fr/api-gallica-de-recherche)
- **Service de recherche Gallica SRU** : https://api.bnf.fr/fr/api-gallica-de-recherche#scroll-nav__3

SRU (Search/Retrieval via URL) est un **protocole standard d'√©change de m√©tadonn√©es** adapt√© aux besoins des catalogues de biblioth√®ques. En d'autres termes, les biblioth√®ques ont collabor√© pour d√©finir un moyen normalis√© d'exposer leur catalogue en tant que service web.

La norme SRU sp√©cifie **comment interroger** le serveur qui expose les donn√©es du catalogue et **comment formater la r√©ponse**.

Lire : https://bibliotheques.wordpress.com/2017/10/27/papa-cest-quoi-un-sru/

**En utilisant l'API de recherche, commen√ßons par essayer de collecter automatiquement les donn√©es relatives aux romans de Jules Verne.** 



### CQL Query

La base : `https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query={CQL_QUERY}`


[CQL, Contextual Query Language](https://www.loc.gov/standards/sru/cql/), est un langage formel pour adresser des requ√™tes aux syst√®mes de recherche d'informations tels que les index Web, les catalogues bibliographiques et les informations sur les collections de mus√©es. L'objectif de la conception est que les requ√™tes soient lisibles et facile √† r√©diger par l'homme, et que le langage soit intuitif tout en conservant l'expressivit√© de langages plus complexes.


Quelques exemples pour vous aider √† comprendre.


**Les documents mentionnant "Jules Verne" dans Gallica** (>18752 records‚Ä¶):

- `query=gallica all "Jules Verne"`
- [https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&**query=gallica all "Jules Verne"**](https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=gallica%20all%20%22Jules%20Verne%22)

**Les documents dont "Jules Verne" est l‚Äôauteur dans Gallica** (>400 records):  

- `query=dc.creator all "jules verne"`
- [https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&**query=dc.creator all "Jules Verne"**](https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=dc.creator%20all%20%22Jules%20Verne%22)

**Les livres (monographs) en fran√ßais dont "Jules Verne" est l‚Äôauteur dans Gallica** (>290 records):

- `query=dc.creator all "jules verne"&filter=dc.type all "monographie" and dc.language all "fre"`
- [https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&**query=dc.creator all "jules verne"&filter=dc.type all "monographie" and dc.language all "fre"**](https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=dc.creator%20all%20%22jules%20verne%22&filter=dc.type%20all%20%22monographie%22%20and%20dc.language%20all%20%22fre%22)


On peut **trier les r√©sultats** selon diff√©rents crit√®res.

Les r√©sultats peuvent √™tre tri√©s selon la qualit√© de l‚ÄôOCR de la couche texte¬†: `ocr.quality/sort.descending`:

[https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=dc.creator all "jules verne" sortby ocr.quality/sort.descending&filter=dc.type all "monographie" and dc.language all "fre"](https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=dc.creator%20all%20%22jules%20verne%22%20sortby%20ocr.quality/sort.descending&filter=dc.type%20all%20%22monographie%22%20and%20dc.language%20all%20%22fre%22)

Il existe de nombreux autres param√®tres :
 
- `startRecord` : l'indice du syst√®me de pagination, entre 1 et le nombre maximum de r√©sultats retourn√©s par la requ√™te
- `maximumRecords` : le nombre de r√©sultats retourn√©s par le service (de 0 √† un maximum de 50). Par d√©faut, si ce param√®tre n'est pas pr√©sent, la valeur est de 15.


**Dans Gallica, 3 (`&maximumRecords=3`) monographies (`dc.type all "monographie"`) en fran√ßais (`dc.language all "fre"`) de 1966 (`dc.date="1966"`) mentionnant le "Festival Mondial des Arts N√®gres"** :

- `query=gallica all "Festival Mondial des Arts N√®gres" sortby ocr.quality/sort.descending&filter=dc.type all "monographie" and dc.language all "fre" and dc.date="1966"&maximumRecords=3`
- [https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=gallica all "Festival Mondial des Arts N√®gres" sortby ocr.quality/sort.descending&filter=dc.type all "monographie" and dc.language all "fre" and dc.date="1966"&maximumRecords=3](https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=gallica%20all%20%22Festival%20Mondial%20des%20Arts%20N%C3%A8gres%22%20sortby%20ocr.quality/sort.descending&filter=dc.type%20all%20%22monographie%22%20and%20dc.language%20all%20%22fre%22%20and%20dc.date=%221966%22&maximumRecords=3)

Dans Gallica, les revues (`dc.type all "fascicule"`) en fran√ßais post√©rieures √† 1976 (`dc.date >= "1976"`) mentionnant le "FESTAC" :


- `&query=gallica all "FESTAC" sortby ocr.quality/sort.descending&filter=dc.type all "fascicule" and dc.language all "fre" and dc.date >= "1976"`
- [https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=gallica all "FESTAC" sortby ocr.quality/sort.descending&filter=dc.type all "fascicule" and dc.language all "fre" and dc.date >= "1976"](https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=gallica%20all%20%22FESTAC%22%20sortby%20ocr.quality/sort.descending&filter=dc.type%20all%20%22fascicule%22%20and%20dc.language%20all%20%22fre%22%20and%20dc.date%20%3E=%20%221976%22)

Dans le cas des revues, on obtient l‚ÄôARK de la revue et non directement celui de la publication contenant l‚Äôexpression recherch√©e‚Ä¶

In [None]:
TROUVER AUTRE EX
url = 'https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=gallica%20all%20%22FESTAC%22%20sortby%20ocr.quality/sort.descending&filter=dc.type%20all%20%22fascicule%22%20and%20dc.language%20all%20%22fre%22%20and%20dc.date%20%3E=%20%221976%22'
response = requests.get(url)
print(response.text)


### Requ√™tes et r√©ponses HTTP (requests)

Pour acc√©der par programme aux donn√©es textuelles attach√©es √† chaque URL, nous pouvons utiliser une biblioth√®que Python appel√©e [requests](https://requests.readthedocs.io/en/master/).

Une ULR ([Uniform Resource Locator](https://en.wikipedia.org/wiki/URL))est une r√©f√©rence √† une ressource web qui sp√©cifie son emplacement sur un r√©seau informatique et un m√©canisme pour la r√©cup√©rer.

Chaque URL HTTP est conforme √† la syntaxe d'un URI g√©n√©rique. La syntaxe g√©n√©rique de l'URI se compose de 6 √©l√©ments organis√©s hi√©rarchiquement¬†:

`http://www.domain.com:80/path/to/myfile.html?key1=value1&key2=value2#anchor_in_doc`

URLS parts:

- **protocol**: `http://` or `https://`.
- **domain name**: `www.domain.com` ‚Äì au lieu d'un nom de domaine, vous pouvez utiliser une adresse IP.
- **port**: `:80` - indique la "porte" technique √† utiliser pour acc√©der aux ressources du serveur. Ce fragment est g√©n√©ralement absent, car le navigateur utilise les ports standards associ√©s aux protocoles (80 pour HTTP, 443 pour HTTPS).
- **path**: `/path/to/myfile.html` ‚Äìchemin, sur le serveur web, vers la ressource. Dans les premiers temps du Web, ce chemin correspondait souvent √† un chemin ¬´ physique ¬ª existant sur le serveur. Aujourd'hui, ce chemin n'est qu'une abstraction g√©r√©e par le serveur web, et ne correspond plus √† une r√©alit√© "physique".
- **parameters**: `?key1=value1&key2=value2` ‚Äì construit comme une liste de paires cl√©/valeur s√©par√©es par une esperluette.
- **anchor**: `#anchor_in_doc` ‚Äì pointe vers un endroit donn√© de la ressource.

Lorsque vous tapez une URL dans la barre d'adresse de votre navigateur, vous envoyez une **demande** HTTP pour une page web, et le serveur qui stocke cette page web renverra une **r√©ponse**.

<img src="./img/http.png" width="600px">


Une requ√™te HTTP dont les param√®tres sont pass√©s via l'URL est dite de type GET.

Avec le librairie requests, on peut tr√®s facilement ex√©cuter ce genre de requ√™tes et r√©cup√©rer une r√©ponse gr√¢ce √† la fonction `requests.get(...)` :

In [None]:
import requests
url = "https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=dc.creator%20all%20%22jules%20verne%22%20sortby%20ocr.quality/sort.descending&filter=dc.type%20all%20%22monographie%22%20and%20dc.language%20all%20%22fre%22&maximumRecords=5"
response = requests.get(url)
response.raise_for_status() # Appeler raise_for_status() apr√®s une requ√™te GET est une bonne pratique : cela permet de lever automatiquement une exception si la requ√™te a √©chou√©.
print(type(response), response)

`requests.get()` renvoie donc un objet Python de type `requests.models.Response`, qui quand on l'affiche donne le code HTTP retour, ici 200, qui signifie que [tout s'est bien pass√© ](https://developer.mozilla.org/fr/docs/Web/HTTP/Reference/Status/200).

On peut alors r√©cup√©rer le contenu de la r√©ponse de plusieurs mani√®res :

In [None]:
response.headers['Content-Type']

Pour acc√©der √† l‚Äôinformation et l‚Äôextraire nous avons besoin de ***parser* la donn√©e format√©e en XML**!

**[The ElementTree XML API](https://docs.python.org/3/library/xml.etree.elementtree.html)**. Le module `xml.etree.ElementTree` (`ET` en abr√©g√©) impl√©mente une API simple et efficace pour l'analyse et la cr√©ation de donn√©es XML.

XML est un format de donn√©es hi√©rarchique, et la mani√®re la plus intuitive de le repr√©senter est un arbre. **ET dispose de deux classes** √† cet effet :

- `ElementTree` repr√©sente l'ensemble du document XML sous forme d'arbre
- `Element` repr√©sente un n≈ìud unique dans cet arbre.

Les interactions avec l'ensemble du document (lecture et √©criture dans les fichiers) se font g√©n√©ralement au niveau de l'`ElementTree`. Les interactions avec un seul √©l√©ment XML et ses sous-√©l√©ments se font au niveau de l'`Element`.

**[fromstring() analyse le XML √† partir d'une cha√Æne directement dans un `Element`](https://docs.python.org/3/library/xml.etree.elementtree.html#xml.etree.ElementTree.fromstring)** - stock√© ci-dessous dans la variable `root` qui est l'√©l√©ment racine de l'arbre analys√©.

Ensuite, `Element` a quelques m√©thodes utiles qui aident √† it√©rer r√©cursivement sur tous les sous-arbres en dessous de lui (ses enfants, leurs enfants, et ainsi de suite). Par exemple, `Element.iter()`.

**[La m√©thode iter()](https://docs.python.org/3/library/xml.etree.elementtree.html#xml.etree.ElementTree.Element.iter)** cr√©e un it√©rateur d'arbre avec l'√©l√©ment courant comme racine. L'it√©rateur parcourt cet √©l√©ment et tous les √©l√©ments situ√©s en dessous, dans l'ordre du document (profondeur en premier).


In [None]:
import xml.etree.ElementTree as ET
root = ET.fromstring(response.content)
for child in root.iter('*'):
    print(child.tag)

### Extraction des m√©tadonn√©es (Search API)

Nous voyons que tous les √©l√©ments de la r√©ponse sont accessibles, selon leur espace de noms : `{http://purl.org/dc/elements/1.1/}creator` 
L'√©l√©ment `creator` est d√©clar√© pour l'espace de nom Dublin Core (`http://purl.org/dc/elements/1.1/`).

En utilisant une boucle `for`, chaque `record` est lu, et la m√©thode `Element.findall()` est utilis√©e pour extraire les m√©tadonn√©es du Dublin Core :

- `identifier`
- `date`
- `title`
- `creator`

NB. La m√©thode [`Element.findall()`](https://docs.python.org/3/library/xml.etree.elementtree.html#xml.etree.ElementTree.Element.findall) ne trouve que les √©l√©ments avec une balise qui sont des enfants directs de l'√©l√©ment courant.


In [None]:
import pandas as pd

def get_gallica_metadata(search_api_url, dc_elements_array):
    response = requests.get(search_api_url)
    root = ET.fromstring(response.content)
    metadata = []
    for record in root.iter('{http://www.loc.gov/zing/srw/}record'):
        record_meta_dic = {}
        for dc_el in dc_elements_array:
            if record.findall('{http://www.loc.gov/zing/srw/}recordData/{http://www.openarchives.org/OAI/2.0/oai_dc/}dc/{http://purl.org/dc/elements/1.1/}'+dc_el):
                record_meta_dic[dc_el] = record.findall('{http://www.loc.gov/zing/srw/}recordData/{http://www.openarchives.org/OAI/2.0/oai_dc/}dc/{http://purl.org/dc/elements/1.1/}'+dc_el)[0].text
            else :
                record_meta_dic[dc_el] = 'NaN'
        # non DC metadata
        record_meta_dic['ocr_quality'] = record.findall('{http://www.loc.gov/zing/srw/}extraRecordData/nqamoyen')[0].text if record.findall('{http://www.loc.gov/zing/srw/}extraRecordData/nqamoyen')[0].text else 'NaN'
        metadata.append(record_meta_dic)
    metadata_df = pd.DataFrame(metadata)
    return metadata_df

In [None]:
#url = "https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=dc.creator%20all%20%22jules%20verne%22%20sortby%20ocr.quality/sort.descending&filter=dc.type%20all%20%22monographie%22%20and%20dc.language%20all%20%22fre%22&startRecord=1&maximumRecords=5"
books_df = get_gallica_metadata(url, ['creator', 'identifier', 'title'])
books_df


### Extraction du plein texte (Document API)

Documentation : https://api.bnf.fr/fr/api-document-de-gallica

Pour document trouv√© via l'API de recherche ou l'interface Gallica, l'API Document peut √™tre utilis√©e pour r√©cup√©rer les m√©tadonn√©es n√©cessaires √† l'utilisation des ressources num√©riques du document, y compris :

- les informations bibliographiques
- les r√©sultats de recherche
- **le texte (texte brut / OCR)**

Ainsi, pour un identifiant ark, si le document a √©t√© "OCRis√©", il est toujours possible de r√©cup√©rer tout le texte.

C'est vraiment tr√®s simple !

Lorsqu'un document est index√© en texte int√©gral, il est possible d'obtenir ce texte en utilisant le qualificateur `textBrut` :  
https://gallica.bnf.fr/{ark}.texteBrut

Pour l‚Äôexemple, nous travaillerons sur l‚Äô√©dition fran√ßaise du Bulletin d'information du Conseil international des mus√©es (parution de d√©cembre 1964), premi√®re mention du Festival mondial des arts n√®gres :  
https://gallica.bnf.fr/ark:/12148/bpt6k65591428



In [None]:
ark_url = 'https://gallica.bnf.fr/ark:/12148/bpt6k65591428'
text_url = f"{ark_url}.texteBrut"
response = requests.get(text_url)
print(response.text[0:2000])

Que trouve-t-on ? √âtonnamment, le texte n‚Äôest pas r√©ellement disponible en texte brut, mais est format√© en HTML‚Ä¶
On pourrait se contenter de supprimer les balises. Mais il y a mieux √† faire.

En examinant attentivement le document on s‚Äôaper√ßoit que le texte d√©bute apr√®s la premi√®re balise HTML `<hr/>`.  
Gr√¢ce √† la librairie [BeautifulSoup](https://pypi.org/project/beautifulsoup4/), nous pouvons extraire le seul texte du document.

In [None]:
from bs4 import BeautifulSoup

In [None]:
def get_doc_text(ark_url):
    response = requests.get(ark_url+'.texteBrut')
    document = BeautifulSoup(response.text, "html.parser")
    first_hr_tag = document.select('hr')[0]
    text = ''
    for p in first_hr_tag.find_all_next('p'):
        text += p.text + '\n'
    return text

In [None]:
print(get_doc_text(ark_url)[0:2000])

### Enregistrer le texte dans un fichier

Si on souhaitera le plus souvent stocker les donn√©es dans un Dataframe, on a souvent besoin d‚Äôenregistrer les donn√©es en local‚Ä¶


In [None]:
file_name = ark_url[34:] # on ne retient que le suffixe de l‚Äôark pour le nom du fichier
with open(f'docs/{file_name}.txt', 'a') as file:
    file.write(get_doc_text(ark_url))

**Pour nous pr√©munir des probl√®mes de r√©seau, nous allons travailler avec ce m√™me document enregistr√© : `./docs/bpt6k65591428`.**

## Reconnaissance des entit√©s nomm√©es avec spaCy

SpaCy est une biblioth√®que logicielle Python pour le traitement automatique de nombreuses langues. Il s'agit d'une bo√Æte √† outils essentielle pour l'analyse computationnelle de corpus de textes.

√Ä lire :

- https://spacy.io/
- Avanced NLP with Spacy : https://course.spacy.io/en/
- https://github.com/mchesterkadwell/named-entity-recognition/blob/main/1-basic-text-mining-concepts.ipynb
- for NER : https://melaniewalsh.github.io/Intro-Cultural-Analytics/05-Text-Analysis/12-Named-Entity-Recognition.html
- for Text-Mining (basics) : https://github.com/mchesterkadwell/named-entity-recognition/blob/main/1-basic-text-mining-concepts.ipynb 



In [None]:
# Install and import Spacy
!pip install -U spacy

In [None]:
import spacy

### Pipelines de traitement du langage et mod√®les entra√Æn√©s

[https://spacy.io/usage/processing-pipelines](https://spacy.io/usage/processing-pipelines)

Lorsque vous appelez nlp sur un texte, spaCy commence par tokeniser le texte pour produire un [objet Doc](https://spacy.io/api/doc). Le document est ensuite trait√© en plusieurs √©tapes (c'est-√†-dire le pipeline de traitement). Chaque composant du pipeline renvoie le document trait√©, qui est ensuite transmis au composant suivant.

![spacy_pipeline](img/spacy_pipeline.svg)

Les capacit√©s d'un pipeline de traitement d√©pendent toujours des composants, de leurs mod√®les et de la mani√®re dont ils ont √©t√© form√©s. Par exemple, un pipeline de reconnaissance d'entit√©s nomm√©es doit inclure un composant de reconnaissance d'entit√©s nomm√©es form√©.

Il convient de se r√©f√©rer √† la documentation des mod√®les mis √† disposition : [https://spacy.io/models](https://spacy.io/models)

#### Installation et importation d'un pipeline 

In [None]:
#!conda install -c conda-forge spacy-model-fr_core_news_md

In [None]:
import fr_core_news_md
nlp = fr_core_news_md.load()

In [None]:
type(nlp)

In [None]:
print(nlp.pipe_names)

### Reconnaissance des entit√©s nomm√©es¬∂

La reconnaissance des entit√©s nomm√©es (NER) est le processus qui consiste √† localiser les entit√©s nomm√©es et √† les classer dans des cat√©gories pr√©d√©finies, telles que les noms de personnes, les lieux, les organisations.

spaCy poss√®de la propri√©t√© .ents sur les objets Doc. Vous pouvez l'utiliser pour extraire des entit√©s nomm√©es :

In [None]:
from IPython import display
from spacy import displacy

with open("docs/bpt6k65591428.txt", "r") as file:
    texte = file.read()

doc = nlp(texte)
#¬†‚ö†Ô∏è ATTENTION, la sortie de la cellule suivante est tr√®s longue, n'h√©sitez pas √† commenter la ligne suivante une fois que vous avez vu le r√©sultat
display.HTML(displacy.render(doc, style="ent", jupyter=False, page=True))


In [None]:
with open("docs/bpt6k65591428.txt", "r") as file:
    texte = file.read()

doc = nlp(texte)

for ent in doc[3500:3550].ents:
    print(
        f"""
        {ent.text = }
        {ent.label_ = }
        type = {spacy.explain(ent.label_)}"""
    )

Dans l'exemple ci-dessus, `ent` est un [Span object] (https://spacy.io/api/span) avec divers attributs :

- `.text` donne la repr√©sentation textuelle Unicode (la cha√Æne) de l'entit√©.
- `.label_` donne l'√©tiquette de l'entit√©.
- `.start_char` indique le d√©calage de caract√®re pour le d√©but de l'entit√©.
- `.end_char` indique le d√©calage de caract√®re pour la fin de l'entit√©.

`spacy.explain()` donne des d√©tails descriptifs sur chaque √©tiquette d'entit√©.

Comptage des lieux : pour une meilleure compr√©hension, nous proposons 2 m√©thodes :

- La premi√®re avec une boucle `for`, pour comprendre comment lire la liste des entit√©s.
- La seconde (List comprehension) est plus "pythonique".

In [None]:
from collections import Counter
# method 1:
places = []
for named_entity in doc.ents:
    if named_entity.label_ == "LOC":
        places.append(named_entity.text)

print(Counter(places).most_common(10))

In [None]:
# method 2 (pythonic):
places = [
    entity.text
    for entity in doc.ents
    if entity.label_ == 'LOC'
]
places_df = pd.DataFrame(Counter(places).most_common(20), columns=['place', 'count'])
places_df.iloc[0:10]

Vous pouvez √©galement utiliser displaCy pour visualiser ces entit√©s. Ici, nous ne visualisons que quelques phrases (`list(doc.sents)[n:m]`), mais il est bien s√ªr possible d'annoter le texte entier (`doc`).

In [None]:
from spacy import displacy
displacy.render(list(doc.sents)[1000:1100], style='ent', jupyter=True)

On constate surtout que le mod√®le est assez mauvais par d√©faut. Plusieurs raisons

Pour l‚Äôexercice nous avons pr√©par√© un mod√®le plus efficace (voir `ner/model-best`).

Pour comprendre comment ce mod√®le a √©t√© entra√Æn√© (avec les donn√©es partag√©es par le BnF), lire le [cours de Bertrand Dum√©nieu](https://github.com/HueyNemud/enc-tnah-atelierspython-nlp/tree/main/partie_1).

<style>
    .renbox {
        width: 100%;
        height: 100%;
        padding: 2px;
        margin: 3px;
        border-radius: 3px;
        box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
        font-weight: bolder;
        background-color: #8b8c8b;
    }
    .per {
        background-color: #ffb654;
    }
    .org {
        background-color: #49ace6;
    }
    .misc {
        background-color: #c2ccd1;
    }
    .loc {
        background-color: #3deb6c;
    }
</style>


## R√©solution de toponymes et g√©ocodage avec DBPedia

### Introduction √† la r√©solution de toponymes üî¨

La **r√©solution de toponymes** entre dans le domaine de l'ing√©nierie des connaissances en tant que cas particulier d'une t√¢che g√©n√©rale nomm√©e **liage d'entit√©s** (en anglais *Entity Linking - EL*).
Le liage d'entit√©s suit l'√©tape de reconnaissance des entit√©s nomm√©es (REN/*NER*) et consiste √† associer les entit√©s annot√©es avec une **ressource dans une base de connaissances de r√©f√©rence** avec deux objectifs :

1. **d√©sambigu√Øser** les entit√©s nomm√©es, car on consid√®re que deux entit√©s nomm√©es li√©es √† la m√™me ressource sont en fait deux mentions de la m√™me entit√© du monde r√©el.
2. **enrichir** les informations extraites gr√¢ce aux m√©tadonn√©es que fournit la base de connaissances. Dans le cas des lieux, on sera √©videmment int√©ress√© par leurs **coordonn√©es g√©ographiques**.

La r√©solution de toponymes est tout simplement le nom donn√© au liage d'entit√©s nomm√©es qui d√©signent des lieux. Si, en plus, on r√©cup√®re des coordonn√©es g√©ographiques pour cartographier les toponymes, la t√¢che devient une t√¢che de **g√©ocodage** !

La base de connaissance peut √™tre n'importe quel r√©f√©rentiel externe, mais les **bonnes pratiques** du domaine veulent que l'on essaye g√©n√©ralement de privil√©gier soit des **r√©f√©rentiels d'autorit√©** comme le catalogue de la BnF, soit des grands **graphes de connaissances ouverts** et publi√©s sur le Web de donn√©es, par exemple Wikidata ou DBPedia qui sont des versions de Wikipedia sous forme de graphes de connaissances.

Le processus de r√©solution de toponymes peut √™tre d√©compos√© en trois parties  :

<img src="./img/schema.jpg" alt="Recherche dans un r√©f√©rentiel -> D√©sambiguisation -> G√©ocodage" width="80%"></img>

<span style="color: red; font-size: 1.2em;"><strong>üö® Attention |</strong></span>  **Dans cet atelier nous n√©gligeront l'√©tape de d√©sambigu√Øsation.* Elle peut toutefois √™tre essentielle selon le cas d'application.

### √âchauffement

Commen√ßons par la premi√®re √©tape de **recherche des entit√©s nomm√©es lieux (LOC)**.

Pour l'exemple, dans  l'extrait de l'article sur le naufrage du titanic on trouve deux mentions de lieux, <span class ="renbox loc">Staffordshire<sup>[LIEU]</sup></span> et <span class ="renbox loc">Liverpool<sup>[LIEU]</sup></span> : 


> ¬´ Le capitaine <span class ="renbox per">Smith<sup>[PERSONNE]</sup></span> qui commandait le <span class="renbox misc">Titanic<sup>[OBJET]</sup></span> est, nous l'avons dit hier, depuis plus de 35 ans au service de la <span class ="renbox org">White Star Line<sup>[ORGANISATION]</sup></span>.
> Il est actuellement ag√© de 60 ans.
>  N√© dans le <span class ="renbox loc">Staffordshire<sup>[LIEU]</sup></span>, le capitaine <span class ="renbox per">Smith<sup>[PERSONNE]</sup></span> avait fait son apprentissage de marin dans la maison d'armement <span class ="renbox org">Gibson et C¬∞<sup>[ORGANISATION]</sup></span>, de <span class ="renbox loc">Liverpool<sup>[LIEU]</sup></span>. ¬ª


Nous allons utiliser comme r√©f√©rentiel de [DBPediaFR](https://fr.dbpedia.org/) (https://fr.dbpedia.org/).
DBPediaFR est une repr√©sentation en graphe de connaissances du contenu de Wikip√©dia en fran√ßais. 

Chaque page de Wikip√©dia en fran√ßais devient donc une **ressource RDF** dans le graphe, qui poss√®de une **URI** et qui est enrichie de nombreuses **m√©tadonn√©es**.

Par exemple, la page Wikip√©dia de l'√âcole Nationale des Chartes est transform√©e une ressources RDF dont l'URI (qui est ici un URL) est :
> http://fr.dbpedia.org/resource/√âcole_nationale_des_chartes

Si l'on va √† cet URL dans un navigateur Web, on peut voir un r√©sum√© de toutes les triplets RDF associ√©s √† cette ressource.

Mais comment trouve-t-on l'URI d'un lieu dans DBPediaFR √† partir de son nom ?
Pour cela, on peut utiliser l'outil open source  [https://fr.dbpedia.org/lookup.html](https://fr.dbpedia.org/lookup.html), qui permet justement de faire cette recherche ! 

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>üß© - QUESTION 1 - ‚≠ê</strong></div>

En utilisant l'outil DBPediaFR lookup (https://fr.dbpedia.org/lookup.html), recherchez le lieu <span class ="renbox loc">Staffordshire<sup>[LIEU]</sup></span>.
Rendez-vous sur la page de pr√©sentation de la meilleure resource identifi√©e, et recherchez parmi les triplets associ√©s s'il y a des coordonn√©es g√©ographiques. 

Quel sont les noms et les pr√©fixes RDF des propri√©t√©s utilis√©es pour d√©crire ces informations g√©ographiques ? Notez les dans un coin, vous en aurez besoin plus tard !

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px; margin-top: -30px;"></div>

Vous venez de tester √† la main la premi√®re √©tape de la  r√©solution de toponymes gr√¢ce √† DBPedia Lookup.
Le but va maintenant √™tre d'automatiser ce processus !


### R√©soudre un toponyme avec l'API de DBPedia Lookup

[DPBedia Lookpup](https://github.com/dbpedia/dbpedia-lookup) va √™tre tr√®s utile car son instance officielle [https://lookup.dbpedia.org/](https://fr.dbpedia.org/lookup.html) mets √† disposition une API REST qui permet de l'interroger avec une simple URL.

Par exemple pour r√©cup√©rer les meilleurs candidats pour le toponym *Staffordshire*, il suffit d'appeler : 


>https://fr.dbpedia.org/lookup/api/search?query=Staffordshire


In [None]:
#¬†Ex√©cutez-moi ! üöÄ

! curl -s "https://fr.dbpedia.org/lookup/api/search?query=Staffordshire" #¬†-s pour le mode silencieux et ne pas afficher la progression de la requ√™te

<span style="color: #40d6d1; font-size: 1.2em;"><strong>üí° Astuce |</strong></span> Une documentation est disponible ici : https://www.dbpedia.org/resources/lookup/

Vous aurez remarqu√© qu'on r√©cup√®re les r√©sultats au format XML, peu pratique √† manipuler en Python.
Heureusement l'outil propose un m√©canisme de **n√©gociation de contenu** qui permet de pr√©ciser un format alternatif avec le param√®tre `format=`...et il serait pr√©f√©rable de r√©cup√©rer du JSON.

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>üß© - QUESTION 2 - </strong></div>

Dans votre navigateur Web pr√©f√©r√©, allez √† l'URL suivante et v√©rifiez si les r√©sultats renvoy√©s par l'API semblent correspondre √† ce que vous obteniez avec la version graphique de DBPediaFR Lookup :

> https://fr.dbpedia.org/lookup/api/search?query=Staffordshire&format=JSON
 


In [None]:
#¬†Ex√©cutez-moi ! üöÄ

! curl -s "https://fr.dbpedia.org/lookup/api/search?query=Staffordshire&format=JSON" #¬†-s pour le mode silencieux et ne pas afficher la progression de la requ√™te


 <div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px; margin-top: -30px;"></div>

### Automatisation des appels √† DBPedia Lookup

Bien s√ªr, on souhaite automatiser ces appels √† l'API afin de pouvoir r√©soudre des toponymes reconnus dans un texte √† la vol√©e !

Maintenant, vous connaissez la biblioth√®que `requests` !

In [None]:
# %pip install -q requests

In [None]:
import requests
url = "https://fr.dbpedia.org/lookup/api/search?query=Staffordshire&format=JSON"
response = requests.get(url)
#response.headers['Content-Type']
response.raise_for_status() # Appeler raise_for_status() apr√®s une requ√™te GET est une bonne pratique : cela permet de lever automatiquement une exception si la requ√™te a √©chou√©.
print(type(response), response, response.headers['Content-Type'], response.text)
#print(response.text)

La fonction `dbpedia_lookup(toponyme: str)` ci-dessous prend en param√®tre un `toponyme` sous forme de cha√Æne de caract√®re, et renvoie  le contenu de l'√©l√©ment racine "docs" de la r√©ponse HTTP sous forme d'une liste de ressources repr√©sent√©es par des dictionnaires Python.

In [None]:
# Compl√©tez-moi ! üèóÔ∏è

from typing import Any
from functools import cache


@cache
def dbpedia_lookup(toponyme: str) -> list[dict[str, Any]]:
    query = f"https://fr.dbpedia.org/lookup/api/search?query={toponyme}&format=JSON"
    response = requests.get(query)
    response.raise_for_status()

    response_json = response.json()
    docs = response_json.get("docs")
    return docs or []

### R√©cup√©ration de l'URI de la meilleure resource identifi√©e

DBPediaFR nous renvoie la liste des resources correspondant √† la requ√™te. C'est bien, mais ce que l'on aimerait c'est acc√©der aux triplets associ√©s √† cette resource afin de r√©cup√©rer les coordonn√©es g√©ographiques associ√©es, s'il y en a !

Nous allons donc avoir besoin d'un m√©canisme suppl√©mentaire pour :
1. **r√©cup√©rer** les URI des resources dans les dictionnaires renvoy√©s par `dbpedia_lookup()`.
2. **filtrer la liste** pour conserver uniquement le meilleur r√©sultat (=le premier) pour √©viter des requ√™tes sur des resources que l'on utilisera pas.


Nous allons pour cela cr√©er une nouvelle fonction qui englobera `dbpedia_lookup()`, nomm√©es `dbpedia_top1(toponyme: str)-> str |¬†None` qui prends en param√®tre un toponyme et renvoie **l'URI de la meilleure resource identifi√©e par DBPediaFR lookup** (ou None s'il n'y a pas de r√©sultat).


Chaque resources JSON renvoy√©e par l'API de DBPediaFR Lookup contient une propri√©t√© `resource` contenant une liste d'URI pour cette resource.
Nous consid√©rerons que l'URI de la resource est **le premier √©l√©ment de cette liste**.

Par exemple, ce sera "http://dbpedia.org/resource/Staffordshire" pour le toponyme "Staffordshire" :

In [None]:
#¬†Ex√©cutez-moi ! üöÄ
! curl -s "https://fr.dbpedia.org/lookup/api/search?query=Staffordshire&format=JSON" | jq ".docs[0].resource" #¬†jq est un utilitaire bash pour manipuler du JSON, tr√®s tr√®s pratique !

La fonction `dbpedia_top1(str)` dans la cellule suivante r√©cup√®re **l'URI de la meilleure resources trouv√©es pour un toponyme pass√© en argument**.
Si aucun r√©sultat n'est trouv√©, la fonction doit renvoyer None

In [None]:
from functools import cache


@cache  # On active la mise en cache pour cette fonction, cf. l'astuce pr√©c√©dente
def dbpedia_top1(toponyme: str) -> str | None:
    r = dbpedia_lookup(toponyme)
    if not r:
        return None
    else:
        return r[0].get("resource")[0]

In [None]:
# Ex√©cutez-moi ! üöÄ

t = "Staffordshire"
r = dbpedia_top1(t)

# La r√©ponse doit √™tre l'URI attendue, sous forme de cha√Æne de caract√®res
assert [isinstance(r, str), r == "http://f.dbpedia.org/resource/Staffordshire"]

t = "Cette ressource n'existe pas "
r = dbpedia_top1(t)

# Une resource inexistante doit retourner None, pas provoquer d'erreur
assert r is None

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>üß© - QUESTION 5 - </strong></div>

Ex√©cutez cette requ√™te dans le *SPARQL endpoint* de DBPediaFR (https://fr.dbpedia.org/sparql) et v√©rifiez le r√©sultat contient bien les latitude et longitude du Staffordshire.

<pre>
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
SELECT ?lat ?long
WHERE {<http://fr.dbpedia.org/resource/Staffordshire> (geo:lat) ?lat ; (geo:long) ?long.}
</pre>

<span style="color: #40d6d1; font-size: 1.2em;"><strong>üí° Astuce |</strong></span> Ces coordonn√©es sont celles d'un point, alors que Stafforshire est un comt√©; c'est donc une description g√©ographique grossi√®re d'une entit√© surfacique, sans doute son centro√Øde. Vous pouvez d'ailleurs copier ces coordonn√©es dans [Google Maps](https://www.google.fr/maps) pour voir quel emplacement sur Terre elles d√©signent.

 <div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px; margin-top: -30px;"></div>


In [None]:
#¬†Ex√©cutez-moi ! üöÄ

! curl -s -X POST \
-H "Content-Type: application/sparql-query" \
-H "Accept: application/json" \
--data '''PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> SELECT ?lat ?long WHERE { <http://fr.dbpedia.org/resource/Staffordshire> (geo:lat) ?lat ; (geo:long) ?long. }''' \
  http://fr.dbpedia.org/sparql \
  | jq #On passe le r√©sultat √† jq pour le formater proprement

Reste donc √† transformer cela en fonction Python üôÇ

<span style="color: #40d6d1; font-size: 1.2em;"><strong>üí° Astuce |</strong></span> Dans le r√©sultat de la cellule pr√©c√©dente, on voit que les valeurs des coordonn√©es sont relativement "profond" dans l'objet JSON retourn√©, appellons le `r√©sultat`. Pour acc√©der √† la latitude, il faut par exemple regarder dans "results", puis "bindings", puis "lat" puis "value".  On a donc envie d'√©crire `r√©sultat["results"]["bindings"]["lat"]["value"]`. Oui mais voil√† : si n'importe laquelle des cl√©s n'existe pas, le code va planter ! On pourrait g√©rer √ßa avec des clauses imbriqu√©es `if "cl√©" in r√©sultats["..."]: ...`, mais c'est tr√®s lourd.
Mais il existe une astuce en utilisant la m√©thode `r√©sultat.get("cl√©")` √† la place de `r√©sultat["cl√©"]`. Ces deux formes d'acc√®s au contenu d'un dictionnaires sont presques similaires, sauf que :
- `r√©sultat.get("cl√©")` renvoie `None` si "cl√©" n'est pas une cl√© du dictionnaire, alors que dans ce cas `r√©sultat["cl√©"]` l√®vera une exception ;
- `r√©sultat.get()` accepte un second param√®tre qui est la valeur retourn√©e par d√©faut **si la cl√© n'existe pas**.

L'astuce est alors de retourner un dictionnaire vide dans ce cas, ce qui permet de chainer les appels √† `r√©sultat.get` pour parcourir les √©l√©ments imbriqu√©s : 

In [None]:
# Compl√©tez-moi ! üèóÔ∏è


@cache  # Mise en cache, les requ√™tes SPARQL sont co√ªteuses en temps !
def geocode(uri: str) -> tuple[float, float]:

    # Le patron de requ√™te SPARQL: l'URI sera substitu√©e √† la place de %s par l'argument de la fonction
    sparql_template = """PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> SELECT ?lat ?long WHERE {<%s> (geo:lat) ?lat ; (geo:long) ?long. }"""

    # On substitue l'URI dans le template de requ√™te SPARQL en utilisant le formatage ancien de Python plut√¥t que les f-strings car la requ√™te SPARQL contient d√©j√† des accolades.
    sparql_query = sparql_template % uri

    http_headers = {
        "Content-Type": "application/sparql-query",
        "Accept": "application/json",
    }
    response = requests.post(
        "http://fr.dbpedia.org/sparql", headers=http_headers, data=sparql_query
    )
    response.raise_for_status()
    json_response = response.json()

    # R√©cup√©rer l'√©l√©ment results -> bindings dans l'objet json_response
    # ‚ö†Ô∏è ATTENTION : l'√©lement "bindings" est une liste, donc l'argument par d√©faut pour get("bindings") doit √™tre une liste vide => get("bindings", [])
    bindings = json_response.get("results", {}).get("bindings", [])

    # Si la liste "bindings" est vide, lat et long seront None
    if not bindings:
        return None, None

    # Sinon, le premier √©l√©ment de la liste "bindings" est un dictionnaire contenant les valeurs de lat et long
    bindings = bindings[0]

    # R√©cup√©rer la valeur de latitude dans : lat -> value
    lat = bindings.get("lat", {}).get("value", None)

    # R√©cup√©rer la valeur de longitude dans : long -> value
    long = bindings.get("long", {}).get("value", None)

    # lat et long sont r√©cup√©r√©s en tant que cha√Ænes de caract√®res, on les convertit en float
    lat = float(lat) or None
    long = float(long) or None

    return lat, long

In [None]:
# Ex√©cutez-moi !   üöÄ

uri = "http://fr.dbpedia.org/resource/Staffordshire"

coordonnees = geocode(uri)
print(f"{uri=} => {coordonnees=}")

assert all(
    [
        isinstance(coordonnees, tuple),
        len(coordonnees) == 2,
        all(isinstance(x, float) for x in coordonnees),
        coordonnees == (52.8333, -2.0),
    ]
)

In [None]:
def get_coordinates(toponyme: str) -> tuple[float, float]:
    uri = dbpedia_top1(toponyme)
    if not uri:
        lat, long = None, None
    else:
        lat, long = geocode(uri)
    return lat, long

In [None]:
def get_coordinates_verbose(toponyme: str) -> tuple[float, float]:

    uri = dbpedia_top1(toponyme)
    print(f"{toponyme=} => {uri=}", end="")

    if not uri:
        lat, long = None, None
    else:
        lat, long = geocode(uri)

    print(f" => {lat=}, {long=}")
    return lat, long

 <div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px; margin-top: -30px;"></div>

## Reconna√Ætre automatiquement et cartographier les lieux d'un texte

<span style="color: #85d0ff; font-size: 1.2em;"><strong>‚ÑπÔ∏è Info |</strong></span> Cette seconde partie ne contient pas de question mais est un tutorial pour appliquer la cha√Æne de traitement construire √† des textes dont les lieux sont reconnus √† l'aide du mod√®le SpaCy entra√Æn√© dans la partie 1.


### Premier essai


L'id√©e est maintenant de pouvoir appliquer la cha√Æne de traitement √† toutes les entit√©s LOC extraites d'un texte historique par le mod√®les SpaCy entra√Æn√© dans la partie 1 !


Commen√ßons par charger le mod√®le, qui devrait se trouver dans le dossier `../partie_1/ner_presse_ancienne/model-best`.

In [None]:
import spacy

nlp = spacy.load("ner/model-best")

In [None]:
# Ex√©cutez-moi ! üöÄ
# M√™me traitement que pr√©c√©demment mais avec un meilleur mod√®le

from IPython import display
from spacy import displacy

with open("docs/bpt6k65591428.txt", "r") as file:
    texte = file.read()

doc = nlp(texte)
display.HTML(displacy.render(doc, style="ent", jupyter=False, page=True))


Le mod√®le pr√©dit des entit√©s de diff√©rentes classes (ORG, PER, LOC), mais nous ne sommes int√©ress√©s que par les lieux (LOC).
Filtrons donc les entit√©s nomm√©es reconnues pour ne ressortir que les lieux.

In [None]:
loc = [ent.text for ent in doc.ents if ent.label_ == "LOC"]
loc

Nous pouvons maintenant ex√©cuter la cha√Æne de traitement de r√©solution de toponymes pour chaque entit√© nomm√©e LOC !

In [None]:
#¬†Ex√©cutez-moi ! üöÄ

for toponyme in loc:
    get_coordinates_verbose(toponyme)

### G√©ocodage d'un texte

Nous voici capables de r√©cup√©rer les coordonn√©es des lieux dans un texte gr√¢ce √† SpaCY et notre cha√Æne de traitement !

Afin de r√©utiliser le m√©canisme complet, cr√©ons une fonction `geocode_texte(texte: str, model: spacy.language.Language) -> tuple[list, list]` qui :
- prend en argument un texte quelconque et le mod√®le SpaCy
- renvoie deux listes : une liste de toutes les mentions de lieux reconnus, et une liste des paires de coordonn√©es identifi√©es pour chacun

In [None]:
#¬†Ex√©cutez-moi ! üöÄ
def geocode_texte(
    text: str, nlp: spacy.language.Language
) -> tuple[list[str], list[tuple[float, float]]]:
    doc = nlp(text)
    loc = [ent.text for ent in doc.ents if ent.label_ == "LOC"]
    coordonnees = [get_coordinates(toponyme) for toponyme in loc]
    return loc, coordonnees

In [None]:
%pip install pandas
import pandas as pd

In [None]:
from collections import Counter
pd.set_option('display.max_rows', 200)

loc_dict = dict(Counter(loc)) # d√©doublonner la liste des lieux avec un compteur, dans un dict
# ajouter les coordonn√©es de chaque lieu dans le dict
for k,v in loc_dict.items():
    loc_dict[k]=[loc_dict[k], dbpedia_top1(k), get_coordinates(k)]
# ajouter url et coordonn√©es pour chaque lieu
df = pd.DataFrame.from_dict(loc_dict, orient='index',
                           columns=['occs', 'db_pedia', 'coordinates'])
df

## Cartographie avec Folium


Folium est une biblioth√®que Python pour cr√©er des cartes interactives extr√™mement facilement; nous allons l'utiliser pour afficher la densit√© des mentions de toponymes localis√©s sous la forme d'une **carte de chaleur interactive** !

Commen√ßons par installer puis importer Folium .

In [None]:
# Ex√©cutez-moi ! üöÄ

%pip install -q folium

import folium

In [None]:
# Ex√©cutez-moi ! üöÄ

folium_map = folium.Map(
    location=[48.8566, 2.3522],  # On pr√©cise les coordonn√©es du centre de la carte...
    zoom_start=3,  # ... et le niveau de zoom initial. 0 = vue du monde, 18 = vue tr√®s rapproch√©e
)

# On affiche l'objet Map
folium_map

Ajouter des couches cartographiques est √©galement tr√®s facile.

Pour cr√©er une carte de chaleur, il suffit de cr√©er un objet de type `HeatMap`,¬†disponible dans le module `folium.plugins`.

L'objectif est donc de cr√©er une carte de chaleur √† partir des lieux g√©ocod√©es dans un texte gr√¢ce √†  `geocode_texte()`.

Le constructeur de `HeatMap` accepte une liste de coordonn√©es g√©ographiques **valides**. Nous devons donc pr√©alablement retirer les paires de coordnn√©es `(None, None)` potentiellement produites par la cha√Æne de traitement lorsque des toponymes ne sont pas r√©solus.


In [None]:
print(coordonnees)

In [None]:
# Ex√©cutez-moi ! üöÄ

coordonnees_valides = [(lat, long) for lat, long in coordonnees if lat and long]

print("Coordonn√©es valides :", len(coordonnees_valides), "/", len(coordonnees))

Il ne reste plus qu'√† cr√©er un objet `HeatMap` √† partir de ces coordonn√©es valides, puis l'ajouter √† la carte !

In [None]:
#¬†Ex√©cutez-moi ! üöÄ

from folium.plugins import HeatMap

# On cr√©e une carte de chaleur √† partir des coordonn√©es valides
heatmap = HeatMap(coordonnees_valides)

# On ajoute la carte de chaleur √† la carte folium
heatmap.add_to(folium_map)

Ce qui permet de construire la projection cartographique finale des mentions de lieux identifi√©s dans le texte de presse :

In [None]:
# Ex√©cutez-moi ! üöÄ

folium_map

## Une App Dash pour tester le code

Si vous voulez exp√©rimenter d'avantage, **lancez l'application Dash dashboard.py** qui r√©utilise le code cr√©√© ici et permet de projeter sur une carte un texte r√©cup√©r√© depuis Gallica gr√¢ce √† son [API Document](https://api.bnf.fr/fr/api-document-de-gallica) ! 

Dans cette application, on peut rapidement comparer les cartes g√©n√©r√©es pour 2 publications successives :

- https://gallica.bnf.fr/ark:/12148/bpt6k65591428 => ICOM 1964 (premi√®re mention du Festival mondial des arts n√®gres)
- https://gallica.bnf.fr/ark:/12148/bpt6k6567411d => ICOM 1968 (nouvelles mention du Festival et pour comparaison des cartes mondiales)


In [None]:
# Ex√©cutez-moi ! üöÄ
# ! conda install -c conda-forge dash-bootstrap-components
! python3 dashboard.py

In [None]:
import urllib.parse
url = 'https://gallica.bnf.fr/SRU?version=1.2&operation=searchRetrieve&query=gallica%20all%20%22FESTAC%22%20sortby%20ocr.quality/sort.descending&filter=dc.type%20all%20%22fascicule%22%20and%20dc.language%20all%20%22fre%22%20and%20dc.date%20%3E=%20%221976%22'
urllib.parse.unquote(url)