<a href="https://colab.research.google.com/github/cvbrandoe/coursHNS/blob/main/notebooks/ENC_HNS_Geo_NER.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Geoparsing avec spaCy et Stanza : difficult√©s et cas Limites

Ce notebook explore les outils TAL pour le geoparsing des textes en mettant l'accent sur leurs forces, faiblesses et les cas probl√©matiques.

Objectifs :
- Comparer spaCy (https://spacy.io/) et Stanza (https://stanfordnlp.github.io/stanza/) pour la reconnaissance automatis√©e de noms de lieux
- Identifier les difficult√©s sp√©cifiques aux textes historiques/litt√©raires
- D√©velopper des strat√©gies pour am√©liorer la d√©tection


## Installation des biblioth√®ques

In [1]:
!pip install spacy stanza pandas matplotlib seaborn
!python -m spacy download fr_core_news_md
!python -m spacy download fr_core_news_lg

# !python -m spacy download en_core_web_sm

# %%
import spacy
import stanza
import pandas as pd
from collections import Counter, defaultdict
import re
import warnings
warnings.filterwarnings('ignore')

Collecting stanza
  Downloading stanza-1.11.0-py3-none-any.whl.metadata (14 kB)
Collecting emoji (from stanza)
  Downloading emoji-2.15.0-py3-none-any.whl.metadata (5.7 kB)
Downloading stanza-1.11.0-py3-none-any.whl (1.7 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.7/1.7 MB[0m [31m17.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading emoji-2.15.0-py3-none-any.whl (608 kB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m608.4/608.4 kB[0m [31m17.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: emoji, stanza
Successfully installed emoji-2.15.0 stanza-1.11.0
Collecting fr-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.8.0/fr_core_news_md-3.8.0-py3-none-any.whl (45.8 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚î

## Chargement et configuration des mod√®les


In [2]:
print("Chargement des mod√®les TAL...")

# spaCy - mod√®le fran√ßais moyen
nlp_spacy_md = spacy.load("fr_core_news_md")
print("‚úì spaCy FR (md) charg√©")

# spaCy - mod√®le fran√ßais large (optionnel, plus pr√©cis)
try:
    nlp_spacy_lg = spacy.load("fr_core_news_lg")
    print("‚úì spaCy FR (lg) charg√©")
except:
    print("‚ö† spaCy FR (lg) non disponible - utilisez 'md' uniquement")
    nlp_spacy_lg = None

# Stanza - t√©l√©chargement automatique si n√©cessaire
try:
    nlp_stanza = stanza.Pipeline('fr', processors='tokenize,ner', verbose=False)
    print("‚úì Stanza FR charg√©")
except:
    print("T√©l√©chargement de Stanza FR...")
    stanza.download('fr')
    nlp_stanza = stanza.Pipeline('fr', processors='tokenize,ner', verbose=False)
    print("‚úì Stanza FR charg√©")

Chargement des mod√®les TAL...
‚úì spaCy FR (md) charg√©
‚úì spaCy FR (lg) charg√©
‚úì Stanza FR charg√©


## Cas difficiles : Typologie des probl√®mes


In [3]:
# Corpus de cas probl√©matiques
cas_problematiques = {

    "1. Ambigu√Øt√© avec noms communs": [
        "Le roi de France convoqua les √©tats g√©n√©raux √† Versailles.",
        "L'√âglise catholique poss√©dait des terres en Provence.",
        "Le pape r√©sidait √† Avignon au XIVe si√®cle."
    ],

    "2. Noms historiques vs modernes": [
        "Constantin d√©pla√ßa la capitale √† Byzance, rebaptis√©e Constantinople.",
        "Les troupes napol√©oniennes entr√®rent dans Petrograd en hiver.",  # Anachronisme volontaire
        "Le trait√© fut sign√© √† Ratisbonne, aujourd'hui Regensburg."
    ],

    "3. Lieux disparus ou fictifs": [
        "Les habitants de Pomp√©i ignoraient le danger du V√©suve.",
        "L'Atlantide aurait √©t√© situ√©e au-del√† des Colonnes d'Hercule.",
        "Le royaume de Cocagne attirait les r√™veurs m√©di√©vaux."
    ],

    "4. Micro-toponymie et lieux locaux": [
        "Il habitait rue de la Paix dans le quartier du Marais.",
        "Le moulin de Valmy devint le symbole de la bataille.",
        "L'abbaye de Cluny rayonnait sur toute la Bourgogne."
    ],

    "5. Homonymies g√©ographiques": [
        "Paris envoya un ambassadeur √† Londres.",
        "Il voyagea de Paris au Caire via Alexandrie.",
        "Le duc de Bourgogne rejoignit le duc d'Orl√©ans."  # Titres vs lieux
    ],

    "6. D√©riv√©s et adjectifs": [
        "Les Parisiens manifest√®rent contre les Versaillais.",
        "L'art florentin influen√ßa toute l'Europe.",
        "Les soldats prussiens affront√®rent les Fran√ßais."
    ],

    "7. Expressions fig√©es avec toponymes": [
        "C'est un v√©ritable ch√¢teau en Espagne.",
        "Il cherche midi √† quatorze heures √† Rome.",
        "Tous les chemins m√®nent √† Rome."
    ],

    "8. Orthographe ancienne": [
        "Le roy partit de Versailles pour Saint-Germain-en-Laye.",
        "Les navires mouill√®rent √† Venise et Constantinoble.",
        "Nostre-Dame de Paris fut achev√©e au XIIIe si√®cle."
    ]
}

## Analyse REN avec spaCy et Stanza


In [4]:
def analyser_avec_spacy(texte, modele):
    """Extrait les entit√©s g√©ographiques avec spaCy"""
    doc = modele(texte)
    entites = []

    for ent in doc.ents:
        if ent.label_ in ["LOC", "GPE"]:  # Location, Geo-Political Entity
            entites.append({
                'texte': ent.text,
                'type': ent.label_,
                'debut': ent.start_char,
                'fin': ent.end_char
            })

    return entites

def analyser_avec_stanza(texte):
    """Extrait les entit√©s g√©ographiques avec Stanza"""
    doc = nlp_stanza(texte)
    entites = []

    for sent in doc.sentences:
        for ent in sent.ents:
            if ent.type == "LOC":
                entites.append({
                    'texte': ent.text,
                    'type': ent.type,
                    'debut': ent.start_char,
                    'fin': ent.end_char
                })

    return entites

## Fonction de comparaison spaCy vs Stanza

In [5]:
def comparer_outils(texte, afficher=True):
    """Compare les r√©sultats de spaCy et Stanza sur un texte"""

    # Analyse avec les diff√©rents outils
    spacy_md = analyser_avec_spacy(texte, nlp_spacy_md)
    stanza = analyser_avec_stanza(texte)

    if nlp_spacy_lg:
        spacy_lg = analyser_avec_spacy(texte, nlp_spacy_lg)
    else:
        spacy_lg = []

    # Extraction des textes pour comparaison
    set_spacy_md = {e['texte'] for e in spacy_md}
    set_spacy_lg = {e['texte'] for e in spacy_lg} if spacy_lg else set()
    set_stanza = {e['texte'] for e in stanza}

    if afficher:
        print(f"\nTexte analys√© : {texte}\n")
        print(f"spaCy (md)  : {set_spacy_md if set_spacy_md else '‚àÖ'}")
        if nlp_spacy_lg:
            print(f"spaCy (lg)  : {set_spacy_lg if set_spacy_lg else '‚àÖ'}")
        print(f"Stanza      : {set_stanza if set_stanza else '‚àÖ'}")

        # Analyse des diff√©rences
        tous_lieux = set_spacy_md | set_spacy_lg | set_stanza

        if len(tous_lieux) > 0:
            print("\nüìä Accord entre outils :")
            for lieu in tous_lieux:
                outils = []
                if lieu in set_spacy_md:
                    outils.append("spaCy-md")
                if lieu in set_spacy_lg:
                    outils.append("spaCy-lg")
                if lieu in set_stanza:
                    outils.append("Stanza")

                accord = len(outils)
                symbole = "‚úì‚úì‚úì" if accord == 3 else "‚úì‚úì" if accord == 2 else "‚úì"
                print(f"  {symbole} '{lieu}' ‚Üí {', '.join(outils)}")

    return {
        'spacy_md': spacy_md,
        'spacy_lg': spacy_lg,
        'stanza': stanza
    }


## Analyse syst√©matique des cas difficiles

In [6]:
resultats_globaux = []

for categorie, exemples in cas_problematiques.items():
    print(f"\n{'='*70}")
    print(f"CAT√âGORIE : {categorie}")
    print(f"{'='*70}")

    for i, texte in enumerate(exemples, 1):
        print(f"\n--- Exemple {i} ---")
        resultats = comparer_outils(texte, afficher=True)

        resultats_globaux.append({
            'categorie': categorie,
            'texte': texte,
            'spacy_md_count': len(resultats['spacy_md']),
            'spacy_lg_count': len(resultats['spacy_lg']),
            'stanza_count': len(resultats['stanza']),
        })

# %% [markdown]
## 5. Statistiques comparatives

# %%
df_resultats = pd.DataFrame(resultats_globaux)

print("\n" + "="*70)
print("STATISTIQUES GLOBALES")
print("="*70)

print("\nLieux d√©tect√©s par outil :")
print(f"  spaCy (md) : {df_resultats['spacy_md_count'].mean():.2f}")
print(f"  spaCy (lg) : {df_resultats['spacy_lg_count'].mean():.2f}")
print(f"  Stanza     : {df_resultats['stanza_count'].mean():.2f}")

print("\nNombre moyen de lieux d√©tect√©s par outil :")
print(f"  spaCy (md) : {df_resultats['spacy_md_count'].mean():.2f}")
print(f"  spaCy (lg) : {df_resultats['spacy_lg_count'].mean():.2f}")
print(f"  Stanza     : {df_resultats['stanza_count'].mean():.2f}")

print("\nD√©tection par cat√©gorie :")
stats_categories = df_resultats.groupby('categorie')[['spacy_md_count', 'stanza_count']].mean()
print(stats_categories)



CAT√âGORIE : 1. Ambigu√Øt√© avec noms communs

--- Exemple 1 ---

Texte analys√© : Le roi de France convoqua les √©tats g√©n√©raux √† Versailles.

spaCy (md)  : {'Versailles'}
spaCy (lg)  : {'Versailles'}
Stanza      : {'Versailles', 'France'}

üìä Accord entre outils :
  ‚úì‚úì‚úì 'Versailles' ‚Üí spaCy-md, spaCy-lg, Stanza
  ‚úì 'France' ‚Üí Stanza

--- Exemple 2 ---

Texte analys√© : L'√âglise catholique poss√©dait des terres en Provence.

spaCy (md)  : {'Provence'}
spaCy (lg)  : {'Provence'}
Stanza      : {'Provence'}

üìä Accord entre outils :
  ‚úì‚úì‚úì 'Provence' ‚Üí spaCy-md, spaCy-lg, Stanza

--- Exemple 3 ---

Texte analys√© : Le pape r√©sidait √† Avignon au XIVe si√®cle.

spaCy (md)  : {'XIVe si√®cle', 'Avignon'}
spaCy (lg)  : {'XIVe', 'Avignon'}
Stanza      : {'Avignon'}

üìä Accord entre outils :
  ‚úì 'XIVe' ‚Üí spaCy-lg
  ‚úì 'XIVe si√®cle' ‚Üí spaCy-md
  ‚úì‚úì‚úì 'Avignon' ‚Üí spaCy-md, spaCy-lg, Stanza

CAT√âGORIE : 2. Noms historiques vs modernes

--- Exemple 1 

## Probl√®mes sp√©cifiques et solutions


1Ô∏è‚É£  FAUX N√âGATIFS (lieux non d√©tect√©s)
   Causes :
   - Orthographe ancienne : "Nostre-Dame", "Constantinoble"
   - Micro-toponymie : rues, quartiers, petits villages
   - Noms compos√©s mal segment√©s
   
   Solutions :
   ‚úì Pr√©-traitement : normalisation orthographique
   ‚úì Dictionnaires personnalis√©s de gazetteer
   ‚úì R√®gles bas√©es sur les motifs (regex)
   ‚úì Fine-tuning des mod√®les sur corpus historique

2Ô∏è‚É£  FAUX POSITIFS (non-lieux d√©tect√©s)
   Causes :
   - Noms communs : "√âglise", "France" (dans "roi de France")
   - Titres nobiliaires : "duc d'Orl√©ans"
   - Expressions fig√©es : "ch√¢teau en Espagne"
   
   Solutions :
   ‚úì Post-traitement avec listes de stop-words
   ‚úì Analyse syntaxique (d√©pendances)
   ‚úì V√©rification contextuelle (POS-tagging)
   ‚úì Filtrage par base de donn√©es g√©ographique

3Ô∏è‚É£  AMBIGU√èT√â R√âF√âRENTIELLE
   Causes :
   - Homonymies : Paris (France/Texas), Orl√©ans (lieu/titre)
   - Variation temporelle : Constantinople/Istanbul
   
   Solutions :
   ‚úì D√©sambigu√Øsation par contexte
   ‚úì Bases de donn√©es historiques (Pleiades, GeoNames Historical)
   ‚úì Fen√™tre contextuelle √©largie
   ‚úì Heuristiques g√©ographiques (proximit√©)

4Ô∏è‚É£  GENTIL√âS ET D√âRIV√âS
   Causes :
   - "Parisiens", "florentin", "prussiens" non reconnus comme lieux
   
   Solutions :
   ‚úì Lemmatisation : Parisiens ‚Üí Paris
   ‚úì Table de correspondance gentil√©s/lieux
   ‚úì Expansion du mod√®le NER

5Ô∏è‚É£  PERFORMANCE DES OUTILS
   Observations :
   - spaCy (lg) > spaCy (md) en pr√©cision mais plus lent
   - Stanza parfois plus conservateur (moins de faux positifs)
   - Aucun outil parfait : compl√©mentarit√© n√©cessaire
   
   Solutions :
   ‚úì Approche ensembliste (vote/intersection)
   ‚úì Validation manuelle sur √©chantillon
   ‚úì Cr√©ation de gold standard pour √©valuation

## Am√©lioration avec des r√®gles personnalis√©es (spaCy)


In [7]:
from spacy.matcher import Matcher
from spacy.tokens import Span

# Cr√©ation d'un matcher pour patterns sp√©cifiques
matcher = Matcher(nlp_spacy_md.vocab)

# Pattern 1 : "rue de/du/des [Nom]"
pattern_rue = [
    {"LOWER": "rue"},
    {"LOWER": {"IN": ["de", "du", "des", "de la"]}},
    {"POS": {"IN": ["PROPN", "NOUN"]}, "OP": "+"}
]

# Pattern 2 : "abbaye de [Lieu]"
pattern_abbaye = [
    {"LOWER": {"IN": ["abbaye", "monast√®re", "couvent"]}},
    {"LOWER": {"IN": ["de", "du", "d'"]}},
    {"POS": "PROPN", "OP": "+"}
]

# Pattern 3 : "[Adj] + ien/ais/ois" (gentil√©s)
# Note : pattern simple, n√©cessite am√©lioration
pattern_gentile = [
    {"TEXT": {"REGEX": "^[A-Z][a-z]+iens?$|^[A-Z][a-z]+ais$|^[A-Z][a-z]+ois$"}}
]

matcher.add("RUE", [pattern_rue])
matcher.add("ABBAYE", [pattern_abbaye])
matcher.add("GENTILE", [pattern_gentile])

def extraire_avec_regles(texte):
    """Extraction combinant NER standard et r√®gles personnalis√©es"""
    doc = nlp_spacy_md(texte)

    # Entit√©s NER standard
    entites_ner = [(ent.text, ent.label_, "NER") for ent in doc.ents
                    if ent.label_ in ["LOC", "GPE"]]

    # Entit√©s via patterns
    matches = matcher(doc)
    entites_rules = []

    for match_id, start, end in matches:
        span = doc[start:end]
        rule_name = nlp_spacy_md.vocab.strings[match_id]
        entites_rules.append((span.text, rule_name, "RULE"))

    return entites_ner, entites_rules

# Test sur exemples probl√©matiques
textes_test = [
    "Il habitait rue de la Paix dans le quartier du Marais.",
    "L'abbaye de Cluny rayonnait sur toute la Bourgogne.",
    "Les Parisiens manifest√®rent contre les Versaillais."
]

print("\nüîß Test avec r√®gles personnalis√©es :\n")
for texte in textes_test:
    print(f"Texte : {texte}")
    ner, rules = extraire_avec_regles(texte)

    print(f"  NER standard : {[e[0] for e in ner]}")
    print(f"  R√®gles       : {[(e[0], e[1]) for e in rules]}")
    print()



üîß Test avec r√®gles personnalis√©es :

Texte : Il habitait rue de la Paix dans le quartier du Marais.
  NER standard : ['rue de la Paix', 'Marais']
  R√®gles       : [('Marais', 'GENTILE')]

Texte : L'abbaye de Cluny rayonnait sur toute la Bourgogne.
  NER standard : ['abbaye de Cluny', 'Bourgogne']
  R√®gles       : [('abbaye de Cluny', 'ABBAYE')]

Texte : Les Parisiens manifest√®rent contre les Versaillais.
  NER standard : ['Parisiens', 'Versaillais']
  R√®gles       : [('Parisiens', 'GENTILE'), ('Versaillais', 'GENTILE')]




## Pipeline complet avec validation


In [8]:
def pipeline_geoparsing_robuste(texte, seuil_confiance=2):
    """
    Pipeline complet de geoparsing avec vote entre outils

    Args:
        texte: texte √† analyser
        seuil_confiance: nombre minimum d'outils devant d√©tecter un lieu

    Returns:
        liste de lieux avec score de confiance
    """

    # √âtape 1 : Extraction avec tous les outils
    spacy_md = analyser_avec_spacy(texte, nlp_spacy_md)
    stanza = analyser_avec_stanza(texte)

    if nlp_spacy_lg:
        spacy_lg = analyser_avec_spacy(texte, nlp_spacy_lg)
    else:
        spacy_lg = []

    # √âtape 2 : Comptage des votes
    compteur_votes = defaultdict(lambda: {'count': 0, 'sources': []})

    for lieu in spacy_md:
        compteur_votes[lieu['texte']]['count'] += 1
        compteur_votes[lieu['texte']]['sources'].append('spaCy-md')

    for lieu in spacy_lg:
        if lieu['texte'] not in [l['texte'] for l in spacy_md]:  # √âviter double comptage
            compteur_votes[lieu['texte']]['count'] += 1
        compteur_votes[lieu['texte']]['sources'].append('spaCy-lg')

    for lieu in stanza:
        compteur_votes[lieu['texte']]['count'] += 1
        compteur_votes[lieu['texte']]['sources'].append('Stanza')

    # √âtape 3 : Filtrage par confiance
    lieux_valides = []

    for lieu, info in compteur_votes.items():
        if info['count'] >= seuil_confiance:
            lieux_valides.append({
                'lieu': lieu,
                'confiance': info['count'],
                'sources': info['sources']
            })

    # Tri par confiance d√©croissante
    lieux_valides.sort(key=lambda x: x['confiance'], reverse=True)

    return lieux_valides

# Test du pipeline
print("="*70)
print("PIPELINE COMPLET AVEC VOTE ENSEMBLISTE")
print("="*70)

texte_complexe = """
En 1804, Napol√©on Bonaparte fut sacr√© empereur √† Notre-Dame de Paris.
Ses arm√©es conquirent Vienne, Berlin et Moscou. Les Parisiens c√©l√©br√®rent
ses victoires, tandis que les cours europ√©ennes tremblaient. Le trait√© de
Tilsit fut sign√© entre la France et la Russie sur un radeau au milieu du Ni√©men.
"""

print(f"\nTexte : {texte_complexe}\n")

resultats_pipeline = pipeline_geoparsing_robuste(texte_complexe, seuil_confiance=2)

print("Lieux d√©tect√©s avec haute confiance :\n")
for res in resultats_pipeline:
    etoiles = "‚≠ê" * res['confiance']
    print(f"{etoiles} {res['lieu']}")
    print(f"   Confiance : {res['confiance']}/3 outils")
    print(f"   Sources : {', '.join(res['sources'])}\n")

PIPELINE COMPLET AVEC VOTE ENSEMBLISTE

Texte : 
En 1804, Napol√©on Bonaparte fut sacr√© empereur √† Notre-Dame de Paris.
Ses arm√©es conquirent Vienne, Berlin et Moscou. Les Parisiens c√©l√©br√®rent
ses victoires, tandis que les cours europ√©ennes tremblaient. Le trait√© de
Tilsit fut sign√© entre la France et la Russie sur un radeau au milieu du Ni√©men.


Lieux d√©tect√©s avec haute confiance :

‚≠ê‚≠ê Notre-Dame de Paris
   Confiance : 2/3 outils
   Sources : spaCy-md, spaCy-lg, Stanza

‚≠ê‚≠ê Vienne
   Confiance : 2/3 outils
   Sources : spaCy-md, spaCy-lg, Stanza

‚≠ê‚≠ê Berlin
   Confiance : 2/3 outils
   Sources : spaCy-md, spaCy-lg, Stanza

‚≠ê‚≠ê Moscou
   Confiance : 2/3 outils
   Sources : spaCy-md, spaCy-lg, Stanza

‚≠ê‚≠ê France
   Confiance : 2/3 outils
   Sources : spaCy-md, Stanza

‚≠ê‚≠ê Russie
   Confiance : 2/3 outils
   Sources : spaCy-md, spaCy-lg, Stanza

‚≠ê‚≠ê Ni√©men
   Confiance : 2/3 outils
   Sources : spaCy-md, Stanza



# Usages du NER pour le projet ANR TopUrbi

Werner Stangl, Carmen Brando. TopUrbi and Alcedo's Dictionary: what methods and impasses in the textual and cartographic work of interpreting a historical source?. Colloque Repr√©sentations et r√©alit√©s de l‚ÄôAm√©rique apr√®s 300 ans de colonisation : le dictionnaire des Indes d‚ÄôAlcedo, Framespa (UMR 5136); EHESS-CNRS CRH (UMR 8558), Nov 2025, Toulouse, France. ‚ü®hal-05367622‚ü©

# Exemple : ANALYSE D'UN CORPUS HISTORIQUE


In [9]:
# Corpus d'exemple : extraits de textes historiques fran√ßais
corpus_historique = [
    """Le 14 juillet 1789, la Bastille fut prise par le peuple de Paris.
    Les insurg√©s march√®rent depuis le faubourg Saint-Antoine jusqu'√† la forteresse.""",

    """Napol√©on quitta l'√Æle d'Elbe en f√©vrier 1815 et d√©barqua √† Golfe-Juan.
    Il remonta vers Paris en passant par Grenoble et Lyon.""",

    """Jeanne d'Arc naquit √† Domr√©my en Lorraine. Elle lib√©ra Orl√©ans en 1429
    avant de faire couronner Charles VII √† Reims.""",

    """Le trait√© de Verdun en 843 divisa l'empire carolingien entre les trois
    petits-fils de Charlemagne. La Francie occidentale s'√©tendait de la Bretagne
    jusqu'√† la Bourgogne.""",

    """Les cath√©drales gothiques fleurirent en √éle-de-France : Notre-Dame de Paris,
    Notre-Dame de Chartres, la cath√©drale de Reims et celle d'Amiens."""
]

In [10]:
def analyser_corpus_exercice1(corpus):
    """
    Fonction de d√©part pour analyser un corpus avec les deux outils
    """

    resultats_analyse = {
        'textes': [],
        'comparaisons': []
    }

    print("\nüîç Analyse du corpus...\n")

    for i, texte in enumerate(corpus, 1):
        print(f"--- Texte {i} ---")
        print(f"{texte[:80]}...")

        # Extraction avec spaCy
        lieux_spacy = analyser_avec_spacy(texte, nlp_spacy_md)
        lieux_spacy_set = {lieu['texte'] for lieu in lieux_spacy}

        # Extraction avec Stanza
        lieux_stanza = analyser_avec_stanza(texte)
        lieux_stanza_set = {lieu['texte'] for lieu in lieux_stanza}

        # Affichage des r√©sultats
        print(f"  spaCy  : {lieux_spacy_set if lieux_spacy_set else '‚àÖ'}")
        print(f"  Stanza : {lieux_stanza_set if lieux_stanza_set else '‚àÖ'}")

        # Calcul des m√©triques de base
        accord = lieux_spacy_set & lieux_stanza_set
        desaccord_spacy = lieux_spacy_set - lieux_stanza_set
        desaccord_stanza = lieux_stanza_set - lieux_spacy_set

        if accord:
            print(f"  ‚úì Accord : {accord}")
        if desaccord_spacy:
            print(f"  ‚ö† Seulement spaCy : {desaccord_spacy}")
        if desaccord_stanza:
            print(f"  ‚ö† Seulement Stanza : {desaccord_stanza}")

        print()

        # Stockage pour analyse ult√©rieure
        resultats_analyse['textes'].append({
            'texte': texte,
            'spacy': lieux_spacy_set,
            'stanza': lieux_stanza_set,
            'accord': accord,
            'total_lieux': len(lieux_spacy_set | lieux_stanza_set)
        })

    return resultats_analyse

# Lancement de l'analyse
resultats_ex1 = analyser_corpus_exercice1(corpus_historique)


üîç Analyse du corpus...

--- Texte 1 ---
Le 14 juillet 1789, la Bastille fut prise par le peuple de Paris.
    Les insurg...
  spaCy  : {'Paris', 'la Bastille', 'Saint-Antoine'}
  Stanza : {'faubourg Saint-Antoine', 'Paris', 'Bastille'}
  ‚úì Accord : {'Paris'}
  ‚ö† Seulement spaCy : {'la Bastille', 'Saint-Antoine'}
  ‚ö† Seulement Stanza : {'faubourg Saint-Antoine', 'Bastille'}

--- Texte 2 ---
Napol√©on quitta l'√Æle d'Elbe en f√©vrier 1815 et d√©barqua √† Golfe-Juan.
    Il re...
  spaCy  : {'Golfe-Juan', 'Grenoble', "√Æle d'Elbe", 'Paris', 'Lyon'}
  Stanza : {'Golfe-Juan', 'Grenoble', "√Æle d'Elbe", 'Paris', 'Lyon'}
  ‚úì Accord : {'Golfe-Juan', 'Grenoble', "√Æle d'Elbe", 'Paris', 'Lyon'}

--- Texte 3 ---
Jeanne d'Arc naquit √† Domr√©my en Lorraine. Elle lib√©ra Orl√©ans en 1429
    avant...
  spaCy  : {'Reims', 'Lorraine', 'Orl√©ans'}
  Stanza : {'Domr√©my', 'Reims', 'Lorraine', 'Orl√©ans'}
  ‚úì Accord : {'Orl√©ans', 'Lorraine', 'Reims'}
  ‚ö† Seulement Stanza : {'Domr√©my'}


## STATISTIQUES GLOBALES

In [11]:
print("\n" + "="*80)
print("üìä STATISTIQUES GLOBALES")
print("="*80)

# Calculer le nombre total de lieux d√©tect√©s par chaque outil
total_spacy = sum(len(r['spacy']) for r in resultats_ex1['textes'])
total_stanza = sum(len(r['stanza']) for r in resultats_ex1['textes'])

print(f"\nTotal lieux d√©tect√©s :")
print(f"  spaCy  : {total_spacy}")
print(f"  Stanza : {total_stanza}")

# Calculer le taux d'accord entre les outils
total_accord = sum(len(r['accord']) for r in resultats_ex1['textes'])
total_unique = sum(r['total_lieux'] for r in resultats_ex1['textes'])

if total_unique > 0:
    taux_accord = (total_accord / total_unique) * 100
    print(f"\nTaux d'accord : {taux_accord:.1f}%")
    print(f"  Lieux en accord : {total_accord}/{total_unique}")


üìä STATISTIQUES GLOBALES

Total lieux d√©tect√©s :
  spaCy  : 17
  Stanza : 20

Taux d'accord : 60.9%
  Lieux en accord : 14/23


# Identifier les patterns d'erreurs / QUESTIONS √Ä EXPLORER :

1. Quels types de lieux sont syst√©matiquement manqu√©s par les deux outils ?
   ‚Üí Indices : regardez les micro-toponymes, les noms compos√©s...

2. Y a-t-il des faux positifs r√©currents ?
   ‚Üí Indices : noms communs, expressions fig√©es...

3. Quel outil semble plus pr√©cis ? Plus exhaustif ?
   ‚Üí Pr√©cision = peu de faux positifs
   ‚Üí Rappel = peu de faux n√©gatifs

4. Comment am√©liorer la d√©tection ?
   ‚Üí Pistes : r√®gles personnalis√©es, dictionnaires, post-traitement...


## Cr√©er une v√©rit√© terrain (gold standard) - A COMPLETER

In [12]:
# Annoter manuellement les vrais lieux
# Exemple pour le premier texte :

verite_terrain_exemple = { # A completer
    0: {'Paris', 'Bastille', 'faubourg Saint-Antoine'},  # Texte 1
    1: {'Elbe', 'Golfe-Juan', 'Paris', 'Grenoble', 'Lyon'},  # Texte 2
    2: {'Domr√©my', 'Lorraine'},  # Texte 3
    3: {'Verdun', 'Bretagne', 'Bourgogne'},  # Texte 4
    4: {},  # Texte 5 TODO : √† completer
}

def calculer_metriques(predictions, verite_terrain):
    """
    Calcule pr√©cision, rappel et F1-score

    Args:
        predictions: set de lieux pr√©dits
        verite_terrain: set de vrais lieux

    Returns:
        dict avec precision, rappel, f1
    """
    if not predictions and not verite_terrain:
        return {'precision': 1.0, 'rappel': 1.0, 'f1': 1.0,
                'vrais_positifs': 0, 'faux_positifs': 0, 'faux_negatifs': 0}

    if not predictions:
        return {'precision': 0.0, 'rappel': 0.0, 'f1': 0.0,
                'vrais_positifs': 0, 'faux_positifs': 0, 'faux_negatifs': len(verite_terrain)}

    if not verite_terrain:
        return {'precision': 0.0, 'rappel': 1.0, 'f1': 0.0,
                'vrais_positifs': 0, 'faux_positifs': len(predictions), 'faux_negatifs': 0}

    vrais_positifs = len(predictions & verite_terrain)
    faux_positifs = len(predictions - verite_terrain)
    faux_negatifs = len(verite_terrain - predictions)

    precision = vrais_positifs / (vrais_positifs + faux_positifs) if (vrais_positifs + faux_positifs) > 0 else 0
    rappel = vrais_positifs / (vrais_positifs + faux_negatifs) if (vrais_positifs + faux_negatifs) > 0 else 0
    f1 = 2 * (precision * rappel) / (precision + rappel) if (precision + rappel) > 0 else 0

    return {
        'precision': precision,
        'rappel': rappel,
        'f1': f1,
        'vrais_positifs': vrais_positifs,
        'faux_positifs': faux_positifs,
        'faux_negatifs': faux_negatifs
    }

# √âvaluation quantitative avec la v√©rit√© terrain
print("\n" + "="*80)
print("üìà √âVALUATION QUANTITATIVE")
print("="*80)

# Initialisation des totaux
total_metriques_spacy = {'precision': [], 'rappel': [], 'f1': []}
total_metriques_stanza = {'precision': [], 'rappel': [], 'f1': []}

for i, resultat in enumerate(resultats_ex1['textes']):
    if i in verite_terrain_exemple:
        vt = verite_terrain_exemple[i]

        metriques_spacy = calculer_metriques(resultat['spacy'], vt)
        metriques_stanza = calculer_metriques(resultat['stanza'], vt)

        # Stockage pour moyenne globale
        total_metriques_spacy['precision'].append(metriques_spacy['precision'])
        total_metriques_spacy['rappel'].append(metriques_spacy['rappel'])
        total_metriques_spacy['f1'].append(metriques_spacy['f1'])

        total_metriques_stanza['precision'].append(metriques_stanza['precision'])
        total_metriques_stanza['rappel'].append(metriques_stanza['rappel'])
        total_metriques_stanza['f1'].append(metriques_stanza['f1'])

        print(f"\nüìÑ Texte {i+1}:")
        print(f"  V√©rit√© terrain : {vt}")
        print(f"\n  spaCy:")
        print(f"    Pr√©dictions : {resultat['spacy']}")
        print(f"    Pr√©cision : {metriques_spacy['precision']:.2f}")
        print(f"    Rappel    : {metriques_spacy['rappel']:.2f}")
        print(f"    F1-score  : {metriques_spacy['f1']:.2f}")
        print(f"    VP={metriques_spacy['vrais_positifs']}, FP={metriques_spacy['faux_positifs']}, FN={metriques_spacy['faux_negatifs']}")

        print(f"\n  Stanza:")
        print(f"    Pr√©dictions : {resultat['stanza']}")
        print(f"    Pr√©cision : {metriques_stanza['precision']:.2f}")
        print(f"    Rappel    : {metriques_stanza['rappel']:.2f}")
        print(f"    F1-score  : {metriques_stanza['f1']:.2f}")
        print(f"    VP={metriques_stanza['vrais_positifs']}, FP={metriques_stanza['faux_positifs']}, FN={metriques_stanza['faux_negatifs']}")

# Moyennes globales
print("\n" + "="*80)
print("üìä MOYENNES GLOBALES")
print("="*80)

if total_metriques_spacy['precision']:
    print("\nspaCy:")
    print(f"  Pr√©cision moyenne : {sum(total_metriques_spacy['precision'])/len(total_metriques_spacy['precision']):.2f}")
    print(f"  Rappel moyen      : {sum(total_metriques_spacy['rappel'])/len(total_metriques_spacy['rappel']):.2f}")
    print(f"  F1-score moyen    : {sum(total_metriques_spacy['f1'])/len(total_metriques_spacy['f1']):.2f}")

    print("\nStanza:")
    print(f"  Pr√©cision moyenne : {sum(total_metriques_stanza['precision'])/len(total_metriques_stanza['precision']):.2f}")
    print(f"  Rappel moyen      : {sum(total_metriques_stanza['rappel'])/len(total_metriques_stanza['rappel']):.2f}")
    print(f"  F1-score moyen    : {sum(total_metriques_stanza['f1'])/len(total_metriques_stanza['f1']):.2f}")


üìà √âVALUATION QUANTITATIVE

üìÑ Texte 1:
  V√©rit√© terrain : {'faubourg Saint-Antoine', 'Paris', 'Bastille'}

  spaCy:
    Pr√©dictions : {'Paris', 'la Bastille', 'Saint-Antoine'}
    Pr√©cision : 0.33
    Rappel    : 0.33
    F1-score  : 0.33
    VP=1, FP=2, FN=2

  Stanza:
    Pr√©dictions : {'faubourg Saint-Antoine', 'Paris', 'Bastille'}
    Pr√©cision : 1.00
    Rappel    : 1.00
    F1-score  : 1.00
    VP=3, FP=0, FN=0

üìÑ Texte 2:
  V√©rit√© terrain : {'Elbe', 'Golfe-Juan', 'Grenoble', 'Paris', 'Lyon'}

  spaCy:
    Pr√©dictions : {'Golfe-Juan', 'Grenoble', "√Æle d'Elbe", 'Paris', 'Lyon'}
    Pr√©cision : 0.80
    Rappel    : 0.80
    F1-score  : 0.80
    VP=4, FP=1, FN=1

  Stanza:
    Pr√©dictions : {'Golfe-Juan', 'Grenoble', "√Æle d'Elbe", 'Paris', 'Lyon'}
    Pr√©cision : 0.80
    Rappel    : 0.80
    F1-score  : 0.80
    VP=4, FP=1, FN=1

üìÑ Texte 3:
  V√©rit√© terrain : {'Domr√©my', 'Lorraine'}

  spaCy:
    Pr√©dictions : {'Reims', 'Lorraine', 'Orl√©ans'}
    Pr√

# Liens utiles

üìö Documentation :
   - spaCy : https://spacy.io/usage/linguistic-features#named-entities
   - Stanza : https://stanfordnlp.github.io/stanza/
   - Prodigy : outil d'annotation (payant mais efficace)
   - PERDIDO : Geo NER, https://github.com/ludovicmoncla/perdido

üó∫Ô∏è Bases de donn√©es g√©ographiques :
   - GeoNames : http://www.geonames.org/
   - Pleiades : https://pleiades.stoa.org/ (Antiquit√©)
   - Getty TGN : http://www.getty.edu/research/tools/vocabularies/tgn/

üìä Datasets pour l'√©valuation :
   - CoNLL-2003 (anglais)
   - WikiNER (multilingue)
   - Quaero (fran√ßais, incluant lieux)
