du 20/04/2023 au 25/04/2022     
notebook 8   
objectif : faire une synthèse des observations sur l'entity linker de Spacy   

# Test du sytème d'entity linking de Spacy

Nous définissons deux fonctions, une avec le modèle de langue anglais "en_core_web_md", l'autre avec le modèle de langue français "fr_core_news_lg". 

In [2]:
import spacy  # version 3.5
# initialize language model

In [3]:
def read (texte):
    nlp = spacy.load("en_core_web_md")
# add pipeline (declared through entry_points in setup.py)
    nlp.add_pipe("entityLinker", last=True)
    doc = nlp(texte)
# returns all entities in the whole document
    all_linked_entities = doc._.linkedEntities
# iterates over sentences and prints linked entities
    for sent in doc.sents:
        sent._.linkedEntities.pretty_print()

In [4]:
def lire (texte):
    nlp = spacy.load("fr_core_news_lg")
# add pipeline (declared through entry_points in setup.py)
    nlp.add_pipe("entityLinker", last=True)
    doc = nlp(texte)
# returns all entities in the whole document
    all_linked_entities = doc._.linkedEntities
# iterates over sentences and prints linked entities
    for sent in doc.sents:
        sent._.linkedEntities.pretty_print()

## Exemple par défaut

Bien sûr, l'exemple par défaut fonctionne. 

In [5]:
read("I watched the Pirates of the Caribbean last silvester")

<EntityElement: https://www.wikidata.org/wiki/Q194318 Pirates of the Caribbean  Series of fantasy adventure films                 >
<EntityElement: https://www.wikidata.org/wiki/Q12525597 Silvester                 the day celebrated on 31 December (Roman Catholic Church) or 2 January (Eastern Orthodox Churches)>


## Napoléon fait des problèmes

In [6]:
lire("Napoléon Bonaparte a envahit la Russie en 1812")

<EntityElement: https://www.wikidata.org/wiki/Q1632158 Napoléon                  1927 film by Abel Gance                           >
<EntityElement: https://www.wikidata.org/wiki/Q157521 Charles Lucien Bonaparte  French biologist                                  >


Cette exemple apparait surprenant. En premier lieu, "Napoléon Bonaparte" n'est pas envisagé comme un nom complet. Visiblement, le programme semble envisager les entités au token sans prendre en compte les unités de sens. De manière plus surprenante encore, ni "Napoléon", ni "Bonaparte" n'est reconnu comme faisant référence au personnage historique Napoléon Bonaparte, empereur des français. Les entités trouvées font référence à des éléments peu connus et statistiquement peu probables : un film d'Abel Gance et un biologiste français bien moins célébre que son oncle. La réponse est d'autant plus surprenante que "Napoléon", "French military leader, French Emperor 1804–1814 and again in 1815" apparait en premier lors de la recherche de "Napoléon" sur wikisource. D'autres entités nommées comme "Russie" ou "1812" alors qu'elles sont présentes dans la base wikisource, ne sont pas reconnues. Les performances du système de reconnaissance d'entité nommée semblent donc faibles dans cette configuration. On peut donc s'interroger s'il s'agit de celui originellement implémenté par SpaCy. Nous défissons donc deux fonctions l'une `REN ()` avec le modèle de langue francais "fr_core_news_lg", l'autre `NER()` avec le modèle anglais "en_core_web_md". 

In [7]:
def REN(texte):
    nlp = spacy.load("fr_core_news_lg")
    doc = nlp(texte)
    for ent in doc.ents:
        print(ent.text, ent.label_)

In [8]:
def NER(texte): 
    nlp = spacy.load("en_core_web_md")
    doc = nlp(texte)
    for ent in doc.ents:
        print(ent.text, ent.label_)

In [9]:
NER("Napoléon Bonaparte a envahit la Russie en 1812")

Napoléon Bonaparte PERSON
Russie GPE
1812 DATE


In [13]:
REN("Napoléon Bonaparte a envahit la Russie en 1812")

Napoléon Bonaparte PER
Russie LOC


Nous constatons que les entités reconnues par le système de reconnaissance des entités nommées de SpaCy, ne sont pas les mêmes que celles reconnues par l'entity linker. Il apparait donc que l'entity linker n'emploit pas la reconnaissance d'entité nommée originellement implémentée dans SpaCy. Nous observons aussi que "Napoléon Bonaparte" est bien reconnu comme "PERSON". Il faut toutefois noter une différence entre le modèle français et le modèle anglais : la date "1812" est reconnue par la fonction `NER()` et non par `REN()`. 

In [15]:
read ("Napoléon Bonaparte a envahit la Russie en 1812")

<EntityElement: https://www.wikidata.org/wiki/Q517 Napoleon                  French general, First Consul and later Emperor of the French>
<EntityElement: https://www.wikidata.org/wiki/Q397 Latin                     almost extinct Indo-European language of the Italic family>


Il pourrait sembler au vu des observations précédentes que le modèle de langue défini n'ait pas d'importance puisque l'entity linker semble fonctionner avec son propre modèle de reconnaissance des entités nommées. Pourtant, la fonction `read()` où le modèle de langue "en_core_web_md" est implémentée, apparait plus performante que `lire()`.    
Avec la fonction `read()`, "Napoléon Bonaparte" est associé au bon identifiant. 
Cependant, on obtient également le terme "Latin" issu certainement d'une surcorrection du mot "envahit". 

Si par ailleurs, nous appliquons la fonction `read()`, à la même phrase traduite en anglais. "Napoleon Bonaparte" et "Russia" sont correctement reconnus mais "1812" n'est pas identifié. 

In [16]:
read("Napoléon Bonaparte invaded Russia in 1812")

<EntityElement: https://www.wikidata.org/wiki/Q517 Napoleon                  French general, First Consul and later Emperor of the French>
<EntityElement: https://www.wikidata.org/wiki/Q159 Russia                    transcontinental country in Eastern Europe and Northern Asia>


Nous pouvons donc en conclure, que le système d'entity linking semble être pensé pour la langue anglais et ne fonctionner efficacement que pour cette langue. On remarque également que le modèle de langue a son importance. Ainsi, le modèle français semble bien moins efficace, même sur un texte en français que le modèle anglais. Ceci s'explique simplement par une réponse à une question sur le multilinguisme du concepteur du dataset, Gabriel Altay :  

"Wikidata (the knowledge graph) is semi language agnostic. In other words, there is one entry for "Earth" that links to the various language Wikipedias (encyclopedias). This dataset links English Wikipedia page text and links to Wikidata. Something similar could be done for Chinese Wikipedia, but it has not been done for this dataset." 
https://www.kaggle.com/datasets/kenshoresearch/kensho-derived-wikimedia-data/discussion/342001

De plus, il semble que l'algorithme ait recours à une correction automatique. En effet, les termes reconnus souvent ne figurent pas dans le corpus même sous un forme bruitée : "Aurora". L'algorithme a sûrement fait le rapprochement en corrigeant une forme contaminée. En recherchant dans le corpus, on ne parvient pas à trouver la forme à l'origine de cette surcorrection. 

Emily Bender tout est pensé pour anglais
François Rastier, base de connaissance ne peut pas figier les éléments et caractéristiques sans tenir 
Crédit et cash pas le 
Pas maintenu pas performant, pas 

En chargeant l'entity liker, il apparait impossible de paramétrer la langue.