Reconnaissance d'Entités Nommées sur un texte rédigé en langue française à l'aide de la librairie polyglot.
https://polyglot.readthedocs.io/en/latest/index.html


Téléchargement des librairies non disponibles sur Google Colaboratory

In [59]:
!pip install polyglot
!pip install PyICU
!pip install pycld2
!pip install morfessor



Téléchargement des éléments du modèle français.

In [60]:
!polyglot download embeddings2.fr ner2.fr

[polyglot_data] Downloading package embeddings2.fr to
[polyglot_data]     /root/polyglot_data...
[polyglot_data]   Package embeddings2.fr is already up-to-date!
[polyglot_data] Downloading package ner2.fr to /root/polyglot_data...
[polyglot_data]   Package ner2.fr is already up-to-date!


In [0]:
from polyglot.text import Text
from bs4 import BeautifulSoup
import requests
import re

Définition d'une fonction url_to_string qui récupère le contenu d'une page Web à partir de son url:

In [0]:
def url_to_string(url):
    res = requests.get(url)
    html = res.text
    soup = BeautifulSoup(html, 'html5lib')
    for script in soup(["script", "style", 'aside']):
        script.extract()
    return " ".join(re.split(r'[\n\t]+', soup.get_text()))

J'effectue des essais sur le texte du Comte de Monte Cristo (A. Dumas). 
Le site où je récupère le texte ne comporte pas de balises pour délimiter la partie qui m'intéresse, donc j'utilise des champs spécifiques pour ne conserver que le texte du livre.

In [0]:
url = "http://textes.libres.free.fr/francais/alexandre-dumas-pere_le-comte-de-monte-cristo-tome-i.htm"

page_content = url_to_string(url)

start_phrase = r'TEXTE INTÉGRAL'
end_phrase = r'FIN DU TOME'
start = next(re.finditer(start_phrase, page_content)).end() + 1
end = next(re.finditer(end_phrase, page_content)).start()

In [0]:
texte = page_content[start:end]

On utilise donc la librairie polyglot pour identifier les entités, et plus précisément la classe Text.
On commence par imprimer les entités trouvées dans le texte:

In [65]:
# Create a new text object using Polyglot's Text class: txt
txt = Text(texte)

# Print each of the entities found
for ent in txt.entities:
    print(ent)

['Marseille']
['Notre']
['Smyrne']
['Trieste']
['Naples']
['côtier']
['Rion']
['Marseille']
['Phocée']
['Calasareigne']
['Jaros']
['beaupré']
['beaupré', 'décrochés']
['Marseille']
['Saint', '-', 'Jean']
['Réserve']
['Dantès']
['Morrel', '!']
['Civita', '-', 'Vecchia']
['Leclère']
['Morrel']
['Leclère']
['Leclère']
['Naples']
['Giglio']
['Edmond']
['Est']
['Morrel']
['Morrel']
['Dantès']
["l'impatience"]
['.', 'Danglars']
['Dantès']
["qu'Edmond", 'Dantès']
['monsieur', 'Morrel']
['Leclère']
['Danglars']
['Dantès']
['Edmond']
['Oui']
['Dantès']
["d'Elbe"]
['Marseille']
["d'Elbe"]
['.']
['Morrel']
['Dantès']
['Dantès']
['Dantès']
['monsieur', 'Morrel', '.']
['Danglars']
['monsieur', 'Morrel']
['Dantès']
['Danglars']
["d'Elbe"]
['Leclère']
['Bertrand']
['Edmond', '?']
['?']
['Morrel']
['Dantès']
["C'est", '-']
['Dantès']
['Marseille']
['Valence']
['Policar', 'Morrel']
['Dantès']
['Dantès']
['Leclère']
["d'Elbe"]
['Dantès']
['Dantès']
['Dantès']
['Danglars']
['Porto', '-', 'Ferrajo']
['Dan

In [66]:
# Print the type of ent
print(type(ent))

<class 'polyglot.text.Chunk'>


Je crée une liste de tuples de la forme( type d'entité, entité du texte)

In [67]:
# Create the list of tuples: entities
entities = [(ent.tag, ' '.join(ent)) for ent in txt.entities]

# Print entities
print(entities)

[('I-PER', 'Marseille'), ('I-LOC', 'Notre'), ('I-LOC', 'Smyrne'), ('I-LOC', 'Trieste'), ('I-LOC', 'Naples'), ('I-LOC', 'côtier'), ('I-LOC', 'Rion'), ('I-LOC', 'Marseille'), ('I-LOC', 'Phocée'), ('I-LOC', 'Calasareigne'), ('I-LOC', 'Jaros'), ('I-PER', 'beaupré'), ('I-LOC', 'beaupré décrochés'), ('I-LOC', 'Marseille'), ('I-LOC', 'Saint - Jean'), ('I-ORG', 'Réserve'), ('I-PER', 'Dantès'), ('I-PER', 'Morrel !'), ('I-LOC', 'Civita - Vecchia'), ('I-PER', 'Leclère'), ('I-PER', 'Morrel'), ('I-PER', 'Leclère'), ('I-PER', 'Leclère'), ('I-LOC', 'Naples'), ('I-LOC', 'Giglio'), ('I-PER', 'Edmond'), ('I-LOC', 'Est'), ('I-PER', 'Morrel'), ('I-PER', 'Morrel'), ('I-PER', 'Dantès'), ('I-PER', "l'impatience"), ('I-PER', '. Danglars'), ('I-PER', 'Dantès'), ('I-PER', "qu'Edmond Dantès"), ('I-PER', 'monsieur Morrel'), ('I-PER', 'Leclère'), ('I-PER', 'Danglars'), ('I-PER', 'Dantès'), ('I-PER', 'Edmond'), ('I-LOC', 'Oui'), ('I-PER', 'Dantès'), ('I-LOC', "d'Elbe"), ('I-LOC', 'Marseille'), ('I-LOC', "d'Elbe"), 