# Reconnaître les entités nommées
## Exemple d'utilisation d'un modèle NER

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/pjox/tutoriel-ner-philologie-computationnelle/blob/master/exemple_ner.ipynb)

In [None]:
# Nous commençons par importer les bibliothèques nécessaires et par télécharger les fichiers d'entraînement et de test.
! pip install flair gdown
! mkdir -p resources/taggers/
! gdown https://drive.google.com/uc\?id\=1PkjNJ-D6r7YEmAP6BmCw-3_RObmtnNEb
! unzip ner-transformer-ftb -d resources/taggers/

In [2]:
from flair.models import SequenceTagger

tagger = SequenceTagger.load('resources/taggers/ner-transformer-ftb/best-model.pt')

2021-12-02 17:48:49,098 loading file resources/taggers/ner-transformer-ftb/final-model.pt


In [5]:
from flair.data import Sentence
sentence = Sentence("Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne.")

# prédire les balises NER
tagger.predict(sentence)

# imprimer une phrase avec des balises prédites
print(sentence.to_tagged_string())

Apple <B-Company> est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve <B-Person> Jobs <I-Person> à Los <B-Location> Altos <I-Location> en Californie <B-Location> par Steve <B-Person> Jobs <I-Person> , Steve <B-Person> Wozniak <I-Person> et Ronald <B-Person> Wayne <I-Person> , puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer <I-Company> , mais pour ses 30 ans et pour refléter la diversification de ses produits , le mot « computer » est retiré le 9 janvier 2007 .


In [6]:
for entity in sentence.get_spans('ner'):
    print(entity)

Span [1]: "Apple"   [− Labels: Company (0.8977)]
Span [16,17]: "Steve Jobs"   [− Labels: Person (0.868)]
Span [19,20]: "Los Altos"   [− Labels: Location (0.7522)]
Span [22]: "Californie"   [− Labels: Location (0.9384)]
Span [24,25]: "Steve Jobs"   [− Labels: Person (0.8681)]
Span [27,28]: "Steve Wozniak"   [− Labels: Person (0.8681)]
Span [30,31]: "Ronald Wayne"   [− Labels: Person (0.8679)]
Span [49]: "Computer"   [− Labels: Company (0.762)]


In [7]:
print(sentence.to_dict(tag_type='ner'))

{'text': "Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2007.", 'labels': [], 'entities': [{'text': 'Apple', 'start_pos': 0, 'end_pos': 5, 'labels': [Company (0.8977)]}, {'text': 'Steve Jobs', 'start_pos': 75, 'end_pos': 85, 'labels': [Person (0.868)]}, {'text': 'Los Altos', 'start_pos': 88, 'end_pos': 97, 'labels': [Location (0.7522)]}, {'text': 'Californie', 'start_pos': 101, 'end_pos': 111, 'labels': [Location (0.9384)]}, {'text': 'Steve Jobs', 'start_pos': 116, 'end_pos': 126, 'labels': [Person (0.8681)]}, {'text': 'Steve Wozniak', 'start_pos': 128, 'end_pos': 141, 'labels': [Person (0.8681)]}, {'text': 'Ronald Wayne', 'start_pos': 145, 'end_pos': 157, 'label

In [8]:
from flair.tokenization import SegtokSentenceSplitter

# exemple de texte avec plusieurs phrases
text = """L'Institut national de recherche en informatique et en automatique (Inria) 
est un établissement public à caractère scientifique et technologique français spécialisé en mathématiques et informatique, 
placé sous la double tutelle du ministère de l'Enseignement supérieur, 
de la Recherche et de l'Innovation et du ministère de l'Économie et des Finances créé le 3 janvier 1967 dans le cadre du « plan Calcul ».
Inria a pour mission le développement de la recherche et de la valorisation en sciences et techniques de l'information et de la communication, 
au niveau national comme au plan international. 
L'institut pilote également la stratégie nationale française en termes de recherche en intelligence artificielle."""

# initialiser sentence splitter
splitter = SegtokSentenceSplitter()

# utiliser le splitter pour découper le texte en liste de phrases
sentences = splitter.split(text)

# predict tags for sentences
tagger.predict(sentences)

# parcourir les phrases et imprimer les étiquettes prédites
for sentence in sentences:
    print(sentence.to_tagged_string())

L'Institut national <I-Organization> de <I-Organization> recherche <I-Organization> en <I-Organization> informatique <I-Organization> et <I-Organization> en <I-Organization> automatique <I-Organization> ( Inria <B-Organization> ) est un établissement public à caractère scientifique et technologique français spécialisé en mathématiques et informatique , placé sous la double tutelle du ministère de l'Enseignement supérieur , de la Recherche et <I-Organization> de l'Innovation et du ministère de l'Économie et des Finances créé le 3 janvier 1967 dans le cadre du « plan Calcul » .
Inria <B-Organization> a pour mission le développement de la recherche et de la valorisation en sciences et techniques de l'information et de la communication , au niveau national comme au plan international .
L'institut pilote également la stratégie nationale française en termes de recherche en intelligence artificielle .
