# Importation des librairies

In [149]:
import spacy
from spacy import displacy
import fr_core_news_sm
from prettytable import PrettyTable
from spacy.scorer import Scorer
from spacy.gold import GoldParse
from spacy.scorer import Scorer

# 1) Exemple en anglais

In [150]:
nlp = spacy.load("en_core_web_sm")

In [151]:
doc = nlp("I think Barack Obama met founder of Facebook at occasion of a release of a new NLP this month algorithm his phone number was :5555551234.")

## a) POS Tagging

In [152]:
displacy.render(doc, style="dep") # (1)

## b) Named Entities

In [153]:
displacy.render(doc, style="ent") # (2)

# 2) Exemple en français

In [154]:
nlp = fr_core_news_sm.load()
doc = nlp("Emma Louise s'est installée au 26 rue Alexandre 75005 Paris France, elle est née en 2007 et elle est joignable sur 06660006.")

## a) Pos tagging

In [155]:
x = PrettyTable()
y=PrettyTable()

In [156]:
x.field_names =  ["text", "lemma_", "pos_","tag_","dep_","shape_", "alpha", ".is_stop"]

In [157]:
for token in doc:
    x.add_row([token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop])

In [158]:
options = {"distance": 130}
displacy.render(doc, style="dep", options=options) # (1)

In [159]:
print (x)

+-----------+-----------+-------+------------------------------------------------------------+------------+--------+-------+----------+
|    text   |   lemma_  |  pos_ |                            tag_                            |    dep_    | shape_ | alpha | .is_stop |
+-----------+-----------+-------+------------------------------------------------------------+------------+--------+-------+----------+
|    Emma   |    Emma   | PROPN |               PROPN__Gender=Masc|Number=Sing               | nsubj:pass |  Xxxx  |  True |  False   |
|   Louise  |   Louise  | PROPN |                           PROPN                            | flat:name  | Xxxxx  |  True |  False   |
|     s'    |     se    |  PRON |                 PRON__Person=3|Reflex=Yes                  | expl:comp  |   x'   | False |   True   |
|    est    |    être   |  AUX  | AUX__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin | aux:tense  |  xxx   |  True |   True   |
| installée | installer |  VERB |   VERB__Gender

## b) Named Entities

In [160]:
y.field_names = ["text", "start_char", "end_char", "label_"]

In [161]:
for ent in doc.ents:
    y.add_row([ent.text, ent.start_char, ent.end_char, ent.label_])   

In [162]:
displacy.render(doc, style="ent") # (2)

In [163]:
print(y)

+---------------+------------+----------+--------+
|      text     | start_char | end_char | label_ |
+---------------+------------+----------+--------+
|  Emma Louise  |     0      |    11    |  PER   |
| rue Alexandre |     34     |    47    |  LOC   |
|  Paris France |     54     |    66    |  LOC   |
+---------------+------------+----------+--------+


## c) Métriques d'évaluation

In [164]:
def evaluate(ner_model, examples):
    scorer = Scorer()
    for input_, annot in examples:
        doc_gold_text = ner_model.make_doc(input_)
        gold = GoldParse(doc_gold_text, entities=annot)
        pred_value = ner_model(input_)
        scorer.score(pred_value, gold)
    return scorer.scores# example run

In [165]:
examples = [
    ("Je suis Marie Antoinette. J'habite à London. Diplômée en 2018 et joignable sur 06660006",[(8,24,"PER"),(37,43,"LOC")]),
    ("François travaille chez la société française Zenika depuis 2011. Il était recruté initialement à Montréal.",[(0,8,"PER"),(35,44,"MISC"),(45,51,"ORG"),(107,115,"LOC")]),
    ("Frédéric, 34 ans, installé à Lyon.",[(0,8,"PER"),(29,33,"LOC")]),
    ("Amélie habite à Palaiseau depuis son arrivée en France ",[(0,6,"PER"),(16,25,"LOC"),(48,54,"LOC")]),
    ("Julien travaille à Asnières-sur-Seine chez FBI.",[(0,6,"PER"),(19,37,"LOC"),(43,46,"ORG")]),
    ("Jack est consultant chez Google.",[(0,4,"PER"),(25,31,"ORG")]),
    ("Les anglais sont chaleureux.",[(4,11,"MISC")]),
]

In [166]:
results = evaluate(nlp, examples)

In [167]:
print("Précision des entités: ",results.get("ents_p"))
print("Rappel des entités: ",results.get("ents_r"))
print("F-score des entités: ",results.get("ents_f"))
print("Métriques de l'entité PER: ",results.get("ents_per_type").get("PER"))
print("Métriques de l'entité LOC: ",results.get("ents_per_type").get("LOC"))
print("Métriques de l'entité ORG: ",results.get("ents_per_type").get("ORG"))
print("Métriques de l'entité MISC: ",results.get("ents_per_type").get("MISC"))

Précision des entités:  86.66666666666667
Rappel des entités:  81.25
F-score des entités:  83.87096774193549
Métriques de l'entité PER:  {'p': 85.71428571428571, 'r': 100.0, 'f': 92.3076923076923}
Métriques de l'entité LOC:  {'p': 83.33333333333334, 'r': 100.0, 'f': 90.9090909090909}
Métriques de l'entité ORG:  {'p': 100.0, 'r': 66.66666666666666, 'f': 80.0}
Métriques de l'entité MISC:  {'p': 0.0, 'r': 0.0, 'f': 0.0}
