<img src="https://heig-vd.ch/docs/default-source/doc-global-newsletter/2020-slim.svg" alt="HEIG-VD Logo" width="100" align="right" /> 

# Cours TAL - Laboratoire 4<br/>Reconnaissance des entités nommées

**Objectif**

L'objectif de ce labo est de comparer la reconnaissance des entités nommées (*named entity recognition*, NER) faite par spaCy avec celle faite par NLTK, sur des données en anglais fournies sur Cyberlearn.  Veuillez fournir les scores de rappel, précision et F1-score pour chacun des tags présents dans les données de test.  Veuillez comparer deux modèles de spaCy, 'en_core_web_sm' et 'en_core_web_lg'.

Vous pouvez concevoir l'ensemble du projet par vous-mêmes, ou suivre les indications suivantes.

## 1. NER avec spaCy et NLTK sur un texte court

In [8]:
import spacy
from spacy.tokens import Doc



In [9]:
# !python -m spacy download en_core_web_sm 
# exécuter la ligne ci-dessus une fois, si nécessaire

In [10]:
nlp = spacy.load("en_core_web_sm")

  from .autonotebook import tqdm as notebook_tqdm
  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(


In [11]:
raw_text = "Reinhold Messner made a solo ascent of Mount Everest and was later a member of the European Parliament." 

**1a.** Veuillez traiter ce texte avec la pipeline 'nlp', et pour chaque entité nommée trouvée veuillez afficher les mots qui la composent et son type.

In [12]:
docs = nlp(raw_text)

for ent in docs.ents:
    print(ent.text + " [" + ent.label_ + "]")

Reinhold Messner [PERSON]
Mount Everest [LOC]
the European Parliament [ORG]


In [13]:
import nltk
#nltk.download('maxent_ne_chunker') 
#nltk.download('words') 
# exécuter les deux lignes ci-dessus une fois, si nécessaire

**1b.** Veuillez effectuer avec NLTK la tokenization, le POS tagging et le *NE chunking* (voir la [documentation NLTK](https://www.nltk.org/api/nltk.chunk.ne_chunk.html#nltk.chunk.ne_chunk)).  Veuillez afficher le résultat et indiquer son type.

In [14]:

tokens = nltk.word_tokenize(raw_text)
pos_tagged_tokens = nltk.pos_tag(tokens)    
ne_chunks = nltk.ne_chunk(pos_tagged_tokens)


**1c.** Veuillez afficher, pour chaque entité nommée, les mots qui la composent et son type.  Vous pouvez parcourir le résultat précédent avec une boucle for, et déterminer si un noeud a une étiquette avec la fonction `hasattr(noeud, 'label')`.

In [15]:
for ne_chunk in ne_chunks:
    if hasattr(ne_chunk, 'label'):
        print(ne_chunk)

(PERSON Reinhold/NNP)
(PERSON Messner/NNP)
(PERSON Mount/NNP Everest/NNP)
(ORGANIZATION European/NNP Parliament/NNP)


**1d.** À ce stade, que pensez-vous de la qualité des résultats de chaque système ?

In [16]:
# Sur cet phrase en particulier, nlp s'en sort bien mieux, il a fait tous juste.
# Il a identifié "Reinhold Messner" comme une personne, le mont everest comme une location et le parlement européen comme une organisation.
# Alors que nltk a identifié "Reinhold Messner" comme 2 personnes différentes, le mont everest comme une personne. Il a juste fait juste le parlement européen

## 2. Prise en main des données de test

**2a.** Quel est le format du fichier `eng.test.a.conll` ?  Quelle information contient chaque colonne ?  Quel est le format des tags NE ?

Note : ce fichier fait partie des données de test pour la NER sur l'anglais de la conférence [CoNLL](https://www.clips.uantwerpen.be/pages/past-workshops) 2003. On peut lire [ici](https://www.clips.uantwerpen.be/conll2003/ner/) la description de la tâche et les scores obtenus.  On peut trouver une copie des données [ici](https://sourceforge.net/p/text-analysis/svn/1243/tree/text-analysis/trunk/Corpora/CoNLL/2003/) ou [ici](https://github.com/synalp/NER/tree/master/corpus/CoNLL-2003).  Les textes proviennent du [corpus Reuters](http://trec.nist.gov/data/reuters/reuters.html).

In [17]:
# Format IO (pas de beginning)
# Colonne 1 : Le mot
# Colonne 2 : Le POS tag
# Colonne 3 : Le chunk NE
# Colonne 4 : Le label NE

**2b.** Veuillez charger les données de `eng.test.a.conll` grâce à la classe `ConllCorpusReader` de NLTK vue dans les labos précédents (voir [documentation](https://www.nltk.org/api/nltk.corpus.reader.conll.html#nltk.corpus.reader.conll.ConllCorpusReader)). Veuillez lire les colonnes qui contiennent les tokens ('words'), les POS tags ('pos') et les informations sur les entités nommées ('chunk') et afficher les trois premières phrases, accessibles via la méthode `.iob_sents()`.

In [18]:
from nltk.corpus.reader.conll import ConllCorpusReader

corpus = ConllCorpusReader('.', 'eng.test.a.conll',columntypes=['words', 'pos', 'ignore','chunk'])

sents = corpus.iob_sents()
print(sents[0])
print(sents[1])
print(sents[2])

#TODO pas sur pourquoi mais y'a rien dans la première phrase (pas d'entitee nomee dans la 1ere phrase)

[]
[('CRICKET', 'NNP', 'O'), ('-', ':', 'O'), ('LEICESTERSHIRE', 'NNP', 'I-ORG'), ('TAKE', 'NNP', 'O'), ('OVER', 'IN', 'O'), ('AT', 'NNP', 'O'), ('TOP', 'NNP', 'O'), ('AFTER', 'NNP', 'O'), ('INNINGS', 'NNP', 'O'), ('VICTORY', 'NN', 'O'), ('.', '.', 'O')]
[('LONDON', 'NNP', 'I-LOC'), ('1996-08-30', 'CD', 'O')]


**2c.** Veuillez préparer les données pour le test, en ne gardant que les phrases ayant au moins trois (3) tokens (pas 0, 1, 2) :

* une variable `test_tokens` contiendra les tokens groupés par phrase (liste de listes de strings)
* une variable `test_tags` contiendra les tags NE en une seule liste (en vue de l'évaluation)

In [19]:
sents = list(sents)
sents = list(filter(lambda x: len(x) > 2, sents))

test_tokens = []
test_tags = []
for sent in sents:
    curr_tokens = []
    for token in sent:
       curr_tokens.append(token[0])
       test_tags.append(token[2])
    test_tokens.append(curr_tokens)

print(test_tokens[0])
print(len(test_tags))

['CRICKET', '-', 'LEICESTERSHIRE', 'TAKE', 'OVER', 'AT', 'TOP', 'AFTER', 'INNINGS', 'VICTORY', '.']
50817


**2d.** Combien d'occurrences de tags contient `test_tags`?  Combien de tags différents y a-t-il, et lesquels sont-ils ?  Combien il y a d'occurrences de tags de chaque type ?  Combien de phrases y a-t-il dans `test_tokens` ?

In [20]:
unique_data = set(test_tags)
print("Nombre de phrases dans test_tokens : ",len(test_tokens))
print("Nombre de tags dans test_tags : ",len(test_tags)) 
print("Nombre de tags uniques : ",len(unique_data))
print("List des tags : " , unique_data)
print("Nombre d'occurence de O",test_tags.count("O"))
print("Nombre d'occurence de I-PER",test_tags.count("I-PER"))
print("Nombre d'occurence de I-LOC",test_tags.count("I-LOC"))
print("Nombre d'occurence de I-MISC",test_tags.count("I-MISC"))
print("Nombre d'occurence de I-ORG",test_tags.count("I-ORG"))



Nombre de phrases dans test_tokens :  2970
Nombre de tags dans test_tags :  50817
Nombre de tags uniques :  5
List des tags :  {'I-LOC', 'I-MISC', 'I-ORG', 'I-PER', 'O'}
Nombre d'occurence de O 42474
Nombre d'occurence de I-PER 3097
Nombre d'occurence de I-LOC 1938
Nombre d'occurence de I-MISC 1228
Nombre d'occurence de I-ORG 2080


## 3. Performances de NLTK pour la NER

**3a.** Le NER de NLTK a un jeu de tags différents de celui des données de test.  Veuillez chercher les informations pour compléter la fonction suivante qui convertir chaque tag du NER de NLTK dans le tag correspondant pour les données de test.  Attention à la logique des conversions. 

In [31]:
def convert_nltk_conll(nltk_tag):
   translated_tags = []
   corresp = { 'O':'O',
               'ORGANIZATION':'I-ORG',
               'PERSON':'I-PER',
               'LOCATION':'I-LOC',
               'FACILITY': 'I-LOC',
               'GPE': 'I-LOC'
             }
   for tag in nltk_tag:
      if tag in corresp:
        translated_tags.append(corresp[tag])
      else:
        translated_tags.append('I-MISC')  # Les entités qui ne sont pas dans notre fichier test seron aussi considérés comme des entités nommées de type MISC
   return translated_tags


**3b.** Veuillez exécuter la NER de NLTK sur chacune des phrases de `test_tokens`, ce qui assure que NLTK aura la même tokenisation que les données de référence.  Veuillez stocker les tags dans une liste unique appelée `nltk_tags`.

In [27]:
nltk_tags = []

for sent in test_tokens:
    pos_tagged_tokens = nltk.pos_tag(sent) 
    ne_chunks = nltk.ne_chunk(pos_tagged_tokens)
    for ne_chunk in ne_chunks:
        if hasattr(ne_chunk, 'label'):
            for leaf in ne_chunk.leaves():
                nltk_tags.append(ne_chunk.label())
        else:
            nltk_tags.append('O')

**3c.** Veuillez convertir les tags de `nltk_tags` grâce à la fonction précédente, dans une liste appelée `nltk_tags_conv`.  Veuillez afficher le nombre total de tags et les dix premiers.  Vous pouvez plusieurs essais en changeant la fonction, pour aboutir à la conversion qui maximise le score.

In [28]:
nltk_tags_conv = convert_nltk_conll(nltk_tags)
print("Nombre de tags: ", len(nltk_tags_conv))
print("10 premiers tags: " , nltk_tags_conv[:10])

Nombre de tags:  50817
10 premiers tags:  ['I-LOC', 'O', 'I-ORG', 'O', 'O', 'O', 'I-ORG', 'O', 'I-ORG', 'O']


**3d.** Veuillez afficher le rapport d'évaluation de classification obtenu de Scikit-learn et la matrice de confusion pour tous les types de tags apparaissant dans les données de test.

In [29]:
from sklearn.metrics import classification_report, confusion_matrix

In [30]:
# Afficher le rapport d'évaluation de classification
print("Rapport d'évaluation de classification :")
print(classification_report(nltk_tags_conv, test_tags))

# Afficher la matrice de confusion
print("Matrice de confusion :")
print(confusion_matrix(nltk_tags_conv, test_tags))

Rapport d'évaluation de classification :
              precision    recall  f1-score   support

       I-LOC       0.72      0.55      0.62      2561
      I-MISC       0.01      0.16      0.01        45
       I-ORG       0.35      0.51      0.41      1429
       I-PER       0.74      0.77      0.76      3006
           O       0.99      0.96      0.97     43776

    accuracy                           0.91     50817
   macro avg       0.56      0.59      0.56     50817
weighted avg       0.94      0.91      0.93     50817

Matrice de confusion :
[[ 1396   511   253   160   241]
 [   29     7     5     2     2]
 [  214   187   728   156   144]
 [  162    85   377  2306    76]
 [  137   438   717   473 42011]]


## 4. Performances de spaCy pour la NER

**4a.** Le NER de spaCy a aussi un jeu de tags différents de celui des données de test.  Veuillez chercher les informations pour compléter la fonction suivante qui convertir chaque tag du NER de spaCy dans le tag correspondant pour les données de test.  Attention à la logique des conversions. 

In [21]:
# Recherche des tags qui diffèrent

# Tags de spacy
ner_labels = nlp.get_pipe("ner").labels

# Tags de la notre fichier de test
set_tags = set()
for sent in sents:
    for token in sent:
        set_tags.add(token[2])

print(set_tags)
print(ner_labels)


{'O', 'I-MISC', 'I-PER', 'I-LOC', 'I-ORG'}
('CARDINAL', 'DATE', 'EVENT', 'FAC', 'GPE', 'LANGUAGE', 'LAW', 'LOC', 'MONEY', 'NORP', 'ORDINAL', 'ORG', 'PERCENT', 'PERSON', 'PRODUCT', 'QUANTITY', 'TIME', 'WORK_OF_ART')


In [76]:
def convert_spacy_conll(spacy_tag):
  corresp = { 'O':'O',
              'ORG':'I-ORG',
              'PERSON':'I-PER',
              'LOC':'I-LOC',
              'FAC': 'I-LOC',
              'GPE': 'I-LOC'
            }
  translated_tags = []
  for tag in spacy_tag:
    if tag in corresp:
      translated_tags.append(corresp[tag])
    else:
      translated_tags.append('I-MISC')
    

  return translated_tags

      


**4b.** Veuillez exécuter la NER de spaCy sur chacune des phrases de `test_tokens`, ce qui assure que spaCy aura la même tokenisation que les données de référence.  Veuillez stocker les tags dans une liste unique appelée `spacy_tags`.

In [95]:
def spacy_ner(nlp, tokens):
    spacy_tags = []
    for sent in test_tokens:
        # Traiter la phrase avec spaCy
        string_sent = ' '.join(sent)
        doc = nlp(string_sent) # Meilleur resultat si on analyze la phrase entiere
        for token in sent:
            found = False
            # La tokenisatin est differente dans spacy. Pas la methode la plus optimale mais il faut faire
            # coorespondre les tags de spacy avec les tags de notre fichier de test.
            # (par example West indian n'est pas reconnu si on analyse les tokens un par un)
            for ent in doc.ents: 
                if token in ent.text:
                    spacy_tags.append(ent.label_)
                    found = True
                    break
            if (not found):
                spacy_tags.append("O")
    return spacy_tags


In [96]:
spacy_tags = spacy_ner(nlp, test_tokens)

**4c.** Veuillez convertir les tags de `spacy_tags` grâce à la fonction précédente, dans une liste appelée `spacy_tags_conv`.  Veuillez afficher le nombre total de tags et les dix premiers.  Vous pouvez plusieurs essais en changeant la fonction, pour aboutir à la conversion qui maximise le score.

In [97]:
spacy_tags_conv = convert_spacy_conll(spacy_tags)
print("Nombre de tags: ", len(spacy_tags_conv))
print("10 premiers tags: " , spacy_tags_conv[:10])

Nombre de tags:  50817
10 premiers tags:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


**4d.** Veuillez afficher le rapport d'évaluation de classification obtenu de Scikit-learn et la matrice de confusion pour tous les types de tags apparaissant dans les données de test.

In [89]:
# Afficher le rapport d'évaluation de classification
print("Rapport d'évaluation de classification :")
print(classification_report(spacy_tags_conv, test_tags))

# Afficher la matrice de confusion
print("Matrice de confusion :")
print(confusion_matrix(spacy_tags_conv, test_tags))

Rapport d'évaluation de classification :
              precision    recall  f1-score   support

       I-LOC       0.79      0.62      0.69      2447
      I-MISC       0.66      0.12      0.20      6813
       I-ORG       0.51      0.44      0.47      2436
       I-PER       0.73      0.73      0.73      3062
           O       0.82      0.96      0.88     36059

    accuracy                           0.79     50817
   macro avg       0.70      0.57      0.60     50817
weighted avg       0.77      0.79      0.75     50817

Matrice de confusion :
[[ 1522    57   221    69   578]
 [   48   805    39    36  5885]
 [  134   129  1065   241   867]
 [   47    29   226  2250   510]
 [  187   208   529   501 34634]]


**4e.** Veuillez exécuter également le modèle 'en_core_web_lg' de spacy et afficher le rapport d'évaluation (mais pas la matrice de confusion).  Vous pouvez recopier ici le minimum de code nécessaire à l'obtention des résultats, avec une nouvelle pipeline spaCy appelée 'nlp2'.

In [101]:
#!python -m spacy download en_core_web_lg 

In [102]:
nlp2 = spacy.load("en_core_web_lg")

spacy_tags2 = spacy_ner(nlp2, test_tokens)
spacy_tags_conv2 = convert_spacy_conll(spacy_tags2)

# Afficher le rapport d'évaluation de classification
print("Rapport d'évaluation de classification :")
print(classification_report(spacy_tags_conv2, test_tags))

Rapport d'évaluation de classification :
              precision    recall  f1-score   support

       I-LOC       0.83      0.61      0.70      2651
      I-MISC       0.68      0.12      0.21      6956
       I-ORG       0.58      0.48      0.52      2488
       I-PER       0.84      0.79      0.82      3278
           O       0.81      0.97      0.89     35444

    accuracy                           0.80     50817
   macro avg       0.75      0.60      0.63     50817
weighted avg       0.79      0.80      0.76     50817



## 5. Discussion finale

Veuillez comparer les scores des trois modèles testés, en termes de **macro avg**.  Pourquoi ce score est-il le plus informatif ?  Veuillez indiquer également la taille des modèles spaCy évalués.

In [33]:
from tabulate import tabulate

print("Moyenne macro pour chaque modèle :")
print(tabulate([['NLTK', 0.56, 0.59, 0.56],
                ['Spacy (en_core_web_sm)', 0.70, 0.57, 0.60],
                ["Spacy (en_core_web_lg)", 0.75, 0.60, 0.63]],
        headers=["Modele", 'Precision', 'recall', "F1-score"], tablefmt="pretty"))


Moyenne macro pour chaque modèle :
+------------------------+-----------+--------+----------+
|         Modele         | Precision | recall | F1-score |
+------------------------+-----------+--------+----------+
|          NLTK          |   0.56    |  0.59  |   0.56   |
| Spacy (en_core_web_sm) |    0.7    |  0.57  |   0.6    |
| Spacy (en_core_web_lg) |   0.75    |  0.6   |   0.63   |
+------------------------+-----------+--------+----------+


In [34]:
# On peut voir que le modele de spacy avec le modele en_core_web_lg est le meilleur modele.
# Il a une precision de 0.75, un recall de 0.60 et un F1-score de 0.63.
# Les moyennes macro sont nous parlent plus que les moyennes micros dans ce cas-ci, car les tags sont déséquilibrées. 
# Les "O" et "I-MISC" sont beacoup plus fréquents que les autres tags. Surtout les "O" qui sont 10 fois plus fréquents que les autres tags.
# Les moyenne micro represente ici majoritairement la performance des modeles sur les "O".

**Fin du Labo.** Veuillez nettoyer ce notebook en gardant seulement les résultats désirés, l'enregistrer, et le soumettre comme devoir sur Cyberlearn.