<img src="https://upload.wikimedia.org/wikipedia/commons/c/c7/HEIG-VD_Logo_96x29_RVB_ROUGE.png" alt="HEIG-VD Logo" width="250"/>

# Cours TAL - Laboratoire 4
# Reconnaissance d'entités nommées (NER)

**Objectifs**

Appliquer l'outil de *Named Entity Recognition* fourni par NLTK sur le corpus Reuters en anglais, puis évaluer sa performance sur les données de test CoNLL 2003 possédant une annotation de référence.

## 1. Expériences avec la NER de NLTK

Le **but de cette partie** est d'utiliser le reconnaisseur d'entités nommées de NLTK pour extraire les entités nommées les plus fréquentes du corpus Reuters, avec leur type.
* le NER de NLTK est tout simplement la fonction `nltk.ne_chunk`, qui s'applique sur un texte tokenisé, avec les POS tags -- la fonction est documentée dans le [livre NLTK, ch.7](http://www.nltk.org/book/ch07.html), section 5 (tout à la fin) ;
*  le corpus Reuters contient environ 10'000 dépêches datant des années 1980, et il est fourni avec NLTK comme expliqué dans le [livre NLTK, ch.2](http://www.nltk.org/book/ch02.html), §1.4.

In [34]:
import nltk
from nltk.corpus import reuters
#nltk.downloader.Downloader().download('reuters') 
#nltk.download('maxent_ne_chunker')
nltk.download('words')
# à exécuter une seule fois pour télécharger les fichiers localement

[nltk_data] Downloading package words to /home/ducky/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

En suivant les exemples fournis dans le livre NLTK, veuillez écrire le code qui permet de répondre aux questions suivantes, et écrire vos réponses dans une cellule *text markdown* ensuite.
* Combien de fichiers (`fileids`) le corpus Reuters contient-il ?
* Combien de phrases le corpus contient-il ?  (note : un seul appel de fonction est nécessaire)
* Combien de mots le corpus contient-il ?  (note : un seul appel de fonction est nécessaire)
* Veuillez afficher 5 *fileids* de votre choix (les noms, pas les contenus)
* Pour un fichier (*fileid*) de votre choix, veuillez afficher son texte brut, puis la liste de ses phrases, puis enfin la liste de ses mots (avec la tokenization de référence du corpus)

In [25]:
# Veuillez écrire ici le code nécessaire.
# Q1
#print(len(reuters.fileids()))
# Q2
#print(len(reuters.sents()))
# Q3
#print(len(reuters.words()))
# Q4
#reuters.fileids()[:5]

# Q5
fileid_name = 'test/14840'

print('Fileid "{}" raw text'.format(fileid_name))
print(reuters.raw(fileid_name))

print('Fileid "{}" list of sentences'.format(fileid_name))
print(reuters.sents(fileid_name))
print()
print('Fileid "{}" list of words'.format(fileid_name))
print(reuters.words(fileid_name))

Fileid "test/14840" raw text
INDONESIAN COMMODITY EXCHANGE MAY EXPAND
  The Indonesian Commodity Exchange is
  likely to start trading in at least one new commodity, and
  possibly two, during calendar 1987, exchange chairman Paian
  Nainggolan said.
      He told Reuters in a telephone interview that trading in
  palm oil, sawn timber, pepper or tobacco was being considered.
      Trading in either crude palm oil (CPO) or refined palm oil
  may also be introduced. But he said the question was still
  being considered by Trade Minister Rachmat Saleh and no
  decision on when to go ahead had been made.
      The fledgling exchange currently trades coffee and rubber
  physicals on an open outcry system four days a week.
      "Several factors make us move cautiously," Nainggolan said.
  "We want to move slowly and safely so that we do not make a
  mistake and undermine confidence in the exchange."
      Physical rubber trading was launched in 1985, with coffee
  added in January 1986. Ru

> Combien de fichiers (fileids) le corpus Reuters contient-il ?  

Il y a 10788 `fileids` dans le corpus.

> Combien de phrases le corpus contient-il ?

Il y a 54716 phrases dans le corpus.

> Combien de mots le corpus contient-il ?

Il y a 1720901 mots dans le corpus.

> Veuillez afficher 5 fileids de votre choix (les noms, pas les contenus)

['test/14826', 'test/14828', 'test/14829', 'test/14832', 'test/14833']

> Pour un fichier (fileid) de votre choix, veuillez afficher son texte brut, puis la liste de ses phrases, puis enfin la liste de ses mots (avec la tokenization de référence du corpus)

Voir code ci-dessus

On vous demande maintenant d'expérimenter avec un seul texte du corpus Reuters, pour en extraire les entités nommées.   Veuillez répondre aux questions suivantes.

* À partir du texte brut (*raw*) d'une dépêche de votre choix, effectuez la segmentation en phrases, et affichez le nombre de phrases
* Sur une phrase de votre choix, effectuez avec NLTK la tokenization, le POS tagging et la NER, et affichez le résultat. (Si la phrase ne contient pas d'entité nommée (*chunk*), veuillez en choisir une autre.)
* Quel est le type d'objet que retourne `ne_chunk` ?
* Quelle est l'effet de l'attribut `binary` (True ou False) dans l'appel de `nltk.ne_chunk` ?
* Veuillez rassembler les entités nommées de la phrase en une seule liste, de la forme `[('MTBE', 'ORGANIZATION'), ('United States', 'GPE')]` (veuillez notamment joindre en une seule chaîne les mots des entités à plusieurs mots).

Pour votre information, le `ne_chunk()` de NLTK annote les types suivants d'entités nommées : ORGANIZATION, PERSON, LOCATION, DATE, TIME, MONEY, PERCENT, FACILITY, GPE (= *geo-political entity*).

In [119]:
# Veuillez écrire ici le code nécessaire.
def tokenize_text_into_sents(text):
    return nltk.tokenize.sent_tokenize(text)

def tokenize_sent_into_words(sent):
    return nltk.tokenize.word_tokenize(sent)

def get_named_entities(chunks):
    lchunks = []
    for chunk in chunks:
        # check if the current chunk is a named entity
        if hasattr(chunk, 'label'):
            word = ' '.join([c[0] for c in chunk])
            lchunks.append((word, chunk.label()))

    return lchunks

In [124]:
fileid = reuters.fileids()[6]
raw_text = reuters.raw(fileid)
sent = split_raw_text_into_phrases(raw_text)[0]
words = tokenize_sent_into_words(sent)
tagged_words = nltk.pos_tag(words)
chunks = nltk.ne_chunk(tagged_words)

for chunk in chunks:
    print(chunk)
        
print(get_named_entities(chunks))

('``', '``')
('We', 'PRP')
('want', 'VBP')
('to', 'TO')
('move', 'VB')
('slowly', 'RB')
('and', 'CC')
('safely', 'RB')
('so', 'IN')
('that', 'IN')
('we', 'PRP')
('do', 'VBP')
('not', 'RB')
('make', 'VB')
('a', 'DT')
('mistake', 'NN')
('and', 'CC')
('undermine', 'JJ')
('confidence', 'NN')
('in', 'IN')
('the', 'DT')
('exchange', 'NN')
('.', '.')
("''", "''")
[]


In [41]:
print("binary = True")
print(nltk.ne_chunk(tagged_words, binary=False))
print()
print("binary = False")
print(nltk.ne_chunk(tagged_words, binary=True))

binary = True
(S
  (GPE THAI/NNP)
  (ORGANIZATION TRADE/NNP)
  DEFICIT/NNP
  WIDENS/NNP
  IN/NNP
  FIRST/NNP
  QUARTER/NNP
  (GPE Thailand/NNP)
  's/POS
  trade/NN
  deficit/NN
  widened/VBD
  to/TO
  4.5/CD
  billion/CD
  baht/NNS
  in/IN
  the/DT
  first/JJ
  quarter/NN
  of/IN
  1987/CD
  from/IN
  2.1/CD
  billion/CD
  a/DT
  year/NN
  ago/RB
  ,/,
  the/DT
  (ORGANIZATION Business/NNP Economics/NNP Department/NNP)
  said/VBD
  ./.)

binary = False
(S
  (NE THAI/NNP)
  TRADE/NNP
  DEFICIT/NNP
  WIDENS/NNP
  IN/NNP
  FIRST/NNP
  QUARTER/NNP
  Thailand/NNP
  's/POS
  trade/NN
  deficit/NN
  widened/VBD
  to/TO
  4.5/CD
  billion/CD
  baht/NNS
  in/IN
  the/DT
  first/JJ
  quarter/NN
  of/IN
  1987/CD
  from/IN
  2.1/CD
  billion/CD
  a/DT
  year/NN
  ago/RB
  ,/,
  the/DT
  (NE Business/NNP Economics/NNP Department/NNP)
  said/VBD
  ./.)


> Quel est le type d'objet que retourne ne_chunk ?

Il retourne un objet `<class 'nltk.tree.Tree'>`.

> Quelle est l'effet de l'attribut binary (True ou False) dans l'appel de nltk.ne_chunk ?

Cet attribut va determiner quel `treebank POS tagger` la fonction va utiliser. **True** = `english_ace_binary.pickle`, **False** = `english_ace_multiclass.pickle`.

En comparant l'output de la fonction en changement la valeur de cet attribut, on peu voir que quand il est set a **True** la fonction ne va pas utilisé les types d'entités nommées mentionnez dans la donnée lors de l'annotation.

E.g.

|       | binary = True            | binary = False |
| ----- | :----------------------- | -------------- |
| THAI  | (GPE THAI/NNP)           | (NE THAI/NNP)  |
| TRADE | (ORGANIZATION TRADE/NNP) | TRADE/NNP      |

* Veuillez écrire une fonction, commençant par la ligne `def extract_named_entities(text):` qui retourne la liste des entités nommées avec leur type, à partir d'un texte donné (string).  Inspirez-vous de votre réponse à la dernière question ci-dessus.
* Testez votre fonction sur le texte que vous avez utilisé ci-dessus.  
* Observez vous des erreurs de détection (rappel ou précision) et/ou d'étiquetage ?  Merci d'en indiquer quelques-unes.

In [121]:
# Veuillez écrire ici le code nécessaire.
def extract_named_entities(text):
    sent = split_raw_text_into_phrases(raw_text)
    tagged_words = []    
    for sent in split_raw_text_into_phrases(text):
        words = tokenize_sent_into_words(sent)
        tagged_words = tagged_words + nltk.pos_tag(words)

    chunks = nltk.ne_chunk(tagged_words)
    return get_named_entities(chunks)

In [122]:
# Veuillez écrire ici le code nécessaire.
extract_named_entities(raw_text)

[('INDONESIAN', 'GPE'),
 ('COMMODITY', 'ORGANIZATION'),
 ('Indonesian', 'GPE'),
 ('Paian Nainggolan', 'PERSON'),
 ('Reuters', 'ORGANIZATION'),
 ('CPO', 'ORGANIZATION'),
 ('Trade', 'PERSON'),
 ('Rachmat Saleh', 'PERSON'),
 ('Nainggolan', 'PERSON'),
 ('FOB', 'ORGANIZATION'),
 ('Robusta', 'PERSON'),
 ('Indonesia', 'GPE'),
 ('Saleh', 'PERSON'),
 ('Indonesia', 'GPE'),
 ('Nainggolan', 'PERSON'),
 ('South Korea', 'GPE'),
 ('Taiwan', 'GPE'),
 ('Europe', 'GPE'),
 ('Mexico', 'GPE'),
 ('American', 'GPE'),
 ('FOB', 'ORGANIZATION'),
 ('Total', 'ORGANIZATION')]

> Erreurs observées.


Veuillez parcourir tous les textes du corpus Reuters et collecter toutes les entités nommées dans une liste.  Créez ensuite une `FreqDist` et affichez les 30 NE les plus fréquentes avec leur nombre d'occurrences.  Combien de temps approximativement prend cette opération ?  (Suggestion : augmentez progressivement le nombre de fileids que vous traitez, pour estimer le temps total.)  Veuillez commenter le résultat obtenu.

In [None]:
# Veuillez écrire ici le code nécessaire.


In [None]:
# Veuillez écrire ici les commentaires sur le résultat.


Quel est le nombre total de NE trouvées (occurrences pas nécessairement différentes) et quel est le nombre de NE différentes ?

In [None]:
# Veuillez écrire ici le code nécessaire pour répondre aux deux questions.


## 2. Évaluer la fonction de NER de NLTK sur les données CoNLL 2003

À la conférence [CoNLL](https://www.clips.uantwerpen.be/pages/past-workshops) 2003, une des tâches compétitives consistait à tester des systèmes de NER sur l'anglais (voir [la description de la tâche et les scores obtenus](https://www.clips.uantwerpen.be/conll2003/ner/)).  Les ressources annotées ne sont pas disponibles via CoNLL, mais on peut en trouver [une copie sur le web](https://sourceforge.net/p/text-analysis/svn/1243/tree/text-analysis/trunk/Corpora/CoNLL/2003/) (une [autre copie](https://github.com/synalp/NER/tree/master/corpus/CoNLL-2003) est aussi disponible).  Les textes proviennent du [corpus Reuters](http://trec.nist.gov/data/reuters/reuters.html).  Pour mémoire, une autre source de données est le [corpus WikiNER](https://github.com/dice-group/FOX/tree/master/input/Wikiner).

Le format d'annotation comprend 4 colonnes séparées par un espace.  Ce format ressemble au format "conll" que nous avons utilisé pour le *POS tagging* et le *parsing*.  Chaque ligne correspond à un mot, et une ligne vide sépare les phrases.  Sur chaque ligne, le 1er item est le mot, le 2e est le POS tag, le 3e est un tag qui indique le groupe syntaxique, et le 4e le tag qui indique l'entité nommée.  (À vous d'étudier ce tag plus en détail.)  Il y a des données d'entraînement (`eng.train`), et trois fichiers de test (`eng.testa`, `eng.testb` et `eng.testc`, le 2e ayant servi pour l'évaluation finale).

**Travail demandé**

Les questions qui suivent (inspirées des étapes de ce [tutoriel en ligne](https://pythonprogramming.net/testing-stanford-ner-taggers-for-accuracy/)) vous permettront d'estimer la "justesse" du NER de NLTK  sur les données CoNLL (seulement l'*accuracy*, pas le rappel et la précision).

**Le premier objectif** est d'importer les données CoNLL 2003 dans ce notebook et adapter leur format pour qu'il soit comparable à celui de `nltk.ne_chunk()`, ce qui nécessite aussi la modification de l'output de cette fonction.

En examinant les fichiers `eng.testa`, `eng.testb` et `eng.testc`, décrivez brièvement le format d'annotation CoNLL (2-3 phrases) et indiquez les types de NER annotés.

In [None]:
# Veuillez écrire ici votre réponse.


Veuillez écrire une fonction qui ouvre un fichier CoNLL (p.ex. `eng.testa`) et crée deux listes :
1. la liste des paires (token, pos_tag) que vous passerez plus tard à `ne_chunk()`;
2. la liste des paires (token, ner_tag) où ner_tag est l'une des catégories de NER que vous avez indiquées plus haut.
Ces listes seront stockées comme ci-dessous.  Appelez ensuite cette fonction sur les trois fichiers.

In [None]:
# Voici comment stocker les données dans une structure:
filenames = ['eng.testa', 'eng.testb', 'eng.testc']
test_data = dict()
for f in filenames:
    test_data[f] = dict()
    test_data[f]['words'] = []
    test_data[f]['keytags'] = [] # 'key' signifie correct
    test_data[f]['reptags'] = [] # 'rep' pour réponse du système    
# def conll2nltk(filename='eng.testa'):
# ...

In [None]:
# Veuillez écrire ici le code de la fonction.


In [None]:
# Veuillez appliquer la fonction aux trois noms de fichier fournis.


**Le second objectif** est de donner les mots à `ne_chunk()`, obtenir le résultat de la NER, et le stocker dans la même forme que l'annotation de référence (des paires de (token, TAG) pour tous les tokens).  Ces résultats seront ajoutés à la structure `test_data` dans le champ 'reptags' (pour "response tags"). 

In [None]:
# Veuillez écrire ici le code pour les 3 datasets.


Veuillez vérifier, pour chaque fichier, que les listes 'keytags' et 'reptags' ont le même nombre de mots, en les affichant côte à côte.

In [None]:
# Veuillez écrire ici le code pour les 3 datasets.


**Le 3e et dernier objectif** est de calculer la pourcentage d'étiquettes correctes dans les trois fichiers par rapport au nombre de mots de chacun.  

Pour ce faire, remarquez que les étiquettes assignées par NLTK sont ORGANIZATION, PERSON, LOCATION, DATE, TIME, MONEY, PERCENT, FACILITY, GPE (= geo-political entity), alors que celles des fichiers CoNLL sont celles que vous avez indiquées en réponse plus haut.  Pour comptabiliser les réponses correctes, il faut d'abord définir une fonction appelée `compatible(n, c)` qui indique si deux étiquettes (l'une de NLTK, l'autre de CoNLL) sont conceptuellement identiques (c'est-à-dire qu'elles ont la même signification).

In [None]:
# Veuillez définir ici une fonction de comparaison des tags NER.


In [None]:
# Veuillez définir ici une fonction qui compare deux listes de (mot, tag) et qui
# retourne le pourcentage de (mot, tag) identiques selon la fonction "compatible()".


In [None]:
# Veuillez appliquer ici la fonction ci-dessus et afficher les scores sur les 3 datasets.


**Note sur `nltk.ne_chunk()`.** Pour mémoire, signalons que le résultat de `nltk.ne_chunk()`, qui est un arbre, peut être transformé en une chaîne de caractères multi-lignes formatée selon les guidelines CoNLL grâce à la méthode `nltk.chunk.tree2conllstr()`.  Par ailleurs, pour comparer deux étiquetages de mots (listes de paires (mot, tag)), on peut utiliser directement la fonction `nltk.metrics.scores.accuracy` de NLTK, pour autant que les tags soient comparables avec `==`.

## Remarque finale
Il est possible d'appliquer de la même façon [l'outil de NER avec CRF fourni par Stanford](https://nlp.stanford.edu/software/CRF-NER.html).  Les CRF, *Conditional Random Fields*, sont le modèle probabiliste qui est utilisé dans cet outil.

Comme dans le cas du *POS tagger* CoreNLP de Stanford, on peut invoquer l'outil en ligne de commande (suivant les exemples fournis [ici](https://nlp.stanford.edu/software/CRF-NER.html#Starting) ou [ici](https://nlp.stanford.edu/software/crf-faq.shtml), notamment pour les [options de sortie](https://nlp.stanford.edu/software/crf-faq.shtml#j)).  Ou alors, on peut utiliser le [wrapper `StanfordNERTagger` de NLTK](http://www.nltk.org/api/nltk.tag.html?#nltk.tag.stanford.StanfordNERTagger).  On peut alors voir que les performances sont plus élevées que celles de `nltk.ne_chunk()`. 

Une [version plus élaborée de NER est fournie par Stanford dans le cadre de la boîte à outils CoreNLP](https://stanfordnlp.github.io/CoreNLP/ner.html).

## Fin du laboratoire 4

Merci de nettoyer votre feuille, exécuter une dernière fois toutes les instructions, sauvegarder le résultat, et le soumettre sur Cyberlearn.