<img src="https://upload.wikimedia.org/wikipedia/commons/c/c7/HEIG-VD_Logo_96x29_RVB_ROUGE.png" alt="HEIG-VD Logo" width="250"/>

# Cours TAL - Laboratoire 4
# Reconnaissance d'entités nommées (NER)

**Objectifs**

Appliquer l'outil de *Named Entity Recognition* fourni par NLTK sur le corpus Reuters en anglais, puis évaluer sa performance sur les données de test CoNLL 2003 possédant une annotation de référence.

## 1. Expériences avec la NER de NLTK

Le **but de cette partie** est d'utiliser le reconnaisseur d'entités nommées de NLTK pour extraire les entités nommées les plus fréquentes du corpus Reuters, avec leur type.
* le NER de NLTK est tout simplement la fonction `nltk.ne_chunk`, qui s'applique sur un texte tokenisé, avec les POS tags -- la fonction est documentée dans le [livre NLTK, ch.7](http://www.nltk.org/book/ch07.html), section 5 (tout à la fin) ;
*  le corpus Reuters contient environ 10'000 dépêches datant des années 1980, et il est fourni avec NLTK comme expliqué dans le [livre NLTK, ch.2](http://www.nltk.org/book/ch02.html), §1.4.

In [46]:
import nltk
from nltk.corpus import reuters
nltk.downloader.Downloader().download('reuters') 
# à exécuter une seule fois pour télécharger les fichiers localement

[nltk_data] Downloading package reuters to /home/kler/nltk_data...
[nltk_data]   Package reuters is already up-to-date!


True

En suivant les exemples fournis dans le livre NLTK, veuillez écrire le code qui permet de répondre aux questions suivantes, et écrire vos réponses dans une cellule *text markdown* ensuite.
* Combien de fichiers (`fileids`) le corpus Reuters contient-il ?
* Combien de phrases le corpus contient-il ?  (note : un seul appel de fonction est nécessaire)
* Combien de mots le corpus contient-il ?  (note : un seul appel de fonction est nécessaire)
* Veuillez afficher 5 *fileids* de votre choix (les noms, pas les contenus)
* Pour un fichier (*fileid*) de votre choix, veuillez afficher son texte brut, puis la liste de ses phrases, puis enfin la liste de ses mots (avec la tokenization de référence du corpus)

In [47]:
# Veuillez écrire ici le code nécessaire.
NumberFiles = reuters.fileids()
print('number of file :', len(NumberFiles))
NumberSentences= reuters.sents()
print('number of sentence :', len(NumberSentences))
NumberWords= reuters.words()
print('number of word :', len(NumberWords))
FiveFields = reuters.fileids()[:5]
print('Five choice Fields :', FiveFields)
ContentField = reuters.raw(fileids = ['test/14826'])
print ('raw (test/14826) :', ContentField)
ListSentenceField= reuters.sents('test/14826')
print('List of sentence of fields test/14826 :', ListSentenceField)
ListWordField= reuters.words('test/14826')
print('List of Word of fields test/14826 :', ListWordField)




number of file : 10788


KeyboardInterrupt: 

On vous demande maintenant d'expérimenter avec un seul texte du corpus Reuters, pour en extraire les entités nommées.   Veuillez répondre aux questions suivantes.

* À partir du texte brut (*raw*) d'une dépêche de votre choix, effectuez la segmentation en phrases, et affichez le nombre de phrases
* Sur une phrase de votre choix, effectuez avec NLTK la tokenization, le POS tagging et la NER, et affichez le résultat. (Si la phrase ne contient pas d'entité nommée (*chunk*), veuillez en choisir une autre.)
* Quel est le type d'objet que retourne `ne_chunk` ?
* Quelle est l'effet de l'attribut `binary` (True ou False) dans l'appel de `nltk.ne_chunk` ?
* Veuillez rassembler les entités nommées de la phrase en une seule liste, de la forme `[('MTBE', 'ORGANIZATION'), ('United States', 'GPE')]` (veuillez notamment joindre en une seule chaîne les mots des entités à plusieurs mots).

Pour votre information, le `ne_chunk()` de NLTK annote les types suivants d'entités nommées : ORGANIZATION, PERSON, LOCATION, DATE, TIME, MONEY, PERCENT, FACILITY, GPE (= *geo-political entity*).

In [None]:
# Veuillez écrire ici le code nécessaire.
#nltk.download('words')
#nltk.download('maxent_ne_chunker')

ContentField = reuters.raw(fileids = ['test/14826'])
sentences = nltk.sent_tokenize(ContentField)
print('number of sentence :', len(sentences))
chunked = nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(sentences[0])))
print(chunked)
print('# type objet que retourne ne_chunk :', type(chunked))
# Avec le paramètre binary = True, les entités nommées sont simplement marquées comme NE; 
# sinon, le classificateur ajoute des étiquettes de catégorie telles que PERSONNE, ORGANISATION et GPE. 

places =[]
for ne in chunked:
        if len(ne) == 1:
            if (ne.label() == 'GPE' or ne.label() == 'ORGANIZATION'):
                    places.append((ne[0][0], ne.label()))

print(places)

* Veuillez écrire une fonction, commençant par la ligne `def extract_named_entities(text):` qui retourne la liste des entités nommées avec leur type, à partir d'un texte donné (string).  Inspirez-vous de votre réponse à la dernière question ci-dessus.
* Testez votre fonction sur le texte que vous avez utilisé ci-dessus.  
* Observez vous des erreurs de détection (rappel ou précision) et/ou d'étiquetage ?  Merci d'en indiquer quelques-unes.

In [None]:
# Veuillez écrire ici le code nécessaire.
def extract_named_entities(text): 
    places = []
    text = nltk.word_tokenize(text)
    nes = nltk.ne_chunk(nltk.pos_tag(text))
    for ne in nes:
        if len(ne) == 1:
            if (ne.label() == 'GPE' or ne.label() == 'PERSON' or ne.label() == 'LOCATION' or ne.label() == 'DATE' or 
                ne.label() == 'TIME' or ne.label() == 'MONEY' or ne.label() == 'PERCENT' or ne.label() == 'FACILITY' or ne.label() == 'ORGANIZATION'):
                places.append((ne[0][0], ne.label()))
    print(places)

extract_named_entities("In Hong Kong, where newspapers have alleged Japan has been selling elow-cost semiconductors, some electronics manufacturers share that view. But other businessmen said such a short-term commercial advantage would be outweighed by further U.S. Pressure to block imports.")

In [None]:
# Veuillez écrire ici le code nécessaire.
ContentField = reuters.raw(fileids = ['test/14826'])
sentences = nltk.sent_tokenize(ContentField)
extract_named_entities(sentences[0])

In [None]:
# Veuillez écrire ici le commentaire sur les erreurs observées.


Veuillez parcourir tous les textes du corpus Reuters et collecter toutes les entités nommées dans une liste.  Créez ensuite une `FreqDist` et affichez les 30 NE les plus fréquentes avec leur nombre d'occurrences.  Combien de temps approximativement prend cette opération ?  (Suggestion : augmentez progressivement le nombre de fileids que vous traitez, pour estimer le temps total.)  Veuillez commenter le résultat obtenu.

In [None]:
# Veuillez écrire ici le code nécessaire.

sentences = reuters.words()
sentences = nltk.pos_tag(sentences) 
sentences = nltk.ne_chunk(sentences, binary=True)
places =[]
for ne in sentences:
        if len(ne) == 1:
            if (ne.label() == 'NE'):
                places.append((ne[0][0], ne.label()))

print(places)


In [None]:
# Veuillez écrire ici les commentaires sur le résultat.
varNE = nltk.FreqDist(places)

print('affichez les 30 NE les plus fréquentes avec leur nombre doccurrences: ',varNE.most_common(30))


Quel est le nombre total de NE trouvées (occurrences pas nécessairement différentes) et quel est le nombre de NE différentes ?

In [None]:
# Veuillez écrire ici le code nécessaire pour répondre aux deux questions.
print('Nombre total de NE Trouver: ', varNE.N())
print('Nombre de NE différentes: ', len(varNE.most_common()))

## 2. Évaluer la fonction de NER de NLTK sur les données CoNLL 2003

À la conférence [CoNLL](https://www.clips.uantwerpen.be/pages/past-workshops) 2003, une des tâches compétitives consistait à tester des systèmes de NER sur l'anglais (voir [la description de la tâche et les scores obtenus](https://www.clips.uantwerpen.be/conll2003/ner/)).  Les ressources annotées ne sont pas disponibles via CoNLL, mais on peut en trouver [une copie sur le web](https://sourceforge.net/p/text-analysis/svn/1243/tree/text-analysis/trunk/Corpora/CoNLL/2003/) (une [autre copie](https://github.com/synalp/NER/tree/master/corpus/CoNLL-2003) est aussi disponible).  Les textes proviennent du [corpus Reuters](http://trec.nist.gov/data/reuters/reuters.html).  Pour mémoire, une autre source de données est le [corpus WikiNER](https://github.com/dice-group/FOX/tree/master/input/Wikiner).

Le format d'annotation comprend 4 colonnes séparées par un espace.  Ce format ressemble au format "conll" que nous avons utilisé pour le *POS tagging* et le *parsing*.  Chaque ligne correspond à un mot, et une ligne vide sépare les phrases.  Sur chaque ligne, le 1er item est le mot, le 2e est le POS tag, le 3e est un tag qui indique le groupe syntaxique, et le 4e le tag qui indique l'entité nommée.  (À vous d'étudier ce tag plus en détail.)  Il y a des données d'entraînement (`eng.train`), et trois fichiers de test (`eng.testa`, `eng.testb` et `eng.testc`, le 2e ayant servi pour l'évaluation finale).

**Travail demandé**

Les questions qui suivent (inspirées des étapes de ce [tutoriel en ligne](https://pythonprogramming.net/testing-stanford-ner-taggers-for-accuracy/)) vous permettront d'estimer la "justesse" du NER de NLTK  sur les données CoNLL (seulement l'*accuracy*, pas le rappel et la précision).

**Le premier objectif** est d'importer les données CoNLL 2003 dans ce notebook et adapter leur format pour qu'il soit comparable à celui de `nltk.ne_chunk()`, ce qui nécessite aussi la modification de l'output de cette fonction.

En examinant les fichiers `eng.testa`, `eng.testb` et `eng.testc`, décrivez brièvement le format d'annotation CoNLL (2-3 phrases) et indiquez les types de NER annotés.

In [84]:
# Veuillez écrire ici votre réponse.
import os
import nltk

eng_test_a = "eng.testa"
eng_test_b = "eng.testb"
eng_test_c = "eng.testc"

files = [eng_test_a, eng_test_b, eng_test_c]

for file in files :
    if os.path.exists(file):
        fd = open(file, "r", encoding='utf-8')
        content = fd.read()
        #tokens = nltk.word_tokenize(content)
        #print('Tokens in', file, " : ", content)


Veuillez écrire une fonction qui ouvre un fichier CoNLL (p.ex. `eng.testa`) et crée deux listes :
1. la liste des paires (token, pos_tag) que vous passerez plus tard à `ne_chunk()`;
2. la liste des paires (token, ner_tag) où ner_tag est l'une des catégories de NER que vous avez indiquées plus haut.
Ces listes seront stockées comme ci-dessous.  Appelez ensuite cette fonction sur les trois fichiers.

In [102]:
# Voici comment stocker les données dans une structure:
filenames = ['eng.testa', 'eng.testb', 'eng.testc']
test_data = dict()
for f in filenames:
    test_data[f] = dict()
    test_data[f]['words'] = []
    test_data[f]['keytags'] = [] # 'key' signifie correct
    test_data[f]['reptags'] = [] # 'rep' pour réponse du système    
# def conll2nltk(filename='eng.testa'):
# ...

In [103]:
# Veuillez écrire ici le code de la fonction.
# Group NE data into tuples
def group(lst, n):
  for i in range(0, len(lst), n):
    val = lst[i:i+n]
    if len(val) == n:
      yield tuple(val)

def conll2nltk(filename='eng.testa'):
    raw_annotations = open(filename).read()
    split_annotations = raw_annotations.split()

    # Amend class annotations to reflect Stanford's NERTagger
    for (n,i) in enumerate(split_annotations):
        if i == "I-PER":
            split_annotations[n] = "PERSON"
        if i == "I-ORG":
            split_annotations[n] = "ORGANIZATION"
        if i == "I-LOC":
            split_annotations[n] = "LOCATION"

    reference_annotations = list(group(split_annotations, 4))

    w_pos = []
    w_ner = []
    for (w, pos, syn, ner ) in reference_annotations:
        w_pos.append((w,pos))
        w_ner.append((w,ner))

    return w_pos, w_ner

In [104]:
# Veuillez appliquer la fonction aux trois noms de fichier fournis.
test_data2 = dict()
for f in filenames:
    test_data2[f] = dict()
    test_data2[f]['token_pos'] = []
    test_data2[f]['token_ner'] = []

    test = conll2nltk(f)
    test_data2[f]['token_pos']= test[0]
    test_data2[f]['token_ner'] = test[1]

    #reference annotation
    test_data[f]['keytags'] = test[1]

print(test_data2['eng.testc']['token_pos'])
print(test_data2['eng.testc']['token_ner'])

[('West', 'NNP'), ('Indian', 'NNP'), ('all-rounder', 'NN'), ('Phil', 'NNP'), ('Simmons', 'NNP'), ('took', 'VBD'), ('four', 'CD'), ('for', 'IN'), ('38', 'CD'), ('on', 'IN'), ('Friday', 'NNP'), ('as', 'IN'), ('Leicestershire', 'NNP'), ('beat', 'VBD'), ('Somerset', 'NNP'), ('by', 'IN'), ('an', 'DT'), ('innings', 'NN'), ('and', 'CC'), ('39', 'CD'), ('runs', 'NNS'), ('in', 'IN'), ('two', 'CD'), ('days', 'NNS'), ('to', 'TO'), ('take', 'VB'), ('over', 'IN'), ('at', 'IN'), ('the', 'DT'), ('head', 'NN'), ('of', 'IN'), ('the', 'DT'), ('county', 'NN'), ('championship', 'NN'), ('.', '.'), ('Their', 'PRP$'), ('stay', 'NN'), ('on', 'IN'), ('top', 'NN'), (',', ','), ('though', 'RB'), (',', ','), ('may', 'MD'), ('be', 'VB'), ('short-lived', 'JJ'), ('as', 'IN'), ('title', 'NN'), ('rivals', 'NNS'), ('Essex', 'NNP'), (',', ','), ('Derbyshire', 'NNP'), ('and', 'CC'), ('Surrey', 'NNP'), ('all', 'DT'), ('closed', 'VBD'), ('in', 'RP'), ('on', 'IN'), ('victory', 'NN'), ('while', 'IN'), ('Kent', 'NNP'), ('made

**Le second objectif** est de donner les mots à `ne_chunk()`, obtenir le résultat de la NER, et le stocker dans la même forme que l'annotation de référence (des paires de (token, TAG) pour tous les tokens).  Ces résultats seront ajoutés à la structure `test_data` dans le champ 'reptags' (pour "response tags"). 

In [105]:
# Veuillez écrire ici le code pour les 3 datasets.
def getNltkNE(filename='eng.testa'):
    raw_annotations = open(filename).read()
    split_annotations = raw_annotations.split()
    pure_tokens = split_annotations[::4]
    #print(pure_tokens)

    tagged_words = nltk.pos_tag(pure_tokens)
    nltk_unformatted_prediction = nltk.ne_chunk(tagged_words)

    #Convert prediction to multiline string and then to list (includes pos tags)
    multiline_string = nltk.chunk.tree2conllstr(nltk_unformatted_prediction)
    listed_pos_and_ne = multiline_string.split()

    # Delete pos tags and rename
    del listed_pos_and_ne[1::3]
    listed_ne = listed_pos_and_ne

    # Group prediction into tuples
    nltk_formatted_prediction = list(group(listed_ne, 2))
    #print(nltk_formatted_prediction)
    return nltk_formatted_prediction


for f in filenames:
    test = conll2nltk(f)
    test_data[f]['reptags']= getNltkNE(f)

Veuillez vérifier, pour chaque fichier, que les listes 'keytags' et 'reptags' ont le même nombre de mots, en les affichant côte à côte.

In [106]:
# Veuillez écrire ici le code pour les 3 datasets.
for f in filenames:
    print(f, ' keytags : ',len(test_data[f]['keytags']), '\treptags : ',len(test_data[f]['reptags']))


eng.testa  keytags :  51578 	reptags :  51578
eng.testb  keytags :  46666 	reptags :  46666
eng.testc  keytags :  72 	reptags :  72


**Le 3e et dernier objectif** est de calculer la pourcentage d'étiquettes correctes dans les trois fichiers par rapport au nombre de mots de chacun.  

Pour ce faire, remarquez que les étiquettes assignées par NLTK sont ORGANIZATION, PERSON, LOCATION, DATE, TIME, MONEY, PERCENT, FACILITY, GPE (= geo-political entity), alors que celles des fichiers CoNLL sont celles que vous avez indiquées en réponse plus haut.  Pour comptabiliser les réponses correctes, il faut d'abord définir une fonction appelée `compatible(n, c)` qui indique si deux étiquettes (l'une de NLTK, l'autre de CoNLL) sont conceptuellement identiques (c'est-à-dire qu'elles ont la même signification).

In [119]:
# Veuillez définir ici une fonction de comparaison des tags NER.
def compatible(t1, t2):
    def compOneWay(tag1, tag2):
        comp = tag1
        if tag1 == "B-PERSON" or tag1 == "I-PERSON":
            comp = "PERSON"
        if tag1 == "B-ORGANIZATION" or tag1 == "I-ORGANIZATION":
            comp = "ORGANIZATION"
        if tag1 == "B-LOCATION" or tag1 == "I-LOCATION" or tag1== "B-GPE" or tag1 == "I-GPE":
            comp = "LOCATION"
        return comp == tag2

    return compOneWay(t1, t2) or compOneWay(t2, t1)

for f in filenames:
    print(f, ' keytags : ',test_data[f]['keytags'][71])
    print('reptags : ',test_data[f]['reptags'][71])
    print('compat : ', compatible(test_data[f]['keytags'][71][1],test_data[f]['reptags'][71][1]))

print(compatible('C-PERSON', 'PERSON'))

eng.testa  keytags :  ('victory', 'O')
reptags :  ('victory', 'O')
compat :  True
eng.testb  keytags :  ('China', 'LOCATION')
reptags :  ('China', 'B-GPE')
compat :  True
eng.testc  keytags :  ('.', 'O')
reptags :  ('.', 'O')
compat :  True
False


In [124]:
# Veuillez définir ici une fonction qui compare deux listes de (mot, tag) et qui
# retourne le pourcentage de (mot, tag) identiques selon la fonction "compatible()".

def compare(l1, l2):
    if len(l1) != len(l2):
        return

    count = 0
    for i in range(len(l1)) :
        if compatible(l1[i][1], l2[i][1]):
            count += 1
    return 100 * count/len(l1)

In [125]:
# Veuillez appliquer ici la fonction ci-dessus et afficher les scores sur les 3 datasets.

for f in filenames:
    print(f, compare(test_data[f]['keytags'], test_data[f]['reptags']))


eng.testa 91.18034821047733
eng.testb 90.0270003857198
eng.testc 90.27777777777777


**Note sur `nltk.ne_chunk()`.** Pour mémoire, signalons que le résultat de `nltk.ne_chunk()`, qui est un arbre, peut être transformé en une chaîne de caractères multi-lignes formatée selon les guidelines CoNLL grâce à la méthode `nltk.chunk.tree2conllstr()`.  Par ailleurs, pour comparer deux étiquetages de mots (listes de paires (mot, tag)), on peut utiliser directement la fonction `nltk.metrics.scores.accuracy` de NLTK, pour autant que les tags soient comparables avec `==`.

## Remarque finale
Il est possible d'appliquer de la même façon [l'outil de NER avec CRF fourni par Stanford](https://nlp.stanford.edu/software/CRF-NER.html).  Les CRF, *Conditional Random Fields*, sont le modèle probabiliste qui est utilisé dans cet outil.

Comme dans le cas du *POS tagger* CoreNLP de Stanford, on peut invoquer l'outil en ligne de commande (suivant les exemples fournis [ici](https://nlp.stanford.edu/software/CRF-NER.html#Starting) ou [ici](https://nlp.stanford.edu/software/crf-faq.shtml), notamment pour les [options de sortie](https://nlp.stanford.edu/software/crf-faq.shtml#j)).  Ou alors, on peut utiliser le [wrapper `StanfordNERTagger` de NLTK](http://www.nltk.org/api/nltk.tag.html?#nltk.tag.stanford.StanfordNERTagger).  On peut alors voir que les performances sont plus élevées que celles de `nltk.ne_chunk()`. 

Une [version plus élaborée de NER est fournie par Stanford dans le cadre de la boîte à outils CoreNLP](https://stanfordnlp.github.io/CoreNLP/ner.html).

## Fin du laboratoire 4

Merci de nettoyer votre feuille, exécuter une dernière fois toutes les instructions, sauvegarder le résultat, et le soumettre sur Cyberlearn.