<a href="https://colab.research.google.com/github/nicolashernandez/teaching_nlp/blob/main/M2-ATAL-2021-22_02_Machine_Learning_by_feature_engineering_Use_case_NER.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
# Objectifs

* Vérifier les comparatifs de performance des systèmes états de l'art (**spaCy, Stanza, trankit**) en reconnaissance d'entités nommées (PER, LOC, ORG et MISC) en les testant sur de nouvelles données (**WiNER**) 
* Tenter de faire mieux avec l'agorithme d'apprentissage supervisée qui était l'état de l'art des approches statistiques à savoir les _Conditional Random Fields_ ou **CRF**s. Cet algorithme requiert que l'on indique à l'algorithme d'apprentissage les traits à observer dans la donnée. On utilisera le même corpus d'entraînement que les systèmes état de l'art disponibles à savoir **Wikiner**. 



---
# Installation

Ne pas oublier de redémarrer l'environnement d'exécution après exécution du code ci-dessous.

In [None]:
# récupération du modèle spaCy "small" pour les traitements linguistiques du français
# ne pas oublier de redémarrer l'environnement d'exécution
!python -m spacy download fr_core_news_sm

In [None]:
# installation de stanza
!pip install stanza

In [None]:
# retrieve a list of french stop words 
# "ça peut toujours servir..."
import nltk 
nltk.download('stopwords')
fr_stop_words = nltk.corpus.stopwords.words('french')

In [None]:
# utilities 

def flatten(t):
  # applatie une liste de listes en une unique liste... 
  # [[a, b], [c], [d, e, f]] -> [a, b, c, d, e, f]
  return [item for sublist in t for item in sublist]

import re 
def normalise_labels(sentences):
  # normalise les sorties des étiquettes NER utilisées par les différents 
  # systèmes afin de les rendre comparable
  new_sentences = list()
  for sentence in sentences:
    new_sentence = list()
    for label in sentence:
      if label != 'O':
        label = re.sub('^[A-Z]-','', label)
      new_sentence.append(label)
    new_sentences.append(new_sentence)
  return new_sentences

---
# Introduction : La reconnaissance d'Entités Nommées



> _We’ll use the term **named entity** for, roughly speaking, anything that can be referred to with a named entity proper name: a person, a location, an organization, although as we’ll see the term is commonly extended to include things that aren’t entities per se._ 
 [Chapter 8 - Sequence Labeling for parts of speech and named entities. In Speech and Language Processing. Daniel Jurafsky & James H. Martin. Draft of September 21, 2021.](https://web.stanford.edu/~jurafsky/slp3/8.pdf)

La tâche de reconnaissance d'EN n'est pas une tâche de classification comme les autres où pour chaque instance il s'agit d'assigner la bonne classe. Dans une tâche de reconnaissance d'EN, il faut à la fois délimitter les mots qui composent l'instance et assigner l'étiquette à cette instance. Une astuce a été proposée pour se ramener au premier type de problème : il s'agit de considérer les mots commes des instances et de spécifier les étiquettes avec des préfixes pour désigner si le mot courant _Begin_ une NE, si il est _Inside_ une NE ou bien _Outside_. En savoir plus sur le [format BIO](https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)) et connaître les variantes ([Lire le paragraphe "_Tagging schemes_" de la section "_6.1 Evaluated Hyperparameters_ de Reimers and Iryna Gurevych EMNLP'2017](https://arxiv.org/pdf/1707.06799.pdf) 

Ainsi la tâche de **Reconnaissance d'Entités Nommées** (en anglais _Named Entity Recognition_ ou _NER_) consiste à assigner aux mots des étiquettes comme PER(SON), LOC(ATION), or ORG(ANIZATION). Une tâche dans laquelle on assigne pour chaque mot `x_i` d'une séquence de mots en entrée, une étiquette (_label_ en anglais) `y_i`, de telle façon que la séquence `Y` en sortie a la même longueur que la séquence `X` en entrée est appellée **tâche d'étiquetage de séquence** (_sequence labeling task_ en anglais). 
Parmi les algorithmes classiques qui capturent les dépendances entre les mots on liste le _Hidden Markov Model (HMM)_, le _Conditional Random Field (CRF)_. 

Par la suite, nous nous intéresserons aux EN les plus classiques à savoir les types LOC, ORG, PER, aussi appelées _enamex_ depuis la 6e compétition des _Message Understanding Conferences (MUC-6)_. Cf.
[Grishman, Ralph; Sundheim, Beth (1996). Design of the MUC-6 evaluation (PDF). TIPSTER '96 Proceedings](https://dl.acm.org/doi/10.3115/1119018.1119072). 
Nous considérerons le type _MISC(ELLANEOUS)_ utilisé dans les conférences [CONLL](https://www.conll.org/) qui inclut les noms propres autres que les classiques _enamex_.

Pour un revue et définition des types d'EN cf. [Nadeau, David; Sekine, Satoshi (2007). A survey of named entity recognition and classification (PDF). Lingvisticae Investigationes](https://nlp.cs.nyu.edu/sekine/papers/li07.pdf).

Les données que nous manipulerons ont été pré-traités pour tokeniser les textes et normaliser les jeux d'étiquettes des NE et des POS (part of speech).

Référez vous au notebook précédent pour les présentations de spaCy, Stanza et Trankit.

# Protocole d'évaluation



## WiNER, données de développement

[WiNER](https://github.com/YoannDupont/WiNER-fr) is a free corpus for Named Entity Recognition based on Wikinews texts.

The current named entity tagset is:
* Date (absolute dates.)
* Event (conferences, sports events, annual events, celebration days, named climatic events, etc.)
*  Hour (absolute hours. If present, they include time zones, UTC, GMT, etc.)
* Location (countries, towns, regions, addresses, astophysicals objects, hydrophysical objects, etc.)
* Organization (non profit organizations, companies, medias, etc.)
* Person (human individuals, without their title or function. They can be actual people or fictional characters.)
* Product (physical objects, brands, softwares.)

The tagset was defined using various campaigns or resources: MUC-6, CoNLL-2003, Named Entity annotated French Treebank and Quaero. Every type defined in this tagset is directly taken from one of those.

> Yoann Dupont. Un corpus libre, évolutif et versionné en entités nommées du français. TALN 2019 - Traitement Automatique des Langues Naturelles, Jul 2019, Toulouse, France. 
https://hal.archives-ouvertes.fr/hal-02448590

Le format de stockage original utilisé pour représenter les annotations est de type **_stand off annotation_**. _standoff_ désigne les formats où les annotations sont stockées séparément du contenu annoté, lequel n’est jamais modifié par l'outil annotateur. Pour déterminer à quel contenu annoté, une annotation est rattachée, on accompagne les annotations d'offsets (indice de caractères de début et de fin) du contenu annoté ou d'indices de tokens du contenu annoté. La lecture de ces formats par un humain n’est pas forcément aisée, leur manipulation (édition et visualisation) requiert des développements spécifiques. Néanmoins ces formats présentent l’intérêt de gérer la concurrence entre annotations (e.g. des annotations qui se recouvrent partiellement ou de même type mais de fournisseurs différents), de ne pas être contraint par la nature de l’information ajoutée (span, relation, ...) et surtout de ne perdre aucune information du document original (ne serait ce que sa mise en forme). 

Ici un [exemple de texte extrait du corpus](https://github.com/YoannDupont/WiNER-fr/blob/master/2016/01/2016_01_01-001.txt) et son [fichier associé qui contient les annotations "standoff"](https://github.com/YoannDupont/WiNER-fr/blob/master/2016/01/2016_01_01-001.ann).


### QUESTION

* Le corpus WiNER, tel qu'il est téléchargeable sur le site de son fournisseur, utilise-t-il des offsets ou des indices de tokens ? 

### VOTRE REPONSE

**TODO**

### Récupération et préparation des données

Pour les besoins de ce travail, nous utiliserons un extrait du corpus, tokenisé par spaCy, avec les annotations projetées sur les tokens. 

Ce sont les types LOC, ORG, PER et MISC qui nous intéresseront.

Le type _Location_ a été renommé en _LOC_, _Organization_ en _ORG_, _Person_ en _PER_. Stanza et spaCy reconnaissent aussi des entités de type MISC. Sans vraiment chercher ce qu'elle désigne, nous avons pris le partie de renommer _Product_ en _MISC_. 



In [None]:
!mkdir -p data
!wget -nc https://github.com/nicolashernandez/teaching_nlp/raw/main/data/winer_dev.joblib -P data

In [None]:
# load the test corpus
from joblib import load
winer_corpus = load('data/winer_dev.joblib')

# get the tokens of each text
# liste chaque forme de surface de chaque mot de chaque phrase
winer_tokens = [[token for token, pos, label in text] for text in winer_corpus]
# liste chaque étiquette (label) de chaque mot de chaque phrase
winer_ref = [[label for token, pos, label in text] for text in winer_corpus]
labels = list(set(flatten(winer_ref)))

#
print ('#texts:', len(winer_corpus))
print ('labels:', labels)

print ('sample of annotated texts:', winer_corpus[0])   
print ('sample of tokenized text:', winer_tokens[0])   

## Métriques d'évaluation

La reconnaissance des entités nommées est un problème de classification multi-classes. On peut donc utiliser toutes les mesures de classification. En général, on privilégie la **micro-moyenne de scores F1** (_micro-averaged F1_) qui combine précision et rappel.

La micro-moyenne d'une métrique aggrège d'abord les contributions de toutes les classes avant de calculer la métrique tandis que la macro-moyenne calcule la métrique indépendamment pour chaque classe puis en fait la moyenne. 

La macro-moyenne traite toutes les classes de manière égale. 
Dans le cas où le système n'est bon que pour reconnaître une classe (la classe dominante), la micro-moyenne peut être élevée car les contributions des autres classes seront insignifiantes. Dans ce cas, la macro-moyenne sera basse.

Dans le cas où le système n'est mauvais que pour la reconnaissance d'une seule classe, la macro-moyenne gommera son effet. La micro-moyenne peut être élevée même si le système donne de mauvais résultat sur des classes rares, car il donne plus de poids aux classes communes.




In [None]:
# Measures definition
from sklearn.metrics import classification_report

def results_per_class(labels, y_ref, y_hyp):
  # Inspect per-class results in more detail:
  sorted_labels = sorted(
    labels,
    key=lambda name: (name[1:], name[0])
  )
  # print ('y_ref', len(y_ref), 'y_hyp', len(y_hyp), 'sorted_labels', len(sorted_labels))
  return classification_report(flatten(y_ref), flatten(y_hyp), labels=sorted_labels, digits=3)

In [None]:
# Il y a beaucoup plus d'entités 'O' que les autres dans le corpus, 
# mais nous sommes davantage intéressés par les autres entités. 
# Pour ne pas biaiser les scores de moyenne, on retire les étiquettes qui ne nous intéressent pas.
print ("before removing:", labels)
labels_to_remove = ['O', 'Event', 'Date', 'Hour']
for l in labels_to_remove:
  if l in labels:
    labels.remove(l)
print ("after removing:", labels)

---
# Prédiction et évaluation de spaCy

Avant tout autre traitement linguistique, spaCy tokenize les textes donnés en entrée (et segmente en phrases aussi). Néanmoins quand les textes ont déjà été tokenisés ou bien pour appliquer spaCy sur une tokenization produite par un autre outil, il est possible de fournir en entrée de spaCy des textes où la tokenization est marquée par un espace et d'indiquer au moteur de spaCy d'utiliser un tokenizer fondé sur les espaces...

## Construction de la chaîne de traitements

Création d'un moteur `spacy_nlp` qui traite le français (entre autres qui reconnait les entités nommées) et tokenize d'abord sur les espaces.

In [None]:
# Create my whitespace tokenizer
#
# one trick to make spaCy consider a tokenization performed by a third-party component: 
# use whitespace as separator for marking the third-party component tokenization 
# and force spacy to use a whitespace tokenizer...

from spacy.tokens import Doc

class WhitespaceTokenizer(object):
    def __init__(self, vocab):
        self.vocab = vocab

    def __call__(self, text):
        words = text.split(' ')
        # All tokens 'own' a subsequent space character in this tokenizer
        spaces = [True] * len(words)
        return Doc(self.vocab, words=words, spaces=spaces)

In [None]:
# Build a spacy nlp pipeline with a ner model and the whitespace tokenizer

import spacy

# load a nlp model
spacy_nlp = spacy.load("fr_core_news_sm")

# declare the whitespace tokenizer
spacy_nlp.tokenizer = WhitespaceTokenizer(spacy_nlp.vocab)

#
#print ('nlp pipeline='+str([name for (name, proc) in spacy_nlp.pipeline]))
# pipeline['tagger', 'parser', 'ner']

## Prédiction

Pour chaque phrase de WiNER, on applique spaCy et on stoque les étiquettes NE prédites pour chaque mot de chaque phrase dans un tableau, appelé hypothèse de spaCy `spacy_hyp`.

In [None]:
# Run spacy nlp pipeline made of ner component and evaluate it
# CPU --- 13.573408365249634 seconds ---
# GPU --- 10.968162775039673 seconds ---

#
import time
start_time = time.time()

spacy_hyp = []
# pour chaque phrase de wikiner
for text in winer_tokens:
    # à la volée on désactive les analyseurs syntaxiques pour gagner en rapidité
    # tokenize et appliquer le modèle de reconnaissance des EN embarqué dans le modèle
    doc = spacy_nlp(' '.join(text), disable=["tagger", "parser"])
    #print (doc)
    spacy_hyp.append([(token.ent_iob_+'-'+token.ent_type_) for token in doc])
    #break

#
print("--- %s seconds ---" % (time.time() - start_time))

# normalize the hyp labels
normalized_spacy_hyp = normalise_labels(spacy_hyp)
#print (winer_tokens[0])
#print (winer_ref[0])
#print (spacy_hyp[0])
#print (normalized_spacy_hyp[0])


## Evaluation

On compare l'hypothèse de spaCy avec la référence. On fournit les étiquettes que l'on souhaite considérer dans le calcul des mesures.

In [None]:
# Evaluate on data 
print (results_per_class(labels, winer_ref, normalized_spacy_hyp))

### QUESTION

La colonne _support_ indique le nombre d'instances par classe. 

* Le f1-score de la classe _MISC_ est très mauvais. Pour rappel, la classe MISC à reconnaître dans le corpus WiNER correspond à sa classe Product que nous avons renommé. Pour rappel encore, spaCy a été entraîné avec le corpus Wikiner. En vous rapportant à la définition de la classe Product du [corpus WiNER](https://github.com/YoannDupont/WiNER-fr) et en la comparant avec la définition de la classe MISC du [corpus Wikiner](https://www.sciencedirect.com/science/article/pii/S0004370212000276?via%3Dihub
), émettez une hypothèse qui puisse expliquer la mauvaise qualité des résultats.  
* Retirez la classe MISC du décompte ou bien vérifiez votre hypothèse. Le choix n'est qu'illusoire, c'est la seconde alternative qui est demandée : écrivez les lignes de code (ou modifier le code existant) pour montrer qu'un étiquetage des entités MISC dans le corpus WiNER plus en accord avec la définition de Wikiner permet d'augmenter les performances de spaCy.

### VOTRE REPONSE

**TODO**

---
# Prédiction et évaluation de Stanza

Ci-dessous le code qui permet de construire un moteur Stanza de traitements linguistiques du français. 

## Construction de la chaîne de traitements



In [None]:
# Build a stanza nlp pipeline with a ner model and the whitespace tokenizer

import stanza

# download French model
stanza.download('fr') 

# https://stanfordnlp.github.io/stanza/tokenize.html#start-with-pretokenized-text 
# pretokenized (and sentence split) text correspond to use newline (\n) to separated sentences and each sentence is space separated tokens
stanza_nlp = stanza.Pipeline('fr', processors='tokenize,ner', tokenize_pretokenized=True) # initialize French neural pipeline

# run on sample 
#doc = stanza_nlp("Barack Obama est né à Hawaii .") # run annotation over a sentence
#print(doc)
#print(doc.entities)
#print(*[f'token: {token.text}\tner: {token.ner}' for sent in doc.sentences for token in sent.tokens], sep='\n')

## Prédiction

Attention "**spoiler**" : la prédiction est beaucoup lente que spaCy. Testez le temps de traitement avec une copie du notebook...

In [None]:
# Running stanza nlp pipeline made of ner component and evaluate it
# CPU --- 1848.740861415863 seconds ---
# GPU --- 311.1391832828522 seconds ---

#
import time
start_time = time.time()

# 
stanza_hyp = []
for text in winer_tokens:
    doc = stanza_nlp(' '.join(text))
    stanza_hyp.append([token.ner for sent in doc.sentences for token in sent.tokens])

#
print("--- %s seconds ---" % (time.time() - start_time))

# normalize the hyp labels
normalized_stanza_hyp = normalise_labels(stanza_hyp)


## Evaluation

In [None]:
# Evaluate on data 
print (results_per_class(labels, winer_ref, normalized_stanza_hyp))

### QUESTION

Le type d'exécution par défaut de Google Colab utilise un CPU pour les calculs.
* En termes de rapidité de traitement, quel est le meilleur des deux systèmes spaCy ou Stanza ? 
* Pouvez-vous donner une idée du nombre de mots traités à la seconde ? Cette question requiert quelques lignes de codes. Vous pouvez soit faire une estimation globale avec le temps que vous avez obtenu à la question précédente, soit vous restreindre à quelques phrases pour votre estimation. A noter que pour ce type d'estimation, la bonne démarche est de répéter la mesure plusieurs fois (de quelques centaines à millier de fois) et de retourner le temps moyen. On vous dispense de calculer la moyenne.
* Google Colab vous permet de changer de type d'exécution CPU et de passer à un type GPU. Cela accélèrera les entraînements comme les prédictions des modèles. Pour ce faire, `Exécution > Modifier le type d'exécution > GPU`. Il vous faudra ensuite exécuter à nouveau tout le code. Attention à ne pas utiliser inutillement cette ressource. Le rapport a t-il changé ? Le gain est-il probant ?
* En terme de qualité de traitement, quel est le meilleur des deux systèmes spaCy ou Stanza ?
* Est-ce que ces observations correspondent à ce qui est relevé sur le [comparatif de performance du site de spaCy](https://spacy.io/usage/facts-figures) ? 
* Voyez-vous d'autres indicateurs pour comparer les systèmes ?

Suivez les liens suivants pour en savoir plus sur 
* la [consommation énergétique de l’utilisation de l’IA](https://ecoinfo.cnrs.fr/2021/06/12/consommation-energetique-de-lutilisation-de-lia/)
* les [impacts environnementaux des outils d’apprentissage profond (deep learning)](https://ecoinfo.cnrs.fr/2019/10/01/impact-environnemental-de-lia/). Les références citent un cours donné par AL Ligozat.




### VOTRE REPONSE

**TODO**

---
# Prédiction et évaluation de trankit

Pour rappel, Trankit _is a light-weight Transformer-based Python Toolkit for multilingual Natural Language Processing (NLP). The v1.0.0 has pretrained pipelines using XLM-Roberta Large. The pipeline obtains competitive or better named entity recognition (NER) performance compared to existing popular toolkits on 11 public NER datasets over 8 languages._

> [Nguyen, Minh Van and Lai, Viet and Veyseh, Amir Pouran Ben and Nguyen, Thien Huu, Trankit: A Light-Weight Transformer-based Toolkit for Multilingual Natural Language Processing, Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, 2021](https://arxiv.org/pdf/2101.03289.pdf)

* Consignes d'installation https://trankit.readthedocs.io/en/latest/installation.html
* Consignes d'exécution d'un ner https://trankit.readthedocs.io/en/latest/ner.html

### QUESTION

La question suivante sera a traité en fonction de votre avancement et des consignes données par votre encadrant. Posez lui la question.

* Votre travail est d'installer et de mettre en oeuvre trankit pour évaluer sa performance sur le corpus WiNER. Suivre les consignes TODO ci-dessous.
* Que pouvez-vous des performances de trankit comparativement aux autres systèmes ?
* trankit peut traiter une phrase ou une liste de phrases. Quelle précaution dois-je prendre dans ce second cas ?

### VOTRE REPONSE

**TODO**

## Construction de la chaîne de traitements

In [None]:
# TODO installation des modules pip requis

In [None]:
# TODO construction de la pipeline trankit_nlp à partir d'un modèle français


## Prédiction

In [None]:
# Running trankit nlp pipeline made of ner component and evaluate it
# CPU
# GPU --- 162.0407838821411 seconds ---

import time
start_time = time.time()

trankit_hyp = []
# TODO appliquer trankit_nlp à chaque phrase tokenisée et récupérer les étiquettes de chaque mot de chaque phrase dans stanza_hyp
for text in winer_tokens:
    print ('TODO')

#
print("--- %s seconds ---" % (time.time() - start_time))

In [None]:
# normalize the hyp labels
normalized_trankit_hyp = normalise_labels(trankit_hyp)

# evaluate on data 
print (results_per_class(labels, winer_ref, normalized_trankit_hyp))

---
# Construction d'un système NER selon une approche supervisée CRF à base de traits 

L'algorithme des _Conditional random fields_ est décrit dans l'article suivant : 
> [Conditional random fields: Probabilistic models for segmenting and labeling sequence data, Lafferty, J., McCallum, A., Pereira, F., Proc. 18th International Conf. on Machine Learning, Morgan Kaufmann, p. 282–289, 2001](https://people.cs.umass.edu/~mccallum/papers/crf-tutorial.pdf)

De manière simplifiée, le modèle apprend à prédire la séquence d'étiquettes _statistiquement_ la plus probable donnée une séquence de mots. En pratique, un mot est représenté par un ensemble de traits tels que sa forme de surface, son étiquette grammaticale, son suffixe, le fait qu'il débute par une majuscule, des traits du mot qui le précède... 

De manière plus formelle, un [CRF (section 8.5)](https://web.stanford.edu/~jurafsky/slp3/8.pdf) est un modèle log-linéaire qui assigne une probabilité à une entière séquence d'étiquettes Y, donnée une séquence de mots X. La fonction [log-linéaire](https://en.wikipedia.org/wiki/Log-linear_model) est une fonction qui retourne le logarithme d'une combinaison linéaire de différents paramètres ; chacun des paramètres correspondant à la somme d'un type trait de la séquence de mots considérés. Cette fonction, log-linéaire, permet d'appliquer une [régression linéaire multiple](https://en.wikipedia.org/wiki/Linear_regression) qui permet de modéliser les relations entre des scalaires (les valeurs des traits) et des variables (les étiquettes).
L'entraînement vise à apprendre au modèle à "_discriminer_" parmis toutes les séquences possibles.

Les cellules ci-dessous implémentent une solution de bout en bout pour
- entraîner un modèle de prédiction à partir des données d'entraînement Wikiner; 
- appliquer le modèle construit pour la prédiction d'entités nommées sur le corpus de dev WiNER;
- évaluer les résultats.

Avant de la mettre en oeuvre, lisez la suite.

Dans une méthode d'apprentissage supervisée à base de traits, c'est au "scientifique" ou "ingénieur de la donnée" de définir et d'implémenter les traits à observer dans la donnée et à donner en entrée du système d'apprentissage.

Les premières cellules de code ci-dessous proposent une implémentation d'une méthode d'extraction de traits du mot courant à savoir la méthode `word2features`.
Cette méthode doit être appelées aussi bien sur les données d'entraînement que sur les données où l'on cherche à appliquer un modèle construit pour obtenir une prédiction. Cette méthode est à la base de la construction de la représentation des mots et donc de la séquence de mots que traite l'algo de prédiction.

Nous utiliserons l'implémentation `sklearn_crfsuite.CRF` qui globalement suit l'API sklearn. Nous suivrons la démarche décrite dans le tutoriel de l'implémentation [sklearn-crfsuite](https://sklearn-crfsuite.readthedocs.io/en/latest/tutorial.html).
L'optimisation des paramètres est possible (cf. le tutoriel).

Poursuivez votre lecture mais sachez que le système fonctionne en l'état.

## Wikiner, données d'entraînement

Pour entraîner notre système, nous allons utiliser les mêmes données d'entraînement de que les composants NER de spaCy ou Stanza à savoir les données du corpus Wikiner.

```
@Article{nothman2012:artint:wikiner,
  author = {Joel Nothman and Nicky Ringland and Will Radford and Tara Murphy and James R. Curran},
  title = {Learning multilingual named entity recognition from {Wikipedia}},
  journal = {Artificial Intelligence},
  publisher = {Elsevier},
  volume = {194},
  pages = {151--175},
  year = {2012},
  doi = {10.1016/j.artint.2012.03.006},
  url = {http://dx.doi.org/10.1016/j.artint.2012.03.006}
}
```
https://www.sciencedirect.com/science/article/pii/S0004370212000276?via%3Dihub

Les données utilisées proviennent de l'annotation "silver standard" du [corpus Wikiner généré à partir de la Wikipedia et téléchargeable ici](https://github.com/dice-group/FOX/tree/master/input/Wikiner). 

Le pos tagging a été modifié pour adopter le système d'étiquettes de l'[universal dependencies (UD)](https://universaldependencies.org/u/pos/) (grâce à spaCy).


In [None]:
# Getting the data
!mkdir -p data 
!wget -nc https://github.com/nicolashernandez/teaching_nlp/raw/main/data/wikiner_ud.joblib.bz2 -P data
!bzip2 -dk data/wikiner_ud.joblib.bz2

# Loading the corpus 
from joblib import load
wikiner_corpus = load('data/wikiner_ud.joblib') 


# Aperçu du nombre de phrases et d'une phrase annotée (liste de tokens composés de la forme, de la catégorie grammaticale et de l'étiquette BIO correspondant en l'entité nommée.
print (len(wikiner_corpus))
print (wikiner_corpus[0])  
# [('Il', 'PRO:PER', 'O'), ('assure', 'VER:pres', 'O'), ('à', 'VER:pper', 'O'), ('la', 'DET:ART', 'O'), ('suite', 'NOM', 'O'), ('de', 'PRP', 'I-PER'), ('Saussure', 'NAM', 'I-PER'), ('le', 'DET:ART', 'O'), ('cours', 'NOM', 'O'), ('de', 'PRP', 'O'), ('grammaire', 'NOM', 'O'), ('comparée', 'ADJ', 'O'), (',', 'PUN', 'O'), ("qu'", 'PRO:REL', 'O'), ('il', 'PRO:PER', 'O'), ('complète', 'VER:subp', 'O'), ('à', 'VER:pper', 'O'), ('partir', 'VER:infi', 'O'), ('de', 'PRP', 'O'), ('1894', 'NUM', 'O'), ('par', 'PRP', 'O'), ('une', 'DET:ART', 'O'), ('conférence', 'NOM', 'O'), ('sur', 'PRP', 'O'), ("l'", 'DET:ART', 'O'), ('iranien', 'ADJ', 'O'), ('.', 'SENT', 'O')]
# [('Il', 'PRON', 'O'), ('assure', 'VERB', 'O'), ('à', 'ADP', 'O'), ('la', 'DET', 'O'), ('suite', 'NOUN', 'O'), ('de', 'ADP', 'I-PER'), ('Saussure', 'NOUN', 'I-PER'), ('le', 'DET', 'O'), ('cours', 'NOUN', 'O'), ('de', 'ADP', 'O'), ('grammaire', 'ADJ', 'O'), ('comparée', 'VERB', 'O'), (',', 'PUNCT', 'O'), ("qu'", 'SCONJ', 'O'), ('il', 'PRON', 'O'), ('complète', 'VERB', 'O'), ('à', 'ADP', 'O'), ('partir', 'VERB', 'O'), ('de', 'ADP', 'O'), ('1894', 'NUM', 'O'), ('par', 'ADP', 'O'), ('une', 'DET', 'O'), ('conférence', 'NOUN', 'O'), ('sur', 'ADP', 'O'), ("l'", 'DET', 'O'), ('iranien', 'NOUN', 'O'), ('.', 'PUNCT', 'O')]

Dans la cellule ci-dessous vous pouvez spécifier la quantité de données du corpus que vous souhaitez utiliser pour votre entraînement. En l'état, il est spécifié 10% pour faire des tests fonctionnels.

In [None]:
# shuffle the data
#from random import shuffle
#shuffle(wikiner_corpus)

print ('len(wikiner_corpus):', len(wikiner_corpus))


# compute corpus partition sizes 
_100_percent = int(len(wikiner_corpus)/100*100)

_80_percent = int(len(wikiner_corpus)/100*80)
_50_percent = int(len(wikiner_corpus)/100*50)
_10_percent = int(len(wikiner_corpus)/100*10)

# TODO ICI vous pouvez choisir la quantité de données 
# 10 % vous permet de faire des tests fonctionnels mais le modèle qui sera entraîné sera pauvre
train_sentences = wikiner_corpus[:_10_percent]
print ('len(train_sentences):', len(train_sentences))


## Extraction des caractéristiques

Ci-dessous vous trouverez la méthode `word2features` qui se charge de transformer les mots en traits que prendra l'algorithme d'apprentissage en entrée pour la construction du modèle. Remarquez que les phrases pour lesquelles il faudra faire une prédiction devront aussi passer par ce traitement. 
La méthode prend en paramètre une phrase (i.e. une liste de mots) et un indice correspondant au mot pour lequel il faut générer des traits.

A toutes fins utiles, voici quelques pointeurs qui décrivent les traits utilisés dans la littérature pour décrire les mots à des fin de NER
* Table "2" de [J. R. Finkel, T. Grenager, and C. Manning. 2005. Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling. Proceedings of ACL](https://nlp.stanford.edu/~manning/papers/gibbscrf3.pdf)
* Section "4.2.1 Spelling features" de [Zhiheng Huang, Wei Xu, Kai Yu, Bidirectional LSTM-CRF Models for Sequence Tagging, Arxiv, Computation and Language, Submitted on 9 Aug 2015](https://arxiv.org/pdf/1508.01991.pdf) (premier article à appliquer les BiLSTM-CRF au NER)
* Implémentation des [traits pour le NER](https://github.com/Jekub/Wapiti/blob/master/dat/nppattern.txt) dans [Wapiti](https://wapiti.limsi.fr/), un des outils les plus performants en 2013... pour faire du "sequence labeling" à l'aide des CRF, avec [explication du formalisme dans la section patterns de la documentation](https://wapiti.limsi.fr/manual.html#patterns)




### QUESTION

* Exécutez les différentes cellules jusqu'à l'évaluation. Optez aussi pour un entraînement avec 100 % des données d'entrainement. Les performances produites par les traits disponibles constitueront votre "baseline". En attendant que les traitements se terminent (quelques minutes à 100%), répondez aux questions suivantes.
* Dans la méthode `word2features`, que signifient `word`, `postag`, `wordminus1`, `postagminus1`, `wordplus1`, `postagplus1` ?
* Dans la méthode `word2features`, que signifient les traits `word.lower()`,    `word[-3:]`, `word.isupper()`, `word.istitle()`, `word.isdigit()`, `postag`, `postag[:2]` ?
* Reprenez la méthode, ajoutez de nouveaux traits, réécrivez les définitions existantes, votre objectif obtenir le meilleur micro-average f1 score sur WiNER avant le temps imparti et délivrer votre modèle dans le dépôt indiqué par l'enseignant. Expliquer verbeusement les traits que vous implémentez ! La mise au point de votre jeu de traits doit être éprouver dans l'env gcolab avec les ressources limitées (RAM à 12 Go). 
La [figure 8.15](https://web.stanford.edu/~jurafsky/slp3/8.pdf) liste quelques traits. Cette liste peut être complétée avec celle de l'article de [Zhiheng Huang, Wei Xu, Kai Yu, Bidirectional LSTM-CRF Models for Sequence Tagging, Arxiv, Computation and Language, Submitted on 9 Aug 2015](https://arxiv.org/pdf/1508.01991.pdf) section 4.2 (en particulier 4.2.1  et 4.2.2 pour les formes de surfaces des mots). 
* Qu'est ce qu'un "gazetteer" ?
* Comparez vos performances avec votre baseline et avec les systèmes état de l'art, que pouvez-vous conclure ? 


### VOTRE REPONSE

**TODO**

In [None]:
# Features definition
#
# https://eli5.readthedocs.io/en/latest/tutorials/sklearn_crfsuite.html
#
# Feature extraction
# POS tags can be seen as pre-extracted features. 
# Let’s extract more features (word parts, simplified POS tags, lower/title/upper flags, features of nearby words) 
# and convert them to sklear-crfsuite format - each sentence should be converted to a list of dicts. 
# This is a very simple baseline; you certainly can do better.
# https://docs.python.org/3/library/stdtypes.html

def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]

    features = {
        'bias': 1.0,
        'word.lower()': word.lower(),
        'word[-3:]': word[-3:],
        'word.isupper()': word.isupper(),
        'word.istitle()': word.istitle(),
        'word.isdigit()': word.isdigit(),
        'postag': postag,
        'postag[:2]': postag[:2],
    }
    if i > 0:
        wordminus1 = sent[i-1][0]
        postagminus1 = sent[i-1][1]
        features.update({
            '-1:word.lower()': wordminus1.lower(),
            '-1:word.istitle()': wordminus1.istitle(),
            '-1:word.isupper()': wordminus1.isupper(),
            '-1:postag': postagminus1,
            '-1:postag[:2]': postagminus1[:2],
        })
    else:
        features['BOS'] = True

    if i < len(sent)-1:
        wordplus1 = sent[i+1][0]
        postagplus1 = sent[i+1][1]
        features.update({
            '+1:word.lower()': wordplus1.lower(),
            '+1:word.istitle()': wordplus1.istitle(),
            '+1:word.isupper()': wordplus1.isupper(),
            '+1:postag': postagplus1,
            '+1:postag[:2]': postagplus1[:2],
        })
    else:
        features['EOS'] = True

    return features


def sent2features(sent):
    return [word2features(sent, i) for i in range(len(sent))]

def sent2labels(sent):
    return [label for token, postag, label in sent]

def sent2tokens(sent):
    return [token for token, postag, label in sent]


In [None]:
# Features extraction

tokens_train = [sent2tokens(s) for s in train_sentences]
X_train = [sent2features(s) for s in train_sentences]
y_train = normalise_labels([sent2labels(s) for s in train_sentences])

print (tokens_train[0])
print (X_train[0][0])
print (X_train[0][1])
print (len(y_train))
print (y_train[0])

## Entraînement

In [None]:
# instanciation du modèle crf et initialisation des hyperparamètres
#!pip install sklearn_crfsuite #0.3.6


In [None]:
import sklearn_crfsuite

crf = sklearn_crfsuite.CRF(
    algorithm='lbfgs',
    c1=0.1,
    c2=0.1,
    max_iterations=20,
    all_possible_transitions=False,
)

In [None]:
# --- 134.15347862243652 seconds ---

import time
#
start_time = time.time()

# train
crf.fit(X_train, y_train);

#
print("--- %s seconds ---" % (time.time() - start_time)) #  110s - 230s


In [None]:
# Persistence: model dump
!mkdir -p models

from joblib import dump
dump(crf, 'models/wikiner_sklearn-crfsuite.joblib')

## Prédiction

In [None]:
# Extract features from the test data and predict 
winer_dev = [sent2features(s) for s in winer_corpus]

crf_hyp = crf.predict(winer_dev)

## Evaluation

In [None]:
# Evaluate on data 
print (results_per_class(labels, winer_ref, crf_hyp))

## Vérification de ce que le classifieur a appris
https://sklearn-crfsuite.readthedocs.io/en/latest/tutorial.html#let-s-check-what-classifier-learned

Ce qui suit peut vous donner des idées sur le genre de traits qui peut vous être utiles

In [None]:
# quid des transitions d'une étiquette à l'autre ?
from collections import Counter

def print_transitions(trans_features):
    for (label_from, label_to), weight in trans_features:
        print("%-6s -> %-7s %0.6f" % (label_from, label_to, weight))

print("Top likely transitions:")
print_transitions(Counter(crf.transition_features_).most_common(20))

print("\nTop unlikely transitions:")
print_transitions(Counter(crf.transition_features_).most_common()[-20:])

In [None]:
# quid des caractéristiques ? 
def print_state_features(state_features):
    for (attr, label), weight in state_features:
        print("%0.6f %-8s %s" % (weight, label, attr))    

print("Top positive features:")
print_state_features(Counter(crf.state_features_).most_common(30))

print("\nTop negative features:")
print_state_features(Counter(crf.state_features_).most_common()[-30:])


Read about CRF http://www.cs.columbia.edu/~mcollins/crf.pdf
