![title](imgs/explicationGlobalesWP.png)
L'objectif de ce notebook est de présenter un exemple de fonctionnement de **pipelines de classification d'entités** au sein d'un moteur NLP.

In [1]:
import csv
from rasa_nlu.extractors.crf_entity_extractor import CRFEntityExtractor
import sklearn_crfsuite
import nltk
from nltk.tag.hmm import HiddenMarkovModelTrainer
from sklearn.model_selection import train_test_split
from rasa_nlu.tokenizers import Tokenizer, Token
from rasa_nlu.training_data import Message
import random, spacy
from nltk.tokenize import word_tokenize

nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/leclerc/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Une telle pipeline se divise en trois étapes :
- Tokenization (séparation de la phrase en mot)
- Pré-traitement (optionel) : association d'un label syntaxique à chaque mot
- Featurization (pour le classificateur CRF seulement)
- Classification : permet d'associer l'entité la plus probable à chaque mot

------

![title](imgs/explicationMLEntitiesWP.png)

----

L'objet **CRFEntityExtractor** nous aidera à effectuer l'étape de featurization pour l'extracteur **CRF**

In [2]:
crfent_extractor = CRFEntityExtractor()
nlp = spacy.load('en', disable = ['tagger','parser','ner','textcat'])

# Chargement des données
Les données sont issues d'un concours de data science sur Kaggle (https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus), il est possible d'explorer plus en détail le dataset en utilisant l'outil http://gmb.let.rug.nl/explorer/ ). On les charge en lisant le csv qui contient les phrases tokenizées avec **l'entité associé à chaque mot.** 

Les entités présentes dans ce corpus sont les suivantes :

    geo = Geographical Entity
    org = Organization
    per = Person
    gpe = Geopolitical Entity
    tim = Time indicator
    art = Artifact
    eve = Event
    nat = Natural Phenomenon
   
Elles sont précédées par B (**Beginning**) ou I (**Inside**), ce qui signifie que le mot commence une entité de plusieur mots / est une entité d'un mot ou qu'il est à l'intérieur d'une entité / termine une entité de plusieur mots


In [4]:
csvfileName = 'ner_dataset.csv'

datasetCrf = []
datasetHmm = []

with open(csvfileName, 'rb') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',', quotechar='|')
    currentSentanceCrf = []
    currentSentanceHmm = []
    for row in spamreader:
        text = row[1]
        text = text.decode('unicode-escape')
        entity = row[-1]
        if row[0] == '':
            currentSentanceCrf.append((text,None,entity,None))
            currentSentanceHmm.append((text,entity))
        else : 
            datasetCrf.append(currentSentanceCrf)
            datasetHmm.append(currentSentanceHmm)
            currentSentanceCrf=[]
            currentSentanceHmm=[]
            currentSentanceCrf.append((text,None,entity,None))
            currentSentanceHmm.append((text,entity))
del datasetCrf[0:2]
del datasetHmm[0:2]

In [5]:
datasetHmm[0][0:3]

[(u'Thousands', 'O'), (u'of', 'O'), (u'demonstrators', 'O')]

-----

# Extraction d'entités
## Chaîne de Markov Cachée
Le premier modèle d'extracteur d'entités est basé sur le principe de chaîne de Markov cachée (**HMM** pour  *Hidden Markov Chain*) :

L'idée est de considérer les labels des mots d'une phrase comme une suite **d'états cachés** d'une HMM, les **états observables** étant les mots en eux mêmes. On calcule alors sur un corpus la **matrice de transitions**(probabilité de passage d'un nom propre à un verbe), **d'émission** (probabilité d'avoir le mot "danse" en tant que verbe ou nom commun) ainsi que les **probabilités des états initiaux** (probabilité qu'une phrase commence par un verbe ou un nom).

Une fois qu'on a entraîné le modèle sur un ensemble de texte important, on essaye de trouver **la séquence de labels la plus probable** connaissant les paramètres présentés précédemment.


In [6]:
HMM = HiddenMarkovModelTrainer()

On divise nos données en données de test et d'entraînement :

In [7]:
xTrainHmm, xTestHmm, _,_ = train_test_split(
    datasetHmm, range(len(datasetHmm)), test_size=0.3, random_state=42)

In [8]:
xTrainHmm[23]

[(u'FIFA', 'B-org'),
 (u'is', 'O'),
 (u'unhappy', 'O'),
 (u'that', 'O'),
 (u'Nigerian', 'B-gpe'),
 (u'Sports', 'O'),
 (u'Minister', 'O'),
 (u'Musa', 'B-per'),
 (u'Mohammed', 'I-per'),
 (u'appointed', 'O'),
 (u'Segun', 'B-per'),
 (u'Odegbami', 'I-per'),
 (u'as', 'O'),
 (u'interim', 'O'),
 (u'secretary-general', 'O'),
 (u'of', 'O'),
 (u'the', 'O'),
 (u'NFA', 'B-org'),
 (u'and', 'O'),
 (u'Salisu', 'B-org'),
 (u'Abubakar', 'I-org'),
 (u'as', 'O'),
 (u'secretary', 'O'),
 (u'of', 'O'),
 (u'the', 'O'),
 (u'Nigerian', 'B-gpe'),
 (u'Premier', 'O'),
 (u'League', 'O'),
 (u'board', 'O'),
 (u'on', 'O'),
 (u'December', 'B-tim'),
 (u'21', 'I-tim'),
 (u'.', 'O')]

On **entraîne** le modèle avec les données divisées précedemment

In [9]:
HMMtagger = HMM.train_supervised(xTrainHmm)

On peut récupérer une **phrase aléatoire** à partir du modèle 

In [26]:
HMMtagger.random_sample(random,10)

[(u'large', 'O'),
 (u'is', 'O'),
 (u'eventually', 'O'),
 (u'skilled', 'O'),
 (u'off', 'O'),
 (u'six', 'O'),
 (u'a', 'O'),
 (u'President', 'B-per'),
 (u'"', 'O'),
 (u'military', 'O')]

## Resultats
**Testons notre modèle** sur le jeu de données de test précédent

In [27]:
HMMtagger.evaluate(xTestHmm)

0.9423280541044123

---
L'évaluation du modèle donne un F1-score de **0.94** que nous comparerons avec celui donné par l'extracteur CRF

On peut récupérer les données liées au modèle et essayer de faire quelques tests, avec :
- **P** : matrice de probabilité **a priori** (probabilité d'avoir l'état i comme état caché du premier mot d'une phrase
- **O** : matrice de proababilité d'**émission** d'un mot dans un état (danse en tant que verbe ou nom par exemple)
- **X** : matrice de probabilité de **transition** (passage d'un état i à un état j)

Ces matrices sont données avec des **log-probabilités** à la place des probabilités normales

In [28]:
symbols = HMMtagger._symbols

In [29]:
states = HMMtagger._states

In [30]:
P,O,X,S = HMMtagger._cache

In [31]:
import numpy as np

In [32]:
def mostProbableWordGivenState(stateIndex,emissionMatrix,symbols):
    emissionProbFromState = [O[stateIndex,i] for i in range(len(symbols))]
    nextWordIndex = emissionProbFromState.index(max(emissionProbFromState))
    return symbols[nextWordIndex]

In [33]:
def mostProbableNextState(lastState,transitionMatrix,states, avoidOInNextTransition = False):
    probFromLastState = [ transitionMatrix[lastState,i] for i in range(len(states))]
    if lastState == 0 or avoidOInNextTransition :
        #On évite de boucler sur des 'O' (mots associés à aucune entités) qui sont les plus probables
        return probFromLastState.index(max(probFromLastState[1:]))
    else :
        return probFromLastState.index(max(probFromLastState))

----
On affiche ici les **mots les plus probables** connaissant une entité

In [34]:
zip([states[i] for i in range(len(states))], [mostProbableWordGivenState(j,O,symbols) for j in range(len(states)) ])

[('O', u'the'),
 ('B-gpe', u'Iraqi'),
 ('B-org', u'U.S.'),
 ('I-org', u'Nations'),
 ('B-tim', u'Tuesday'),
 ('B-per', u'Mr.'),
 ('B-geo', u'U.S.'),
 ('I-tim', u'of'),
 ('I-per', u'Bush'),
 ('I-geo', u'States'),
 ('I-gpe', u'Serb'),
 ('B-eve', u'II'),
 ('I-eve', u'War'),
 ('B-nat', u'Katrina'),
 ('B-art', u'English'),
 ('I-art', u'David'),
 ('I-nat', u'Katrina')]

----
Ici, ce sont les **transitions les plus probables** qui sont affichées

In [35]:
[states[j] + ' -> ' + states[mostProbableNextState(j,X,states, avoidOInNextTransition= True)] for j in range(len(states))]

['O -> B-geo',
 'B-gpe -> B-per',
 'B-org -> I-org',
 'I-org -> I-org',
 'B-tim -> I-tim',
 'B-per -> I-per',
 'B-geo -> I-geo',
 'I-tim -> I-tim',
 'I-per -> I-per',
 'I-geo -> I-geo',
 'I-gpe -> B-per',
 'B-eve -> I-eve',
 'I-eve -> I-eve',
 'B-nat -> I-nat',
 'B-art -> I-art',
 'I-art -> I-art',
 'I-nat -> I-nat']

---
## Champs aléatoire conditionnel
Une autre méthode consiste à utiliser un classificateur basé sur la théorie des **champs aléatoires conditionnels** (Conditional Random Field, **CRF** en anglais), qui n'est autre qu'une **généralisation des chaînes de Markov cachées**. Celui-ci consiste à définir des fonctions caractéristiques / **features fonctions** qui prennent en entrée la phrase, la position du mot considéré, ainsi que son label et le label précédent.

Ces fonctions caractéristiques permettent de **calculer le score d'une séquence** donnée connaissant la phrase, la séquence donnant le score le plus important sera celle qu'on considérera pour extraire les entités.


In [None]:
xCrf = [crfent_extractor._sentence_to_features(sent) for sent in datasetCrf]
yCrf = [crfent_extractor._sentence_to_labels(sent) for sent in datasetCrf]

In [None]:
xCrfTrain, xCrfTest, yCrfTrain, yCrfTest = train_test_split(
    xCrf, yCrf, test_size=0.3, random_state=42)

---
Un exemple de **features** associé au mot 1 de la phrase de test 11 est donnée plus bas, on remarque les features extraites pour un mot concerne dans notre cas soit :

- Le mot précédent le mot à classifier (-1: nom de la Feature)
- Le mot en lui-même (0: nom de la Feature)
- Le mot suivant (1: nom de la Feature)

L'ensemble des features à prendre en compte ainsi que la taille de la fenêtre peuvent être paramétrer à la création du **crfent_extractor**.



In [268]:
datasetCrf[11][0:10]

[(u'The', None, 'O', None),
 (u'European', None, 'B-org', None),
 (u'Union', None, 'I-org', None),
 (u'"', None, 'O', None),
 (u'with', None, 'O', None),
 (u'U.S.', None, 'B-gpe', None),
 (u'backing', None, 'O', None),
 (u'"', None, 'O', None),
 (u'has', None, 'O', None),
 (u'threatened', None, 'O', None)]

In [271]:
datasetCrf[11][1]

(u'European', None, 'B-org', None)

In [270]:
xFull[11][1]

{'-1:low': u'the',
 '-1:title': True,
 '-1:upper': False,
 '0:bias': u'bias',
 '0:digit': False,
 '0:low': u'european',
 '0:pattern': u'N/A',
 '0:prefix2': u'Eu',
 '0:prefix5': u'Europ',
 '0:suffix2': u'an',
 '0:suffix3': u'ean',
 '0:suffix5': u'opean',
 '0:title': True,
 '0:upper': False,
 '1:low': u'union',
 '1:title': True,
 '1:upper': False}

In [200]:
CRFTagger = sklearn_crfsuite.CRF(
        algorithm='lbfgs',
        c1=0.1,
        c2=0.1,
        max_iterations=100,
        # include transitions that are possible, but not observed
        all_possible_transitions=True
)

---
On peut **entraîner** notre modèle avec les données d'entraînement précédentes :

In [203]:
CRFTagger.fit(xCrfTrain, yCrfTrain)

CRF(algorithm='lbfgs', all_possible_states=None,
  all_possible_transitions=True, averaging=None, c=None, c1=0.1, c2=0.1,
  calibration_candidates=None, calibration_eta=None,
  calibration_max_trials=None, calibration_rate=None,
  calibration_samples=None, delta=None, epsilon=None, error_sensitive=None,
  gamma=None, keep_tempfiles=None, linesearch=None, max_iterations=100,
  max_linesearch=None, min_freq=None, model_filename=None,
  num_memories=None, pa_type=None, period=None, trainer_cls=None,
  variance=None, verbose=False)

In [206]:
CRFTagger.score(xCrfTest,yCrfTest)

0.970461331052486

---
L'extracteur CRF performe mieux que celui basé sur un HMM sur ce dataset avec un score de **0.97** contre **0.94** pour celui basé sur une HMM.

On va utiliser la bibliothèque **eli5 pour analyser le fonctionnement** du classificateur CRF (**transition** d'une entité à une autre et **importance des features** dans la classification)

In [273]:
import eli5

In [276]:
eli5.show_weights(CRFTagger,top=50)

From \ To,O,B-art,I-art,B-eve,I-eve,B-geo,I-geo,B-gpe,I-gpe,B-nat,I-nat,B-org,I-org,B-per,I-per,B-tim,I-tim
O,3.651,1.053,-3.523,1.151,-3.216,1.702,-6.575,0.799,-2.709,0.788,-2.222,1.911,-6.158,1.657,-4.745,1.957,-5.935
B-art,-0.576,-0.085,6.055,0.0,-0.1,-0.993,-1.34,-1.698,0.0,0.0,0.0,-0.046,-1.754,-1.776,-1.295,-0.114,-0.798
I-art,-0.612,-0.602,5.835,0.0,0.0,-0.263,-0.963,-0.766,0.0,0.0,0.0,-1.001,-1.164,-1.065,-1.101,-0.41,-1.077
B-eve,-1.341,0.0,-0.097,-0.529,5.488,-1.192,-1.191,-1.609,0.0,-0.216,0.0,-1.95,-1.662,-2.238,-1.305,-0.347,-1.103
I-eve,0.104,0.0,0.0,-1.95,5.998,-0.59,-0.607,-0.217,0.0,0.0,0.0,-0.554,-0.792,-1.198,-0.287,-1.739,-0.5
B-geo,0.091,-0.238,-2.391,-0.331,-2.137,-4.353,4.918,-1.086,-2.664,-0.342,-0.694,-0.877,-4.778,-1.918,-4.23,0.773,-3.31
I-geo,-0.136,0.533,-1.38,-0.466,-1.247,-2.952,4.058,-1.871,-0.928,-0.002,-0.103,-0.921,-3.541,-1.127,-2.541,0.271,-2.2
B-gpe,0.433,-0.615,-1.912,-0.133,-1.985,0.517,-3.475,-4.674,4.281,-0.073,-0.664,1.715,-4.681,-0.883,-3.591,-0.441,-2.215
I-gpe,0.022,0.0,0.0,0.0,0.0,-0.912,-0.845,-0.071,5.292,0.0,0.0,-0.525,-0.739,-1.121,-0.454,-0.752,-0.059
B-nat,-1.312,0.0,0.0,0.0,0.0,0.237,-0.527,-1.05,0.0,-0.496,6.013,-0.584,-0.603,-1.333,-0.938,-0.879,-0.151

Weight?,Feature,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,Unnamed: 12_level_0,Unnamed: 13_level_0,Unnamed: 14_level_0,Unnamed: 15_level_0,Unnamed: 16_level_0
Weight?,Feature,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Weight?,Feature,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Weight?,Feature,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
Weight?,Feature,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4,Unnamed: 12_level_4,Unnamed: 13_level_4,Unnamed: 14_level_4,Unnamed: 15_level_4,Unnamed: 16_level_4
Weight?,Feature,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5,Unnamed: 6_level_5,Unnamed: 7_level_5,Unnamed: 8_level_5,Unnamed: 9_level_5,Unnamed: 10_level_5,Unnamed: 11_level_5,Unnamed: 12_level_5,Unnamed: 13_level_5,Unnamed: 14_level_5,Unnamed: 15_level_5,Unnamed: 16_level_5
Weight?,Feature,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6,Unnamed: 6_level_6,Unnamed: 7_level_6,Unnamed: 8_level_6,Unnamed: 9_level_6,Unnamed: 10_level_6,Unnamed: 11_level_6,Unnamed: 12_level_6,Unnamed: 13_level_6,Unnamed: 14_level_6,Unnamed: 15_level_6,Unnamed: 16_level_6
Weight?,Feature,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7,Unnamed: 6_level_7,Unnamed: 7_level_7,Unnamed: 8_level_7,Unnamed: 9_level_7,Unnamed: 10_level_7,Unnamed: 11_level_7,Unnamed: 12_level_7,Unnamed: 13_level_7,Unnamed: 14_level_7,Unnamed: 15_level_7,Unnamed: 16_level_7
Weight?,Feature,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8,Unnamed: 6_level_8,Unnamed: 7_level_8,Unnamed: 8_level_8,Unnamed: 9_level_8,Unnamed: 10_level_8,Unnamed: 11_level_8,Unnamed: 12_level_8,Unnamed: 13_level_8,Unnamed: 14_level_8,Unnamed: 15_level_8,Unnamed: 16_level_8
Weight?,Feature,Unnamed: 2_level_9,Unnamed: 3_level_9,Unnamed: 4_level_9,Unnamed: 5_level_9,Unnamed: 6_level_9,Unnamed: 7_level_9,Unnamed: 8_level_9,Unnamed: 9_level_9,Unnamed: 10_level_9,Unnamed: 11_level_9,Unnamed: 12_level_9,Unnamed: 13_level_9,Unnamed: 14_level_9,Unnamed: 15_level_9,Unnamed: 16_level_9
Weight?,Feature,Unnamed: 2_level_10,Unnamed: 3_level_10,Unnamed: 4_level_10,Unnamed: 5_level_10,Unnamed: 6_level_10,Unnamed: 7_level_10,Unnamed: 8_level_10,Unnamed: 9_level_10,Unnamed: 10_level_10,Unnamed: 11_level_10,Unnamed: 12_level_10,Unnamed: 13_level_10,Unnamed: 14_level_10,Unnamed: 15_level_10,Unnamed: 16_level_10
Weight?,Feature,Unnamed: 2_level_11,Unnamed: 3_level_11,Unnamed: 4_level_11,Unnamed: 5_level_11,Unnamed: 6_level_11,Unnamed: 7_level_11,Unnamed: 8_level_11,Unnamed: 9_level_11,Unnamed: 10_level_11,Unnamed: 11_level_11,Unnamed: 12_level_11,Unnamed: 13_level_11,Unnamed: 14_level_11,Unnamed: 15_level_11,Unnamed: 16_level_11
Weight?,Feature,Unnamed: 2_level_12,Unnamed: 3_level_12,Unnamed: 4_level_12,Unnamed: 5_level_12,Unnamed: 6_level_12,Unnamed: 7_level_12,Unnamed: 8_level_12,Unnamed: 9_level_12,Unnamed: 10_level_12,Unnamed: 11_level_12,Unnamed: 12_level_12,Unnamed: 13_level_12,Unnamed: 14_level_12,Unnamed: 15_level_12,Unnamed: 16_level_12
Weight?,Feature,Unnamed: 2_level_13,Unnamed: 3_level_13,Unnamed: 4_level_13,Unnamed: 5_level_13,Unnamed: 6_level_13,Unnamed: 7_level_13,Unnamed: 8_level_13,Unnamed: 9_level_13,Unnamed: 10_level_13,Unnamed: 11_level_13,Unnamed: 12_level_13,Unnamed: 13_level_13,Unnamed: 14_level_13,Unnamed: 15_level_13,Unnamed: 16_level_13
Weight?,Feature,Unnamed: 2_level_14,Unnamed: 3_level_14,Unnamed: 4_level_14,Unnamed: 5_level_14,Unnamed: 6_level_14,Unnamed: 7_level_14,Unnamed: 8_level_14,Unnamed: 9_level_14,Unnamed: 10_level_14,Unnamed: 11_level_14,Unnamed: 12_level_14,Unnamed: 13_level_14,Unnamed: 14_level_14,Unnamed: 15_level_14,Unnamed: 16_level_14
Weight?,Feature,Unnamed: 2_level_15,Unnamed: 3_level_15,Unnamed: 4_level_15,Unnamed: 5_level_15,Unnamed: 6_level_15,Unnamed: 7_level_15,Unnamed: 8_level_15,Unnamed: 9_level_15,Unnamed: 10_level_15,Unnamed: 11_level_15,Unnamed: 12_level_15,Unnamed: 13_level_15,Unnamed: 14_level_15,Unnamed: 15_level_15,Unnamed: 16_level_15
Weight?,Feature,Unnamed: 2_level_16,Unnamed: 3_level_16,Unnamed: 4_level_16,Unnamed: 5_level_16,Unnamed: 6_level_16,Unnamed: 7_level_16,Unnamed: 8_level_16,Unnamed: 9_level_16,Unnamed: 10_level_16,Unnamed: 11_level_16,Unnamed: 12_level_16,Unnamed: 13_level_16,Unnamed: 14_level_16,Unnamed: 15_level_16,Unnamed: 16_level_16
+6.255,0:low:month,,,,,,,,,,,,,,,
+5.202,BOS,,,,,,,,,,,,,,,
+4.759,1:low:american,,,,,,,,,,,,,,,
+4.732,1:low:tommy,,,,,,,,,,,,,,,
+4.591,1:low:free,,,,,,,,,,,,,,,
+4.395,0:low:this,,,,,,,,,,,,,,,
+4.247,0:low:ukrainians,,,,,,,,,,,,,,,
+4.135,0:prefix2:sa,,,,,,,,,,,,,,,
+4.034,0:low:after,,,,,,,,,,,,,,,
+3.986,0:low:last,,,,,,,,,,,,,,,

Weight?,Feature
+6.255,0:low:month
+5.202,BOS
+4.759,1:low:american
+4.732,1:low:tommy
+4.591,1:low:free
+4.395,0:low:this
+4.247,0:low:ukrainians
+4.135,0:prefix2:sa
+4.034,0:low:after
+3.986,0:low:last

Weight?,Feature
+3.896,-1:low:engine
+3.574,1:low:enkhbayar
+3.447,1:low:boots
+2.893,-1:low:'
+2.890,1:low:per
+2.781,0:prefix5:Sopra
+2.748,1:low:al-arabiya
+2.686,-1:low:shown
+2.635,-1:low:view
+2.607,-1:low:film

Weight?,Feature
+2.323,1:low:continues
+2.316,1:low:expands
+2.274,-1:low:boeing
+2.047,1:low:gained
+1.968,1:low:early
+1.739,1:low:(
+1.670,1:low:newspaper
+1.660,1:low:marks
+1.591,1:low:war
+1.559,0:prefix5:pound

Weight?,Feature
+4.047,-1:low:falklands
+3.507,-1:low:war
+3.450,-1:low:1960
+3.342,1:low:men
+3.212,-1:low:wars
+2.801,-1:low:happy
+2.728,-1:low:marked
+2.616,-1:low:celebrating
+2.349,1:low:security
+2.222,1:low:during

Weight?,Feature
+3.271,1:low:caused
+2.522,1:low:disaster
+2.277,1:low:now
+2.186,1:low:suicide
+2.094,1:low:without
+2.088,1:low:rally
+2.041,1:low:this
+1.783,1:low:finals
+1.655,"1:low:"""""""""
+1.570,0:low:games

Weight?,Feature
+5.100,-1:low:serb
+4.188,1:low:phoned
+4.126,-1:low:taleban
+4.070,-1:low:pakistani
+3.940,1:low:moqtada
+3.935,-1:low:bordeaux
+3.654,1:low:moviemaking
+3.588,-1:low:hamas
+3.449,-1:low:brazilian
+3.306,0:low:europe

Weight?,Feature
+3.027,-1:low:of
+2.591,1:low:service
+2.559,1:low:refugee
+2.556,1:low:army
+2.496,1:low:pilgrims
+2.450,-1:low:latin
+2.445,-1:low:sumatran
+2.431,-1:low:surma
+2.404,1:low:regime
+2.373,-1:low:the

Weight?,Feature
+5.804,0:low:israeli
+4.946,0:low:iranian
+4.284,0:low:german
+4.250,0:low:ukrainian
+3.830,1:low:06-jul
+3.747,0:prefix5:Chile
+3.718,0:low:pakistani
+3.702,0:low:russian
+3.605,0:low:venezuelan
+3.588,0:prefix5:Kuwai

Weight?,Feature
+4.343,1:low:mayor
+3.815,-1:low:democratic
+3.697,-1:low:soviet
+3.558,1:low:man
+3.503,1:low:developed
+3.052,1:low:growth
+2.969,1:low:invaded
+2.720,1:low:returned
+2.482,-1:low:panama
+2.395,1:low:health

Weight?,Feature
+2.580,1:low:strain
+2.490,-1:low:often-deadly
+2.276,1:low:epidemics
+2.250,0:low:marburg
+2.250,0:prefix5:Marbu
+2.250,0:suffix5:rburg
+2.148,1:low:immunization
+2.056,-1:low:case
+1.995,0:prefix2:H5
+1.896,1:low:should

Weight?,Feature
+2.300,0:prefix2:di
+1.888,-1:low:hurricanes
+1.846,1:low:outbreak
+1.676,0:low:flu
+1.654,1:low:last
+1.539,0:suffix2:lu
+1.482,1:low:slammed
+1.367,0:prefix5:diabe
+1.315,0:prefix2:su
+1.304,0:low:rita

Weight?,Feature
+5.438,-1:low:rice
+4.141,1:low:successfully
+3.970,-1:low:telephoned
+3.959,-1:low:observed
+3.843,-1:low:senator
+3.778,1:low:slovenes
+3.747,-1:low:maastricht
+3.634,-1:low:john
+3.437,-1:low:third-ranked
+3.436,-1:low:brunei

Weight?,Feature
+4.456,1:low:reporter
+3.541,1:low:attained
+3.487,-1:low:&
+3.228,1:low:separating
+3.071,1:low:clinton
+3.012,-1:low:european
+2.971,1:low:hamas
+2.929,-1:low:decathlon
+2.925,-1:low:allawi
+2.905,0:low:committee-chairman

Weight?,Feature
+3.968,1:low:acceded
+3.171,-1:low:vote
+3.161,0:suffix2:r.
+3.149,1:low:extra
+3.101,-1:low:isle
+3.090,-1:low:eleginoides
+3.077,1:low:inspired
+3.055,-1:low:shelter
+3.044,BOS
+2.964,1:low:functions

Weight?,Feature
+3.021,1:low:gao
+2.954,1:low:advisor
+2.707,1:low:legally
+2.603,1:low:frank-walter
+2.581,-1:low:office
+2.580,1:low:udi
+2.544,-1:low:viktor
+2.417,-1:low:condoleezza
+2.362,1:low:sutham
+2.277,0:low:pressewednesday

Weight?,Feature
+5.627,1:low:week
+4.587,-1:low:week
+4.259,1:low:year
+4.013,1:low:working-age
+3.960,-1:low:years
+3.923,-1:low:year
+3.889,-1:low:days
+3.881,-1:low:month
+3.829,-1:low:months
+3.819,-1:low:last

Weight?,Feature
+5.015,-1:low:this
+4.710,1:low:earlier
+4.476,1:low:stocky
+4.162,1:low:old
+3.984,-1:low:past
+3.922,1:low:month
+3.705,1:low:reflected
+3.566,-1:low:earlier
+3.241,1:low:jose
+3.174,1:low:ago


---
On peut s'intéresser aux **features les plus influentes** dans la classification d'un mot en tant que "I-eve" : 
- le poids le plus élevé est associé au fait que le mot est suivi de caused, ce qui semble en accord avec une entité évènement
- le poid le plus important associé au mot lui-même est 0:low = 'games', ce qui s'explique par le fait que le corpus est basé en partie sur des textes parlant des jeux olympiques

---
On peut maintenant **tester nos deux extracteurs** sur la phrase 'United States of America is a powerful country as Mr. Bush said'

In [223]:
def setToken(message):
    doc = nlp(message.text)
    message.set("tokens", [Token(t.text,t.idx) for t in doc])

In [241]:
textMess = u'United States of America is a powerful country as Mr. Bush said'

In [242]:
tokenized = word_tokenize(textMess)

In [243]:
mess = Message(text=textMess)
setToken(mess)

text_data = crfent_extractor._from_text_to_crf(mess)

features = crfent_extractor._sentence_to_features(text_data)

In [244]:
CRFTagger.predict_single(features)

['B-geo',
 'I-geo',
 'I-geo',
 'I-geo',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B-per',
 'I-per',
 'O']

In [245]:
HMMtagger.best_path(tokenized)

['B-geo',
 'I-geo',
 'I-geo',
 'I-geo',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B-per',
 'I-per',
 'O']