# Lemmatisation
Contrairement au stemming, la lemmatisation va au-delà de la réduction des mots et prend en compte l'ensemble du vocabulaire d'une langue pour appliquer une *analyse morphologique* aux mots. Le lemme de "was" est "be" et le lemme de "mice" est "mouse". De plus, le lemme de "meeting" peut être "meet" ou "meeting" en fonction de son utilisation dans une phrase.

In [1]:
# Perform standard imports:
import spacy
nlp = spacy.load('en_core_web_sm')

In [2]:
doc1 = nlp(u"I am a runner running in a race because I love to run since I ran today")

for token in doc1:
    print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

I 	 PRON 	 561228191312463089 	 -PRON-
am 	 VERB 	 10382539506755952630 	 be
a 	 DET 	 11901859001352538922 	 a
runner 	 NOUN 	 12640964157389618806 	 runner
running 	 VERB 	 12767647472892411841 	 run
in 	 ADP 	 3002984154512732771 	 in
a 	 DET 	 11901859001352538922 	 a
race 	 NOUN 	 8048469955494714898 	 race
because 	 ADP 	 16950148841647037698 	 because
I 	 PRON 	 561228191312463089 	 -PRON-
love 	 VERB 	 3702023516439754181 	 love
to 	 PART 	 3791531372978436496 	 to
run 	 VERB 	 12767647472892411841 	 run
since 	 ADP 	 10066841407251338481 	 since
I 	 PRON 	 561228191312463089 	 -PRON-
ran 	 VERB 	 12767647472892411841 	 run
today 	 NOUN 	 11042482332948150395 	 today


<font color=green>Dans la phrase ci-dessus, `running`, `run` et `ran` pointent tous vers le même lemme `run` (...11841) pour éviter la duplication.</font>

### Fonction pour afficher les lemmes
Puisque l'affichage ci-dessus est échelonné et difficile à lire, écrivons une fonction qui affiche l'information que nous voulons de manière plus nette.

In [3]:
def show_lemmas(text):
    for token in text:
        print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma:<{22}} {token.lemma_}')

Ici, nous utilisons une **f-string** pour formater le texte imprimé en fixant des largeurs de champ minimales et en ajoutant un alignement à gauche à la valeur de hachage du lemme.

In [4]:
doc2 = nlp(u"I saw eighteen mice today!")

show_lemmas(doc2)

I            PRON   561228191312463089     -PRON-
saw          VERB   11925638236994514241   see
eighteen     NUM    9609336664675087640    eighteen
mice         NOUN   1384165645700560590    mouse
today        NOUN   11042482332948150395   today
!            PUNCT  17494803046312582752   !


<font color=green>Remarquez que le lemme de `saw` est `see`, `mice` est la forme plurielle de `mouse`, et pourtant `eighteen` est son propre nombre, *pas* une forme étendue de `eight`..</font>

In [5]:
doc3 = nlp(u"I am meeting him tomorrow at the meeting.")

show_lemmas(doc3)

I            PRON   561228191312463089     -PRON-
am           VERB   10382539506755952630   be
meeting      VERB   6880656908171229526    meet
him          PRON   561228191312463089     -PRON-
tomorrow     NOUN   3573583789758258062    tomorrow
at           ADP    11667289587015813222   at
the          DET    7425985699627899538    the
meeting      NOUN   14798207169164081740   meeting
.            PUNCT  12646065887601541794   .


<font color=green>Ici, le lemme de `meeting` est déterminé par sa partie du discours.</font>

In [6]:
doc4 = nlp(u"That's an enormous automobile")

show_lemmas(doc4)

That         DET    4380130941430378203    that
's           VERB   10382539506755952630   be
an           DET    15099054000809333061   an
enormous     ADJ    17917224542039855524   enormous
automobile   NOUN   7211811266693931283    automobile


<font color=green>NNotez que la lemmatisation ne réduit *not* les mots à leur synonyme le plus basique - that is, `enormous` ne devient pas `big` et `automobile` ne devient pas `car`.</font>

Il convient de souligner que, bien que la lemmatisation s'appuie sur le texte environnant pour déterminer la partie du discours d'un mot donné, elle ne catégorise pas les phrases. Dans un prochain cours, nous étudierons les *vecteurs de mots et la similarité*.

## A suivre : Stop Words