# Lemmatisation

## Définition

Un lemme, en linguistique, est la forme canonique d’un mot. Sous le terme de lemmatisation, on désigne l’opération consistant à obtenir le lemme d’une occurrence, qu’elle soit fléchie ou non, afin, souvent, de produire un lexique.

En traitement automatique d’un texte, la lemmatisation intervient après la segmentation en mots. C’est une phase importante qui demande d’être sensibilisé aux questions de désambiguïsation.

En dehors de tout contexte, le mot *dérive* en français pourrait en effet être aussi bien une forme fléchie du verbe *dériver* (1) qu’une occurrence du substantif féminin (2) :
1. *Sans pilote, le bateau dérive.*
2. *La dérive du navire est capricieuse.*

En anglais, le mot *duck* quant à lui peut entre autres se référer à un animal (3) ou à une action d’évitement (4) :
3. *The ducks are gathering near the bank.*
4. *He had to duck the question.*

### Racinisation

Derrière le terme de racinisation on range l’opération de suppression des affixes d’un terme :  
- *enclaver* => *clav* après suppression du préfixe *en-* et du suffixe *-er*
- *donner* => *don* après suppression du suffixe *-er*

NLTK fournit une implémentation de l’algorithme de racinisation de Martin Porter, accessible par le biais de la classe `PorterStemmer` :

In [None]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
stemmer.stem('wondering')

D’autres algorithmes sont présents dans NLTK, comme celui de Paice-Husk :

In [None]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
stemmer.stem('wondering')

Ou encore un autre personnalisable, se basant sur les expressions rationnelles, à réserver aux cas particuliers qui ne seraient pas couverts par les deux premiers :

In [None]:
from nltk.stem import RegexpStemmer
stemmer = RegexpStemmer('et')
stemmer.stem('chevalet')

NLTK fournit également une interface avec les algorithmes [Snowball](https://snowballstem.org/), qui couvrent 15 langues en plus d’implémenter l’algorithme de Martin Porter :

In [None]:
from nltk.stem import SnowballStemmer
print(SnowballStemmer.languages)

Pour le français, il suffit d’instancier une classe `SnowballStemmer()` :

In [None]:
stemmer_fr = SnowballStemmer('french')
stemmer_fr.stem('chevalier')

## La lemmatisation avec WordNet

Plutôt que de manipuler les *synsets* de Wordnet pour atteindre les lemmes d’un terme, NLTK facilite les opérations grâce à un lemmatiseur embarqué :

In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('wondering')

La lemmatisation dépend donc grandement de l’étiquette grammaticale (*POS tagging*) affectée au terme, contrairement à la racinisation qui, elle, repose sur la morphologie :

In [None]:
lemmatizer.lemmatize('wondering', pos='v')

Pour rappel, les étiquettes grammaticales adoptées par WordNet sont :
- `n` : *noun*
- `a` : *adjective*
- `r` : *adverb*
- `v` : *verb*

## Un lemmatiseur pour le français

Le lexique morphologique et syntaxique du français [*Lefff*](http://alpage.inria.fr/~sagot/lefff-en.html) a servi de support pour le *French LEFFF Lemmatizer*, un outil en Python qui lemmatise très facilement des termes français.

Pour l’installation, se reporter au [GitHub du projet](https://github.com/ClaudeCoulombe/FrenchLefffLemmatizer).

Une fois l’installation effectuée, il s’importe comme n’importe quel module :

In [None]:
from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer

Créer ensuite une nouvelle instance de la classe :

In [None]:
lemmatizer = FrenchLefffLemmatizer()

Et lancer la lemmatisation sur un mot :

In [None]:
lemmatizer.lemmatize('avions')

Comme pour la lemmatisation avec *WordNet*, elle dépend ici aussi de l’étiquette grammaticale du mot :

In [None]:
lemmatizer.lemmatize('avions', 'v')

Pour obtenir la liste complète des propositions, fixer le paramètre à `all` :

In [None]:
lemmatizer.lemmatize('avions', 'all')

Pour aller plus loin, le constructeur permet de limiter les résultats grâce à un paramètre `load_only_pos` qui transmet une liste d’étiquettes parmi le jeu *WordNet* (`a`, `n`, `r`, `v`).

In [None]:
lemmatizer = FrenchLefffLemmatizer(load_only_pos=['n', 'a'])
lemmatizer.lemmatize('avions','all')

À noter que les étiquettes grammaticales indiquées dans les résultats proviennent du [*tagset* FRMG](http://alpage.inria.fr/frmgwiki/content/tagset-frmg).