# Lemmatisation

## Définition

Un lemme, en linguistique, est la forme canonique d’un mot. Sous le terme de lemmatisation, on désigne l’opération consistant à obtenir le lemme d’une occurrence, qu’elle soit fléchie ou non, afin, souvent, de produire un lexique.

En traitement automatique d’un texte, la lemmatisation intervient après la segmentation en mots. C’est une phase importante qui demande d’être sensibilisé aux questions de désambiguïsation.

En dehors de tout contexte, le mot *dérive* en français pourrait en effet être aussi bien une forme fléchie du verbe *dériver* (1) qu’une occurrence du substantif féminin (2) :
1. *Sans pilote, le bateau dérive.*
2. *La dérive du navire est capricieuse.*

En anglais, le mot *duck* quant à lui peut entre autres se référer à un animal (3) ou à une action d’évitement (4) :
3. *The ducks are gathering near the bank.*
4. *He had to duck the question.*

### Racinisation

Derrière le terme de racinisation on range l’opération de suppression des affixes d’un terme :  
- *enclaver* => *clav* après suppression du préfixe *en-* et du suffixe *-er*
- *donner* => *don* après suppression du suffixe *-er*

NLTK fournit une implémentation de l’algorithme de racinisation de Martin Porter, accessible par le biais de la classe `PorterStemmer` :

In [None]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
stemmer.stem('wondering')

D’autres algorithmes sont présents dans NLTK, comme celui de Paice-Husk :

In [None]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
stemmer.stem('wondering')

Ou encore un autre personnalisable, se basant sur les expressions rationnelles, à réserver aux cas particuliers qui ne seraient pas couverts par les deux premiers :

In [None]:
from nltk.stem import RegexpStemmer
stemmer = RegexpStemmer('et')
stemmer.stem('chevalet')

NLTK fournit également une interface avec les algorithmes [Snowball](https://snowballstem.org/), qui couvrent 15 langues en plus d’implémenter l’algorithme de Martin Porter :

In [None]:
from nltk.stem import SnowballStemmer
print(SnowballStemmer.languages)

Pour le français, il suffit d’instancier une classe `SnowballStemmer()` :

In [None]:
stemmer_fr = SnowballStemmer('french')
stemmer_fr.stem('chevalier')

## La lemmatisation avec WordNet

Plutôt que de manipuler les *synsets* de Wordnet pour atteindre les lemmes d’un terme, NLTK facilite les opérations grâce à un lemmatiseur embarqué :

In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('wondering')

La lemmatisation dépend donc grandement de l’étiquette grammaticale (*POS tagging*) affectée au terme, contrairement à la racinisation qui, elle, repose sur la morphologie :

In [None]:
lemmatizer.lemmatize('wondering', pos='v')

Pour rappel, les étiquettes grammaticales adoptées par WordNet sont :
- `n` : *noun*
- `a` : *adjective*
- `r` : *adverb*
- `v` : *verb*