# Stemming
Souvent, lorsque l'on recherche un mot clé dans un texte, il est utile que la recherche renvoie des variantes du mot. Par exemple, la recherche de "boat" peut également renvoyer "boats" et "boating". Dans ce cas, "boat" serait le **symbole** de [boat, boater, boating, boats].

Le stemming est une méthode quelque peu rudimentaire pour cataloguer les mots apparentés ; elle consiste essentiellement à supprimer des lettres à partir de la fin du mot jusqu'à ce que l'on atteigne le stem. Cette méthode fonctionne assez bien dans la plupart des cas, mais l'anglais présente malheureusement de nombreuses exceptions nécessitant un processus plus sophistiqué. En fait, spaCy n'inclut pas de stemmer, choisissant plutôt de s'appuyer entièrement sur la lemmatisation. Pour les personnes intéressées, il y a quelques informations sur cette décision [ici] (https://github.com/explosion/spaCy/issues/327). Nous discuterons des vertus de la *lemmatisation* dans la section suivante.

À la place, nous utiliserons un autre outil de TAL populaire appelé **nltk**, qui signifie *Natural Language Toolkit* (boîte à outils pour le langage naturel). Pour plus d'informations sur nltk, visitez le site https://www.nltk.org/.

## Porter Stemmer

L'un des outils de stemming les plus courants - et les plus efficaces - est l'[*algorithme de Porter*] (https://tartarus.org/martin/PorterStemmer/) développé par Martin Porter en [1980] (https://tartarus.org/martin/PorterStemmer/def.txt). L'algorithme utilise cinq phases de réduction des mots, chacune avec son propre ensemble de règles de mise en correspondance. Dans la première phase, des règles simples de mise en correspondance des suffixes sont définies, telles que :

![stemming1.png](../stemming1.png)

A partir d'un ensemble donné de règles de troncature, une seule règle est appliquée, basée sur le suffixe S1 le plus long. Ainsi, `caresses` se réduit à `caress` mais pas à `cares`.

Des phases plus sophistiquées prennent en compte la longueur/complexité du mot avant d'appliquer une règle. Par exemple, les phases plus sophistiquées prennent en compte la longueur/complexité du mot avant d'appliquer une règle :

![stemming1.png](../stemming2.png)

Ici, `m>0` décrit la "mesure" de la tige, de sorte que la règle s'applique à toutes les tiges sauf les plus élémentaires.

In [1]:
# Import the toolkit and the full Porter Stemmer library
import nltk

from nltk.stem.porter import *

  LARGE_SPARSE_SUPPORTED = LooseVersion(scipy_version) >= '0.14.0'


In [2]:
p_stemmer = PorterStemmer()

In [3]:
words = ['run','runner','running','ran','runs','easily','fairly']

In [4]:
for word in words:
    print(word+' --> '+p_stemmer.stem(word))

run --> run
runner --> runner
running --> run
ran --> ran
runs --> run
easily --> easili
fairly --> fairli


<font color=green>Notez que la racine reconnaît "runner" comme un nom, et non comme une forme verbale ou un participe. De même, les adverbes "easy" et "fairly" sont dérivés de la racine inhabituelle "easili" et "fairli"."</font>
___

## Snowball Stemmer
Il s'agit d'une appellation quelque peu erronée, car Snowball est le nom d'un langage de troncature développé par Martin Porter. L'algorithme utilisé ici est plus précisément appelé "English Stemmer" ou "Porter2 Stemmer". Il offre une légère amélioration par rapport à l'algorithme original de Porter, à la fois en termes de logique et de rapidité. Comme **nltk** utilise le nom SnowballStemmer, nous l'utiliserons ici.

In [5]:
from nltk.stem.snowball import SnowballStemmer

# The Snowball Stemmer requires that you pass a language parameter
s_stemmer = SnowballStemmer(language='english')

In [6]:
words = ['run','runner','running','ran','runs','easily','fairly']
# words = ['generous','generation','generously','generate']

In [7]:
for word in words:
    print(word+' --> '+s_stemmer.stem(word))

run --> run
runner --> runner
running --> run
ran --> ran
runs --> run
easily --> easili
fairly --> fair


<font color=green>Dans ce cas, la performance du stemmer est la même que celle du Porter Stemmer, à l'exception du fait qu'il a traité le stem de "fairly" de manière plus appropriée avec "fair"</font>
___

## Essayez vous-même !
#### Introduisez quelques-uns de vos propres mots et testez les différents logiciels de troncature sur ces mots. N'oubliez pas de les passer en tant que chaînes !

In [8]:
words = ['consolingly']

In [9]:
print('Porter Stemmer:')
for word in words:
    print(word+' --> '+p_stemmer.stem(word))

Porter Stemmer:
consolingly --> consolingli


In [10]:
print('Porter2 Stemmer:')
for word in words:
    print(word+' --> '+s_stemmer.stem(word))

Porter2 Stemmer:
consolingly --> consol


Le stemming a ses inconvénients. Si l'on donne le token `saw`, le stemming pourrait toujours retourner `saw`, alors que la lemmatisation retournerait probablement soit `see` soit `saw` selon que l'utilisation du token est un verbe ou un substantif. Prenons l'exemple suivant :

In [11]:
phrase = 'I am meeting him tomorrow at the meeting'
for word in phrase.split():
    print(word+' --> '+p_stemmer.stem(word))

I --> I
am --> am
meeting --> meet
him --> him
tomorrow --> tomorrow
at --> at
the --> the
meeting --> meet


Ici, le mot "réunion" apparaît deux fois - une fois en tant que verbe et une fois en tant que nom, et pourtant le radical traite les deux de la même manière.

### Next : Lemmatization