# Le stemming et la lemmatisation

En français, le stemming et la lemmatisation sont des techniques de traitement de texte visant à réduire les mots à leur forme de base (ou forme canonique) pour faciliter l'analyse et la recherche de texte. Voici les définitions :

1. **Stemming (Racinisation)** :
   Le stemming est le processus de réduction des mots à leur radical ou "stem". Cela signifie qu'il supprime les préfixes et les suffixes des mots pour obtenir une forme de base. Par exemple, le mot "mangerait" serait ramené à "mange" en utilisant le stemming.

2. **Lemmatization (Lemmatisation)** :
   La lemmatisation, quant à elle, est un processus similaire au stemming, mais plus sophistiqué. Il tient compte de la morphologie des mots et essaie de les ramener à leur forme canonique, le "lemme". Par exemple, le mot "mangerait" serait lemmatisé en "manger".

Maintenant, pour effectuer le stemming et la lemmatisation en français avec la bibliothèque NLTK, voici comment procéder :

Pour effectuer le stemming et la lemmatisation en français avec la bibliothèque SpaCy, suivez ces étapes :


1. **Stemming en français avec SpaCy** :

   SpaCy n'inclut pas une fonction de stemming, mais il offre une lemmatisation performante qui couvre déjà une grande partie des besoins.

2. **Lemmatisation en français avec SpaCy** :

   ```python
   import spacy

   # Chargez le modèle pour le français
   nlp = spacy.load("fr_core_news_sm")

   mot = "mangerait"
   doc = nlp(mot)

   # Accédez à la lemmatisation
   lemme = doc[0].lemma_
   print(lemme)
   ```

   Cela affichera "manger" car c'est la forme canonique de "mangerait".

Avec ces étapes, vous serez en mesure d'appliquer la lemmatisation en français à l'aide de la bibliothèque SpaCy. Pour le stemming, vous devrez utiliser une autre bibliothèque spécialisée, car SpaCy est principalement conçu pour la lemmatisation et l'analyse syntaxique.

In [51]:
# Effectuer des importations standards :
import spacy
nlp = spacy.load('en_core_web_sm')

In [None]:
are, is, -> be

In [52]:
var1 = nlp(u"John Adam  is one the researcher who invent the direction of way towards success!")

for token in var1:
    print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

John 	 PROPN 	 11174346320140919546 	 John
Adam 	 PROPN 	 14264057329400597350 	 Adam
  	 SPACE 	 8532415787641010193 	  
is 	 AUX 	 10382539506755952630 	 be
one 	 NUM 	 17454115351911680600 	 one
the 	 DET 	 7425985699627899538 	 the
researcher 	 NOUN 	 1317581537614213870 	 researcher
who 	 PRON 	 3876862883474502309 	 who
invent 	 VERB 	 5373681334090504585 	 invent
the 	 DET 	 7425985699627899538 	 the
direction 	 NOUN 	 895834437038626927 	 direction
of 	 ADP 	 886050111519832510 	 of
way 	 NOUN 	 6878210874361030284 	 way
towards 	 ADP 	 9315050841437086371 	 towards
success 	 NOUN 	 16089821935113899987 	 success
! 	 PUNCT 	 17494803046312582752 	 !


In [53]:
var1 = nlp(u"I am meeting him tomorrow at the meeting.")

for token in var1:
    print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

I 	 PRON 	 4690420944186131903 	 I
am 	 AUX 	 10382539506755952630 	 be
meeting 	 VERB 	 6880656908171229526 	 meet
him 	 PRON 	 1655312771067108281 	 he
tomorrow 	 NOUN 	 3573583789758258062 	 tomorrow
at 	 ADP 	 11667289587015813222 	 at
the 	 DET 	 7425985699627899538 	 the
meeting 	 NOUN 	 14798207169164081740 	 meeting
. 	 PUNCT 	 12646065887601541794 	 .




### Utilisation de NLTK pour le stemming et la lemmatisation en français

1. **Installation** :

   Assurez-vous d'avoir la bibliothèque NLTK installée dans votre environnement Python.

   ```python
   !pip install nltk
   ```

2. **Téléchargement des ressources spécifiques au français** :

   Pour utiliser les fonctionnalités de stemming et de lemmatisation en français, vous devez télécharger les ressources spécifiques. Vous pouvez le faire avec les commandes suivantes :

   ```python
   import nltk
   nltk.download('punkt')
   nltk.download('averaged_perceptron_tagger')
   nltk.download('wordnet')
   nltk.download('omw')
   ```

3. **Stemming en français** :

   ```python
   from nltk.stem.snowball import FrenchStemmer

   stemmer = FrenchStemmer()
   mot = "mangerait"
   stem = stemmer.stem(mot)
   print(stem)
   ```

   Cela affichera "mang" car il s'agit du radical de "mangerait".

4. **Lemmatisation en français** :

   ```python
   from nltk.stem import WordNetLemmatizer

   lemmatizer = WordNetLemmatizer()
   mot = "mangerait"
   lemme = lemmatizer.lemmatize(mot)
   print(lemme)
   ```

   Cela affichera "manger" car c'est la forme canonique de "mangerait".

Avec ces étapes, vous serez en mesure d'appliquer le stemming et la lemmatisation en français à l'aide de la bibliothèque NLTK.

In [54]:
import nltk
#nltk.download('popular')
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [55]:
stemmer = PorterStemmer()

In [56]:
words = ['run','runner','running','ran','runs','easily','fairly']
for word in words:
    print(word+' --> '+stemmer.stem(word))

run --> run
runner --> runner
running --> run
ran --> ran
runs --> run
easily --> easili
fairly --> fairli


In [57]:
paragraph = """I have three visions for India. In 3000 years of our history, people from all over
               the world have come and invaded us, captured our lands, conquered our minds.
               From Alexander onwards, the Greeks, the Turks, the Moguls, the Portuguese, the British,
               the French, the Dutch, all of them came and looted us, took over what was ours.
               Yet we have not done this to any other nation. We have not conquered anyone.
               We have not grabbed their land, their culture,
               their history and tried to enforce our way of life on them.
               My good fortune was to have worked with three great minds. Dr. Vikram Sarabhai of the Dept. of
               space, Professor Satish Dhawan, who succeeded him and Dr. Brahm Prakash, father of nuclear material.
               I was lucky to have worked with all three of them closely and consider this the great opportunity of my life.
               I see four milestones in my career"""



In [58]:
sentences = nltk.sent_tokenize(paragraph)

In [67]:
sentences

['i three vision india .',
 'in 3000 year history , people world come invaded u , captured land , conquered mind .',
 'from alexander onwards , greeks , turks , moguls , portuguese , british , french , dutch , came looted u , took .',
 'yet done nation .',
 'we conquered anyone .',
 'we grabbed land , culture , history tried enforce way life .',
 'my good fortune worked three great mind .',
 'dr. vikram sarabhai dept .',
 'space , professor satish dhawan , succeeded dr. brahm prakash , father nuclear material .',
 'i lucky worked three closely consider great opportunity life .',
 'i see four milestone career']

In [59]:


# Stemming
for i in range(len(sentences)):
    words = nltk.word_tokenize(sentences[i])
    words = [stemmer.stem(word) for word in words if word not in set(stopwords.words('english'))]
    sentences[i] = ' '.join(words)

In [60]:
sentences

['i three vision india .',
 'in 3000 year histori , peopl world come invad us , captur land , conquer mind .',
 'from alexand onward , greek , turk , mogul , portugues , british , french , dutch , came loot us , took .',
 'yet done nation .',
 'we conquer anyon .',
 'we grab land , cultur , histori tri enforc way life .',
 'my good fortun work three great mind .',
 'dr. vikram sarabhai dept .',
 'space , professor satish dhawan , succeed dr. brahm prakash , father nuclear materi .',
 'i lucki work three close consid great opportun life .',
 'i see four mileston career']

**Problème :** La représentation intermédiaire produite du mot peut n'avoir aucune signification.

In [61]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords

In [62]:
sentences = nltk.sent_tokenize(paragraph)
lemmatizer = WordNetLemmatizer()

In [63]:
sentences[0]

'I have three visions for India.'

In [64]:


# Lemmatization
for i in range(len(sentences)):
    words = nltk.word_tokenize(sentences[i])
    words = [lemmatizer.lemmatize(word).lower() for word in words if word not in set(stopwords.words('english'))]
    sentences[i] = ' '.join(words)

In [65]:
sentences[0]

'i three vision india .'