# Principes fondamentaux de NLP: Tokenization, Lemmatization, Stemming, et Sentence Segmentation


Le traitement du langage naturel (NLP) a fait des progrès considérables ces dernières années grâce au succès des [techniques modernes](https://nlpoverview.com/) basées sur l'[apprentissage profond](https://en.wikipedia.org/wiki/Deep_learning). Avec l'augmentation de la popularité du NLP et la disponibilité de différentes formes de données à grande échelle, il est aujourd'hui encore plus impératif de comprendre le fonctionnement interne des techniques et des concepts du NLP, à partir des premiers principes, car ils trouvent leur place dans les usages et les applications du monde réel qui affectent la société dans son ensemble. Il est important de développer des intuitions et d'avoir une bonne compréhension des concepts pour mettre au point des techniques innovantes, améliorer la recherche et créer des technologies d'IA et de PNL sûres et centrées sur l'homme.

Dans ce Notebook, nous allons découvrir certains des **concepts de base** les plus importants qui alimentent les techniques NLP utilisées pour la recherche et la création d'applications du monde réel. Certaines de ces techniques comprennent la *lemmatisation*, le *stemmingt*, la *tokénisation* et la *segmentation de la phrase*. Ce sont toutes des techniques importantes pour former des modèles NLP efficaces et performants.




## Tokenization

![alt text](https://drive.google.com/uc?export=view&id=1h0ZNzohff1nUWMerrW50eDxY99ArRJTK)

Dans toute tâche NLP typique, l'une des premières étapes est de tokeniser vos morceaux de texte en mots/tokens individuels (processus démontré dans la figure ci-dessus), dont le résultat est utilisé pour créer des vocabulaires qui seront utilisés dans le modèle de langage que vous prévoyez de construire. Il s'agit en fait de l'une des techniques que nous utiliserons le plus tout au long de cette série, mais nous nous en tiendrons ici aux principes de base.

Je vous montre ci-dessous un exemple de tokéniseur simple qui ne suit aucune norme. Tout ce qu'il fait, c'est extraire les jetons sur la base d'un séparateur d'espace blanc.

Essayez d'exécuter les blocs de code suivants.



In [1]:
## required libraries that need to be installed
%%capture
!pip install -U spacy
!pip install -U spacy-lookups-data
!python -m spacy download en_core_web_sm

In [2]:
## tokenizing a piecen of text
doc = "I love coding and writing"
for i, w in enumerate(doc.split(" ")):
    print("Token " + str(i) + ": " + w)

Token 0: I
Token 1: love
Token 2: coding
Token 3: and
Token 4: writing


Tout ce que fait le code est de séparer la phrase en tokens individuels. Le bloc de code simple ci-dessus fonctionne bien avec le texte que j'ai fourni. Mais généralement, le texte est beaucoup plus bruyant et complexe que l'exemple que j'ai utilisé. Par exemple, si j'ai utilisé le mot "so-called", s'agit-il d'un seul mot ou de deux mots ? Pour de tels scénarios, vous pouvez avoir besoin d'approches plus avancées pour la tokenisation. Vous pouvez envisager de supprimer le "-" et de diviser le mot en deux jetons ou de le combiner en un seul jeton, mais tout dépend du problème et du domaine sur lesquels vous travaillez. 

Un autre problème avec notre algorithme simple est qu'il ne peut pas traiter les espaces blancs supplémentaires dans le texte. En outre, comment traiter des villes comme "New York" et "San Francisco" ?


La tokenisation peut également prendre différentes formes. Par exemple, plus récemment, un grand nombre de modèles NLP de pointe tels que [BERT](https://arxiv.org/pdf/1810.04805.pdf) utilisent des tokens de `sous-mots` dans lesquels des combinaisons fréquentes de caractères font également partie du vocabulaire. Cela permet de traiter le problème dit du "hors vocabulaire" (OOV). Nous en parlerons dans les prochains chapitres, mais si vous souhaitez en savoir plus, consultez cet [article](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/37842.pdf).

Pour démontrer comment réaliser une tokénisation plus fiable, nous allons utiliser [spaCy](https://spacy.io/), qui est une bibliothèque Python impressionnante et robuste pour le traitement du langage naturel. En particulier, nous allons utiliser le tokenizer intégré qui se trouve [here](https://spacy.io/usage/linguistic-features#sbd-custom).

Exécutez le bloc de code ci-dessous.

In [6]:
## import the libraries
import spacy
## load the language model
nlp = spacy.load("en_core_web_sm")

## tokenization
doc = nlp("This is the so-called lemmatization")
for token in doc:
    print(token.text)

This
is
the
so
-
called
lemmatization


Tout ce que fait le code est de tokeniser le texte en se basant sur un modèle de langage pré-construit.

Essayez de mettre un texte différent dans la partie `nlp()` du code ci-dessus. Le tokenizer est assez robuste et il inclut une série de règles intégrées qui traitent les exceptions et les cas spéciaux tels que les tokens qui contiennent des puctuations comme "`" et ".", "-", etc. Vous pouvez même ajouter vos propres règles, découvrez comment [ici](https://spacy.io/usage/linguistic-features#special-cases).

Dans un prochain chapitre de la série, nous nous pencherons sur la tokénisation et les différents outils existants qui peuvent simplifier et accélérer le processus de tokénisation pour créer des vocabulaires. Parmi les outils que nous explorerons, citons [Keras Tokenizer API](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizer) et [Hugging Face Tokenizer](https://github.com/huggingface/tokenizers).  

---

## Lemmatization

![alt text](https://drive.google.com/uc?export=view&id=1_-wxBOU_JebjdG1sxoobKYRCtX3dVF0L)

[La lemmatisation](https://en.wikipedia.org/wiki/Lemmatisation) est le processus par lequel nous prenons des éléments individuels d'une phrase et nous essayons de les réduire à leur forme *base*. Le processus qui rend cela possible consiste à disposer d'un vocabulaire et à effectuer une analyse morphologique pour supprimer les terminaisons flexionnelles. Le résultat du processus de lemmatisation (comme le montre la figure ci-dessus) est le *lemma* ou la forme de base du mot. Par exemple, un processus de lemmatisation réduit les désinences "am", "are" et "is" à la forme de base "be". Jetez un coup d'œil à la figure ci-dessus pour un exemple complet et essayez de comprendre ce qu'il fait.

La lemmatisation est utile pour normaliser le texte pour les tâches de classification de texte ou les moteurs de recherche, et une variété d'autres tâches NLP telles que la [classification des sentiments](https://en.wikipedia.org/wiki/Sentiment_analysis). Elle est particulièrement importante lorsqu'il s'agit de langues complexes comme l'arabe et l'espagnol.

Pour montrer comment réaliser la lemmatisation et comment elle fonctionne, nous allons à nouveau utiliser [spaCy](https://spacy.io/). En utilisant la classe spaCy [Lemmatizer](https://spacy.io/api/lemmatizer#_title), nous allons convertir quelques mots en leurs lemmes. 

Ci-dessous je montre un exemple de comment lemmatiser une phrase en utilisant spaCy. Essayez d'exécuter le bloc de code ci-dessous et examinez les résultats.

In [10]:
## import the libraries
import spacy

## lemmatization
doc = nlp(u'I love coding and writing')
for word in doc: 
    print(word.text, "=>", word.lemma_)

I => I
love => love
coding => code
and => and
writing => write


**Exercice 1:** Essayez le code ci-dessus avec différentes phrases et voyez si vous obtenez des résultats inattendus. Essayez également d'ajouter des ponctuations et des espaces supplémentaires qui sont plus courants dans le langage naturel. Que se passe-t-il ?

In [44]:
### ENTER CODE HERE

###

I => I
love => love
coding => code
and => and
    =>    
, => ,
; => ;
: => :
! => !
writing => write


## Stemming

![alt text](https://drive.google.com/uc?export=view&id=1XcK3OzdPd2ywO8Y4G6vfjuIFthPce3FH)

Stemming n'est qu'une version simplifiée de la lemmatisation, où l'on cherche à supprimer le suffixe à la fin du mot. Lors de l'épellation, nous cherchons à réduire le mot *infléchi* ou *dérivé* à sa forme de base. Jetez un coup d'œil à la figure ci-dessus pour avoir une idée du processus.

Les processus de déracinement et de lemmatisation impliquent tous deux une [*analyse morphologique*](https://en.wikipedia.org/wiki/Morphology_(linguistique)) où les racines et les affixes (appelés *morphèmes*) sont extraits et utilisés pour réduire les inflexions à leur forme de base. Par exemple, le mot *cats* a deux morphèmes, *cat* et *s*, le *cat* étant le radical et le *s* l'affixe représentant la pluralité.

spaCy ne prend pas en charge l'extraction de la racine. Pour cette partie, nous allons donc utiliser [NLTK](https://www.nltk.org/), une autre fantastique bibliothèque NLP en Python. 

L'exemple simple ci-dessous montre comment vous pouvez faire le stemming des mots dans un texte. Allez-y et exécutez le code pour voir ce qui se passe.

In [43]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer(language='english')
doc = 'I prefer not to argue'
for token in doc.split(" "):
    print(token, '=>' , stemmer.stem(token))

I => i
prefer => prefer
not => not
to => to
argue => argu


**Exercise 2:** Essayez d'utiliser différentes phrases dans le code ci-dessus et observez l'effet du stemmer.

In [None]:
###  ENTER CODE HERE

###

## Sentence Segmentation

![alt text](https://drive.google.com/uc?export=view&id=1aeHpGNWdnA_VdP0VAu7sO1OGW2eusgHH)

Lorsque l'on traite un texte, il arrive souvent que l'on doive le décomposer en phrases individuelles. C'est ce qu'on appelle la segmentation de phrases : le processus d'obtention des phrases individuelles à partir d'un corpus de texte. Les segments obtenus peuvent ensuite être analysés individuellement avec les techniques que nous avons apprises précédemment.

Dans la bibliothèque spaCy, nous avons le choix d'utiliser un segmenteur de phrases intégré (formé sur des modèles statistiques) ou de construire votre propre méthode basée sur des règles. En fait, nous allons couvrir quelques exemples pour démontrer la difficulté de ce problème.

Ci-dessous, j'ai créé une implémentation naïve d'un algorithme de segmentation de phrases sans utiliser aucune sorte de bibliothèque spéciale. Vous pouvez voir que mon code devient de plus en plus complexe (bugs inclus) au fur et à mesure que je commence à considérer plus de règles. Cette sorte d'approche boostrapped ou basée sur des règles est parfois votre seule option selon la langue avec laquelle vous travaillez ou la disponibilité des ressources linguistiques. 

Exécutez le code ci-dessous pour appliquer un algorithme simple de segmentation de phrases.

In [52]:
## using a simple rule-based segmenter with native python code
text = "I love coding and programming. I also love sleeping!"

current_position = 0
cursor = 0
sentences = []
for c in text:
    if c == "." or c == "!":
        sentences.append(text[current_position:cursor+1])
        current_position = cursor + 2
    cursor+=1

print(sentences)

['I love coding and programming.', 'I also love sleeping!']


Notre segmenteur de phrases ne segmente les phrases que lorsqu'il rencontre une limite de phrase qui, dans ce cas, est soit un "." soit un " !". Ce n'est pas le code le plus propre, mais il montre à quel point la tâche peut devenir difficile lorsque nous sommes confrontés à des textes plus riches qui incluent des caractères spéciaux plus variés. Un problème avec mon code est que je ne suis pas capable de faire la différence entre des abréviations comme Dr. et des nombres comme 0,4. Vous pouvez peut-être créer votre propre expression régulière complexe (nous y reviendrons dans le deuxième chapitre) pour traiter ces cas particuliers, mais cela demande beaucoup de travail et de débogage. Heureusement pour nous, il existe des bibliothèques comme spaCy et NLTK qui nous aident dans ce genre de tâches de prétraitement.

Essayons la segmentation de phrase fournie par spaCy. Exécutez le code ci-dessous et examinez les résultats.

In [53]:
doc = nlp("I love coding and programming. I also love sleeping!")
for sent in doc.sents:
    print(sent.text)

I love coding and programming.
I also love sleeping!
