# S1 Introduction Traitement Automatique du Langage Naturel 

### A quoi sert le Traitement Automatique du Langage Naturel (TAL) ?

I. A quoi sert le Traitement Automatique du Langage Naturel (TAL) ?
Le traitement automatique du Langage Naturel est un des domaines de recherche les plus actifs en science des données actuellement. C’est un domaine à l’intersection du Machine Learning et de la linguistique. Il a pour but d’extraire des informations et une signification d’un contenu textuel.

Le Traitement Automatique du Langage naturel (TAL) ou Natural Language Processing (NLP) en anglais trouve de nombreuses applications dans la vie de tous les jours:

traduction de texte (DeepL par exemple)
correcteur orthographique
résumé automatique d’un contenu
synthèse vocale
classification de texte
analyse d’opinion/sentiment
prédiction du prochain mot sur smartphone
extraction des entités nommées depuis un texte
…
La plupart des ressources disponibles actuellement sont en anglais, ce qui implique que la plupart des modèles pré-entraînés sont également spécifiques à la langue anglaise. Cependant, il existe des librairies et des outils en français pour accomplir les tâches mentionnées ci-dessus. Nous allons les voir dans cet article.

### Les grands principes

II. Les grands principes
Le TAL (traitement automatique du langage) est généralement composé de deux à trois grandes étapes:

Pré-traitement : une étape qui cherche à standardiser du texte afin de rendre son usage plus facile
Représentation du texte comme un vecteur : Cette étape peut être effectuée via des techniques de sac de mots (Bag of Words) ou Term Frequency-Inverse Document Frequency (Tf-IdF). On peut également apprendre des représentations vectorielles (embedding) par apprentissage profond.
Classification, trouver la phrase la plus similaire… (optionnel).
Dans cet article, nous allons couvrir les tâches de TAL les plus communes pour lesquelles des outils spécifiques au français existent.

Nous utiliserons principalement SpaCy. SpaCy est une jeune librairie (2015) qui offre des modèles pré-entraînés pour diverses applications, y compris la reconnaissance d’entités nommées. SpaCy est la principale alternative à NLTK (Natural Language Tool Kit), la librairie historique pour le TAL avec Python, et propose de nombreuses innovations et options de visualisation qui sont très intéressantes.

Après avoir installé la librairie SpaCy (pip install spacy), il faut télécharger les modèles français.

Ce modèle est un réseau convolutionnel entraîne sur deux corpus, WikiNER et Sequoia, ce qui représente de gros volumes de données en français (typiquement plusieurs dizaines de Go).

Dans un notebook Jupyter, on peut alors importer SpaCy et charger le modèle français.

In [7]:
#piop install spacy

In [8]:
# import spacy
# spacy.cli.download('fr_core_news_sm')

In [9]:
import spacy
from spacy import displacy

nlp = spacy.load("fr_core_news_sm")

In [10]:
test = "Bouygues a eu une coupure de réseau à Marseille."

### Tokenisation

La tokenisation cherche à transformer un texte en une série de tokens individuels. Dans l’idée, chaque token représente un mot, et identifier des mots semble être une tâche relativement simple. Mais comment gérer en français des exemples tels que: « J’ai froid ». Il faut que le modèle de tokenisation sépare le « J' » comme étant un premier mot.

SpaCy offre une fonctionnalité de tokenisation en utilisant la fonction nlp. Cette fonction est le point d’entrée vers toutes les fonctionnalités de SpaCy. Il sert à représenter le texte sous une forme interprétable par la librairie.

In [11]:
def return_token(sentence):
    doc = nlp(sentence)
    return [X.text for X in doc]

In [12]:
print(test)
print(return_token(test))

Bouygues a eu une coupure de réseau à Marseille.
['Bouygues', 'a', 'eu', 'une', 'coupure', 'de', 'réseau', 'à', 'Marseille', '.']


### Enlever les mots les plus fréquents

Certains mots se retrouvent très fréquemment dans la langue française. En anglais, on les appelle les « stop words ». Ces mots, bien souvent, n’apportent pas d’information dans les tâches suivantes. Lorsque l’on effectue par exemple une classification par la méthode Tf-IdF, on souhaite limiter la quantité de mots dans les données d’entraînement.

Les « stop words » sont établis comme des listes de mots. Ces listes sont généralement disponibles dans une librairie appelée NLTK (Natural Language Tool Kit), et dans beaucoup de langues différentes. On accède aux listes en français de cette manière:

Pour filtrer le contenu de la phrase, on enlève tous les mots présents dans cette liste:

In [13]:
!python --version 


Python 3.11.0rc2


In [14]:
from nltk.corpus import stopwords
#import nltk
#nltk.download('stopwords')

stopWords = set(stopwords.words('french'))
stopwords

<WordListCorpusReader in '/Users/constantinbogdanas/nltk_data/corpora/stopwords'>

In [15]:
from nltk.corpus import stopwords
stopWords = set(stopwords.words('french'))

clean_words = []
for token in return_token(test):
    if token not in stopWords:
        clean_words.append(token)

In [16]:
print(stopWords)

{'aurai', 'les', 'aurait', 'eussiez', 'à', 'suis', 'une', 'furent', 'ayante', 'aurez', 'ayez', 'eus', 'étante', 'aurions', 'fûmes', 'étais', 'sur', 'serai', 'mes', 'serait', 'fût', 'fussent', 'ont', 'ai', 'aviez', 'son', 'étant', 'ne', 's', 'sa', 'notre', 'as', 'y', 'est', 'votre', 'eu', 'serais', 'en', 'étantes', 'eusse', 'eussions', 'étaient', 'pas', 'le', 'il', 'ayantes', 'fussiez', 'soit', 'eûmes', 'leur', 'm', 'étiez', 'c', 'toi', 'fusses', 't', 'par', 'aient', 'eurent', 'se', 'sommes', 'aie', 'été', 'seront', 'avions', 'tu', 'ce', 'fussions', 'sera', 'ton', 'ayons', 'moi', 'auront', 'nos', 'étants', 'ait', 'ils', 'soyons', 'l', 'que', 'avez', 'auriez', 'eût', 'avons', 'ma', 'fusse', 'eux', 'mon', 'soient', 'avec', 'fûtes', 'étions', 'n', 'me', 'aies', 'es', 'ses', 'un', 'sont', 'des', 'ces', 'serez', 'aura', 'pour', 'dans', 'auras', 'étées', 'eut', 'eûtes', 'était', 'sois', 'êtes', 'qui', 'eues', 'même', 'vos', 'aurais', 'avais', 'nous', 'du', 'tes', 'ta', 'lui', 'd', 'ayants', '

In [17]:
clean_words

['Bouygues', 'a', 'coupure', 'réseau', 'Marseille', '.']

### Tokenisation de phrases

On peut également appliquer une tokenisation par phrase afin d’identifier les différentes phrases d’un texte. Cette étape peut à nouveau sembler facile, puisque a priori, il suffit de couper chaque phrase lorsqu’un point est rencontré (ou un point d’exclamation ou d’interrogation).

Mais que se passerait-t-il dans ce cas-là?

Bouygues a eu une coupure de réseau à Marseille. La panne a affecté 300.000 utilisateurs.

Il faut donc une compréhension du contexte afin d’effectuer une bonne tokenisation par phrase.

In [18]:
def return_token_sent(sentence):
    doc = nlp(sentence)
    return [X.text for X in doc.sents]

In [19]:
return_token_sent("Bouygues a eu une coupure de réseau à Marseille. La panne a affecté 300.000 utilisateurs.")

['Bouygues a eu une coupure de réseau à Marseille.',
 'La panne a affecté 300.000 utilisateurs.']

### Lemmatisation et Stemming

Le stemming et la lemmatisation sont des méthodes utilisées par les moteurs de recherche et les chatbots pour analyser le sens d'un mot. La radicalisation utilise la racine du mot, tandis que la lemmatisation utilise le contexte dans lequel le mot est utilisé. Nous reviendrons plus tard sur des explications et des exemples plus détaillés

Le stemming consiste à réduire un mot dans sa forme « racine ». Le but du stemming est de regrouper de nombreuses variantes d’un mot comme un seul et même mot. Par exemple, une fois que l’on applique un stemming sur « Chiens » ou « Chien », le mot résultant est le même. Cela permet notamment de réduire la taille du vocabulaire dans les approches de type sac de mots ou Tf-IdF.

Un des stemmers les plus connus est le Snowball Stemmer. Ce stemmer est disponible en français.

In [20]:
# Initialize wordnet lemmatizer
import nltk
#nltk.download('wordnet')
wnl = nltk.WordNetLemmatizer()
# Initialize Python porter stemmer
ps = nltk.PorterStemmer()
# Example inflections to reduce
example_words = ["program","programming","programer","programs","programmed"]

# Perform lemmatization
print("{0:20}{1:20}{2:20}".format("--Word--","--Lemma--","--Stem--"))
for word in example_words:
   print ("{0:20}{1:20}{2:20}".format(word, wnl.lemmatize(word, pos="v"),ps.stem(word)))

--Word--            --Lemma--           --Stem--            
program             program             program             
programming         program             program             
programer           programer           program             
programs            program             program             
programmed          program             program             


In [21]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='french')
def return_stem(sentence):
    doc = nlp(sentence)
    return [stemmer.stem(X.text) for X in doc]

return_stem(test)

['bouygu', 'a', 'eu', 'une', 'coupur', 'de', 'réseau', 'à', 'marseil', '.']

In [22]:
import nltk
def return_lemm(sentence):
    doc = nlp(sentence)
    return [nltk.WordNetLemmatizer().lemmatize(X.text) for X in doc]

print(return_lemm(test))

['Bouygues', 'a', 'eu', 'une', 'coupure', 'de', 'réseau', 'à', 'Marseille', '.']


### Reconnaissance d'entités nommées (NER)

En traitement automatique du langage, la reconnaissance d’entités nommées cherche à détecter les entités telles que des personnes, des entreprises ou des lieux dans un texte. Cela s’effectue très facilement avec SpaCy.

In [23]:
def return_NER(sentence):
    doc = nlp(sentence)
    return [(X.text, X.label_) for X in doc.ents]

In [24]:
return_NER(test)

[('Bouygues', 'ORG'), ('Marseille', 'LOC')]

### reconnaissances d’entités

Spacy offre des « Visualizers », des outils graphiques qui permettent d’afficher les résultats de reconnaissances d’entités nommées ou d’étiquetage par exemple.

In [28]:
doc = nlp(test)
colors = {"ORG": "linear-gradient(90deg, #aa9cfc, #fc9ce7)"}
options = {"ents": ["ORG"], "colors": colors}

displacy.serve(doc, style="ent", options=options, port = 5001)




Using the 'ent' visualizer
Serving on http://0.0.0.0:5001 ...



127.0.0.1 - - [03/Apr/2023 11:35:52] "GET / HTTP/1.1" 200 817
127.0.0.1 - - [03/Apr/2023 11:35:53] "GET /favicon.ico HTTP/1.1" 200 817


Shutting down server on port 5001.


### L’étiquetage morpho-syntaxique ou Part-of-Speech Tagging (POS)

L’étiquetage morpho-syntaxique ou Part-of-Speech (POS) Tagging en anglais essaye d’attribuer une étiquette à chaque mot d’une phrase mentionnant la fonctionnalité grammaticale d’un mot (Nom propre, adjectif, déterminant…).

In [None]:
def return_POS(sentence):
    doc = nlp(sentence)
    return [(X, X.pos_) for X in doc]

In [None]:
return_POS(test)

[(Bouygues, 'PROPN'),
 (a, 'AUX'),
 (eu, 'VERB'),
 (une, 'DET'),
 (coupure, 'NOUN'),
 (de, 'ADP'),
 (réseau, 'NOUN'),
 (à, 'ADP'),
 (Marseille, 'PROPN'),
 (., 'PUNCT')]

### dépendances entre ces étiquettes.

Spacy dispose également d’une option de visualisation qui nous permet simplement d’afficher les étiquettes identifiées ainsi que les dépendances entre ces étiquettes.

In [30]:
from spacy import displacy

doc = nlp(test)
displacy.serve(doc, style="dep", port=5002)




Using the 'dep' visualizer
Serving on http://0.0.0.0:5002 ...



127.0.0.1 - - [03/Apr/2023 11:43:05] "GET / HTTP/1.1" 200 7549
127.0.0.1 - - [03/Apr/2023 11:43:06] "GET /favicon.ico HTTP/1.1" 200 7549
127.0.0.1 - - [03/Apr/2023 11:43:29] "GET / HTTP/1.1" 200 7549
127.0.0.1 - - [03/Apr/2023 11:43:30] "GET /favicon.ico HTTP/1.1" 200 7549


Shutting down server on port 5002.


### Embedding par mot

Avec SpaCy, on peut facilement récupérer le vecteur correspondant à chaque mot une fois passé dans le modèle pré-entraîné en français.

Cela nous sert à représenter chaque mot comme étant un vecteur de taille 96.

In [31]:
import numpy as np

def return_word_embedding(sentence):
    doc = nlp(sentence)
    return [(X.tensor) for X in doc]

In [34]:
emb = return_word_embedding(test)


In [38]:
emb[0].shape

(96,)

Cette information nous sert notamment lorsque l’on cherche à caractériser la similarité entre deux mots ou deux phrases.

### Similarités entre phrases

Afin de déterminer la similarité entre deux phrases, nous allons opter pour une méthode très simple :

déterminer l’embedding moyen d’une phrase en moyennant l’embedding de tous les mots de la phrase
calculer la distance entre deux phrases par simple distance euclidienne
Cela s’effectue très facilement avec SpaCy !

In [39]:
def return_mean_embedding(sentence):
    doc = nlp(sentence)
    return np.mean([(X.vector) for X in doc], axis=0)

In [40]:
test_2 = "Le réseau sera bientot rétabli à Marseille"
test_3 = "La panne réseau affecte plusieurs utilisateurs de l'opérateur"
test_4 = "Il fait 18 degrés ici"

Ici, on s’attend à ce que la phrase 2 soit la plus proche de la phrase test, puis la phrase 3 et 4.

Avec Numpy, la distance euclidienne se calcule simplement :

In [41]:
return_mean_embedding(test)

array([ 0.48619524,  0.15543929,  0.4653287 ,  0.64519817,  0.44107217,
        0.49356538,  0.93042785,  0.57736075, -0.6094683 ,  1.8377934 ,
        0.6665911 , -1.278511  , -1.0292515 ,  1.4569204 , -1.373152  ,
       -1.5997047 ,  0.7098424 , -1.1245949 , -1.5406461 ,  0.15426469,
       -1.4622042 ,  3.028283  ,  0.17393643, -1.5314258 ,  0.08824585,
       -1.5294561 ,  0.65370035,  0.85241777,  0.29733366, -0.06776382,
       -1.412475  , -1.4302574 , -0.2523386 , -1.407089  ,  2.5920694 ,
        1.5972013 , -2.466631  ,  0.09732366, -0.57793695, -0.01827459,
       -1.094178  ,  0.6201561 , -0.8610061 , -0.39174575,  0.8132372 ,
       -0.05847082, -0.8287512 ,  0.14426422, -0.9052164 , -0.10958304,
       -0.5539492 , -0.07332305, -1.1061761 , -0.12070229,  2.1586022 ,
       -1.3482856 , -1.2779549 ,  0.6481518 ,  0.5812394 ,  0.05964099,
        0.2509245 , -0.7327844 , -2.2258992 , -0.6381255 ,  1.7993282 ,
        0.6445108 ,  1.6918131 ,  0.8223463 ,  1.034546  ,  0.85

In [42]:
np.linalg.norm(return_mean_embedding(test)-return_mean_embedding(test_2))

11.860769

In [43]:
np.linalg.norm(return_mean_embedding(test)-return_mean_embedding(test_3))

12.083752

In [44]:
np.linalg.norm(return_mean_embedding(test)-return_mean_embedding(test_4))

19.62302

La phrase 2 est bien identifiée comme la plus proche, puis la phrase 3 et 4. On peut également utiliser cette approche pour classifier si une phrase appartient à une classe ou à une autre.