# Traitement du langage naturel


## 1. Introduction

### 1.1. Qu'est-ce que le traitement automatique du langage naturel ?

Le traitement du langage naturel (NLP en anglais) est un champ de l'informatique, de l'intelligence artificielle et de la linguistique qui traite des interactions entre les ordinateurs et les langues humaines (naturelles). Le but du NLP est de permettre aux ordinateurs de comprendre, d'interpréter et de générer des langues humaines.

Les applications du NLP incluent :
- la classification de textes, 
- l'analyse de sentiments, 
- la traduction de langues,
- la correction grammaticale 
- la reconnaissance d'entités nommées, 
- la reconnaissance vocale,
- les chatbots. 


Nous avons de plus en plus l'habitude d'être en interaction avec cette branche de l'IA notamment via :

👉🏻 **les outils de correction en ligne tels que [Scribens](https://www.scribens.fr/), [reverso](https://www.reverso.net/orthographe/correcteur-francais/) ou bien les correcteurs orthographiques des messageries téléphoniques**,
<img src='https://www.barometre-entreprendre.fr/wp-content/uploads/2022/05/les-avantages-de-scribens.png'>

👉🏻 **les propositions de réponse automatique telle que le propose Google dans son outil de messagerie Gmail**,
<img src=''>

👉🏻 **les applications de traduction tel que Google Translate**,
<img src='https://lh3.googleusercontent.com/EEZl-eNxoEik6MTLsK9BFtfKrsNVOy7lnNq3DS4Db9Qn3l9F68gNZHvrqeHFeLB-_d8qi9a0ZgYjYh3MCvB3mB0uh-oH0F5IYyYYC5grS1iGUd1z7oLuXV0dqMV9CuWSvV3OUPwz'>

👉🏻 **les chatbots de relation client présents sur certains sites internet**,
<img src='https://offreduweb.com/wp-content/uploads/5561/chatbot-le-robot-5f02378e4438b.png'>


👉🏻 **les assistants vocaux tels qu'Alexa, Cortana, Google**,
<img src='https://drive.google.com/uc?export=view&id=1MBtYT8Rd-ga18bwcQqbqI1atmC7HhkgD'>





Les techniques de NLP utilisent des algorithmes d'apprentissage automatique, 
- tels que les arbres de décision, 
- les forêts aléatoires, 
- les réseaux de neurones et l'apprentissage profond, pour analyser et modéliser la structure et la signification des langues.



## 2. Les bases de python à connaître pour faire du NLP

<img src='https://miro.medium.com/max/1200/1*Pl9OyXXrLH_5JiQB8vNx3w.jpeg'>

La première partie de cette formation sera ce consentrera sur les fondamentaux du NLP ainsi que les bases à connaitre en python pour manipuler du contenu textuel.


### 2.1 Les fonctions intégrées

- `print()` : permet d'afficher du texte ou des valeurs sur la sortie standard, généralement la console.
- `input()` : lit une entrée de l'utilisateur et la retourne sous forme de chaîne de caractères.
- `len()` : cette fonction retourne la longueur d'un objet, comme une liste, un tableau ou une chaîne de caractères.
- `type()` : cette fonction retourne le type d'un objet.
- `dir()` : retourne une liste des noms d'attributs et de méthodes associés à un objet donné. 
- `range()` :  retourne une séquence d'entiers, générée en fonction d'un début, d'une fin et d'un pas donnés.
- `str()`, `int()`,`float()`,`bool()` , `list()`, `dict()`, `tuple()` : **data type** permettant également des objets.

### 2.2 Liste compréhension et conditions

Une liste compréhension est une manière concise et lisible  de créer des listes à partir d'autres listes. Une liste compréhension est écrite en utilisant une expression simplifiée qui décrit comment les éléments doivent être transformés. Cela permet de générer des listes plus rapidement et avec moins de code qu'en utilisant des boucles classiques.

In [1]:
# Création d'une liste de manière traditionnelle avec une boucle for
list_carre = []

for x in range(11):
    if x % 2 == 0:
        list_carre.append(x**2)

list_carre

[0, 4, 16, 36, 64, 100]

In [2]:
# Liste compréhension : Carré des nombres paires jusqu'à 10
list_carre = [x**2 for x in range(11) if x % 2 == 0]
list_carre

[0, 4, 16, 36, 64, 100]


### 2.3 Programation oriétée Objet

La programmation orientée objet en Python est un paradigme de programmation qui utilise des objets et des classes pour structurer le code. 

Les objets sont des **instances de classes**, possedant des atributs et des méthodes. Les attributs sont des variables de classe, tandis que les méthodes sont des fonctions de classe. 

Les classes peuvent hériter les propriétés et les méthodes d'autres classes, ce qui permet de créer des relations de parenté entre les objets. En utilisant la programmation orientée objet, on peut créer des programmes plus organisés et plus faciles à maintenir.

In [3]:
# Déclaration d'une classe, paramètre 1 et 2 seront

class NomDeLaClasse:
  # Définition des attributs 
  def __init__(self, parametre1, parametre2):
    self.parametre1 = parametre1
    self.parametre2 = parametre2

  # Définition d'une méthode
  def nom_de_la_methode(self, p1, p2):
    pass

# Instance de classe
objet = NomDeLaClasse('parametre1', 'parametre2')


#Héritage :
class ClasseFille(NomDeLaClasse):
  def __init__(self, parametre1, parametre2, parametre3):
    NomDeLaClasse.__init__(self, parametre1, parametre2)
    self.parametre3 = parametre3


____
## 3. Prétraitement de texte avec la bibliothèque NLTK

Le prétraitement du texte aide à améliorer la qualité et la fiabilité des résultats des analyses NLP en nettoyant et en normalisant les données textuelles. Cela peut également accélérer les analyses en réduisant la taille des données à analyser.

Le prétraitement du texte est une étape importante dans le traitement du langage naturel (NLP) pour plusieurs raisons :
1. Conversion de la casse : La conversion de la casse peut être importante pour garantir la cohérence des données et éviter les problèmes liés à la casse dans les algorithmes de NLP.


2. Nettoyage de données : Les données textuelles brutes peuvent contenir des erreurs, des abréviations, des symboles et d'autres caractéristiques qui peuvent affecter la qualité des résultats des analyses NLP. Le prétraitement du texte aide à nettoyer ces données en supprimant les caractères indésirables, en corrigeant les erreurs et en normalisant les données.

3. Tokenisation : La tokenisation est l'étape cruciale de la division du texte en unités plus petites pour une analyse ultérieure. La tokenisation peut être utilisée pour diviser les données textuelles en mots, phrases, symboles et autres unités pertinentes.

4. Suppression des Stop words : Les stop words peuvent affecter négativement les performances des algorithmes NLP en ajoutant du bruit aux données. La suppression des stop words aide à filtrer les données et à améliorer les résultats de l'analyse.

5. Stemming et Lemmatisation : Le stemming et la lemmatisation sont des techniques importantes pour normaliser les mots et les réduire à leur forme de base pour une analyse plus cohérente.

Nous utiliserons par la suite le vocabulaire suivant :
- **Corpus** : Un corpus est un ensemble de documents textuels rassemblés en vu d'un traitement. 
- **Document** : Document : Un document est une unité de texte distincte, telle qu'un livre, un article de journal ou une page web. 
- **Text** : Le texte est un ensemble de mots et de phrases utilisés pour communiquer des informations et des idées. 
- **Token** : Un token est une unité d'information dans un texte, qui peut être un mot, un symbole, une poctuation ou tout autre élément pertinent.
- **Vocabulaire** : C'est l'ensemble des tokens individuels présents dans l'ensemble du corpus.



### 3.1 Traitement des chaines de caractère

- `str.capitalize()` : retourne la première lettre en majuscule et le reste en minuscule.
- `str.upper()` : retourne la chaîne de caractères en question en majuscule.
- `str.lower()` : retourne la chaîne de caractères en question en minuscule.
- `str.count()` : retourne le nombre d'occurrences d'une sous-chaîne dans la chaîne de caractères en question.
- `str.find()` : retourne l'index de la première occurrence d'une sous-chaîne dans la chaîne de caractères en question. Si la sous-chaîne n'est pas trouvée, la méthode retourne -1.
- `str.index()` : retourne l'index de la première occurrence d'une sous-chaîne dans la chaîne de caractères en question. Si la sous-chaîne n'est pas trouvée, la méthode lève une exception ValueError.
- `str.replace()` : retourne une nouvelle chaîne de caractères dans laquelle toutes les occurrences d'une sous-chaîne sont remplacées par une autre sous-chaîne.
- `str.split()` : retourne une liste de chaînes de caractères séparées par un séparateur spécifié. Si le séparateur n'est pas spécifié, la méthode utilise par défaut l'espace.
- `str.strip()` : renvoie une copie de la chaîne sans les espaces en début et fin.
- `str.isdigit()` : retourne True si tous les caractères de la chaîne sont des chiffres, sinon False.
- `str.isalpha()` : retourne True si tous les caractères de la chaîne sont des lettres, sinon False.
- `str.isalnum()` : retourne True si tous les caractères de la chaîne sont des chiffres ou des lettres, sinon Flase.

In [13]:
text = """Text preprocessing helps improve the quality and reliability of NLP analysis results by cleaning and normalizing textual data, It's amazing !
It can also speed up analyzes by reducing the size of the data to be analyzed."""

dir(text)[-25:]

['isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',
 'zfill']

In [14]:
print(f"""
Le texte est-il digital : {text.isdigit()}
Le texte est-il uniquement alphabetique : {text.isalpha()}
Le texte est-il en majuscule : {text.isupper()}
Le texte est-il en minuscule : {text.islower()}      
      """)


Le texte est-il digital : False
Le texte est-il uniquement alphabetique : False
Le texte est-il en majuscule : False
Le texte est-il en minuscule : False      
      


In [15]:
print('Text lower : ', text.lower())
print()
print('Text uper : ', text.upper())
print()
print('Text Capital : ', text.capitalize())
print()

Text lower :  text preprocessing helps improve the quality and reliability of nlp analysis results by cleaning and normalizing textual data, it's amazing !
it can also speed up analyzes by reducing the size of the data to be analyzed.

Text uper :  TEXT PREPROCESSING HELPS IMPROVE THE QUALITY AND RELIABILITY OF NLP ANALYSIS RESULTS BY CLEANING AND NORMALIZING TEXTUAL DATA, IT'S AMAZING !
IT CAN ALSO SPEED UP ANALYZES BY REDUCING THE SIZE OF THE DATA TO BE ANALYZED.

Text Capital :  Text preprocessing helps improve the quality and reliability of nlp analysis results by cleaning and normalizing textual data, it's amazing !
it can also speed up analyzes by reducing the size of the data to be analyzed.



In [16]:
print('Frequence du token "the" : ', text.count('the'))
print()
print('Position du token "the" : ', text.find('the'))
print()
print('Position du token "the" : ', text.index('the', 50))
print()
print('Position du token "the" : ', text.replace('the', '****'))

Frequence du token "the" :  3

Position du token "the" :  33

Position du token "the" :  184

Position du token "the" :  Text preprocessing helps improve **** quality and reliability of NLP analysis results by cleaning and normalizing textual data, It's amazing !
It can also speed up analyzes by reducing **** size of **** data to be analyzed.


### 3.2 Tokenisation

<img src='https://miro.medium.com/max/1050/0*EKgminT7W-0R4Iae.png'>

La tokenisation est un processus dans le traitement du langage naturel (NLP) qui consiste à diviser un texte en unités plus petites appelées tokens. 

Les tokens peuvent être des mots, des phrases, des symboles ou des caractères. La tokenisation est souvent la première étape dans le traitement des données textuelles, car elle permet de préparer le texte pour les analyses ultérieures telles que la reconnaissance de la signification, la classification, la génération de résumés, etc.

In [17]:
document = text.split('\n')[0]
tokens = document.split(' ')
tokens

['Text',
 'preprocessing',
 'helps',
 'improve',
 'the',
 'quality',
 'and',
 'reliability',
 'of',
 'NLP',
 'analysis',
 'results',
 'by',
 'cleaning',
 'and',
 'normalizing',
 'textual',
 'data,',
 "It's",
 'amazing',
 '!']

NLTK (Natural Language Toolkit) est une bibliothèque Python dédiée au traitement du langage naturel (NLP). Il s'agit d'un outil de référence pour les développeurs et les chercheurs travaillant dans le domaine du NLP. 

Cette bibliothèque fournit une variété de fonctionnalités pour les tâches courantes de NLP :
-  telles que la tokenisation, 
- la reconnaissance d'entités nommées, 
- la génération de textes, l'analyse de sentiments, 
- la classification de textes,
- le support de plusieurs langues dont le français
- la gestion des `stop words`

Installation de la bibliothèque NLTK : 
- sur Windows : `pip install nltk`
- sur MacOs : `pip3 install nltk`

In [10]:
# Installation de la bibliothèque à partir de l'environement Jupyter
!pip3 install nltk

Collecting nltk
  Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
     ---------------------------------------- 1.5/1.5 MB 16.0 MB/s eta 0:00:00
Collecting click
  Downloading click-8.1.7-py3-none-any.whl (97 kB)
     ---------------------------------------- 97.9/97.9 kB ? eta 0:00:00
Collecting joblib
  Downloading joblib-1.3.2-py3-none-any.whl (302 kB)
     ------------------------------------- 302.2/302.2 kB 18.2 MB/s eta 0:00:00
Collecting regex>=2021.8.3
  Downloading regex-2023.8.8-cp311-cp311-win_amd64.whl (268 kB)
     ------------------------------------- 268.3/268.3 kB 17.2 MB/s eta 0:00:00
Collecting tqdm
  Downloading tqdm-4.66.1-py3-none-any.whl (78 kB)
     ---------------------------------------- 78.3/78.3 kB ? eta 0:00:00
Installing collected packages: tqdm, regex, joblib, click, nltk
Successfully installed click-8.1.7 joblib-1.3.2 nltk-3.8.1 regex-2023.8.8 tqdm-4.66.1



[notice] A new release of pip available: 22.3 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [11]:
# Téléchargement des dépendance NLTP
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [18]:
# Import the tokenizer of NLTK
from nltk.tokenize import word_tokenize

# Tokenize our sentence
tokens = word_tokenize(document)
tokens

['Text',
 'preprocessing',
 'helps',
 'improve',
 'the',
 'quality',
 'and',
 'reliability',
 'of',
 'NLP',
 'analysis',
 'results',
 'by',
 'cleaning',
 'and',
 'normalizing',
 'textual',
 'data',
 ',',
 'It',
 "'s",
 'amazing',
 '!']

### 3.3 Traitement des StopWords


Un stop word désigne des mots qui sont souvent ignorés ou filtrés lors de l'analyse de données textuelles. Les stop words sont considérés comme des mots peu informatifs et ne sont généralement pas pris en compte lors de l'analyse de la signification des textes. 

Ils peuvent être des prépositions, des conjonctions et d'autres mots communs qui ne contribuent pas de manière significative à la signification d'une phrase ou d'un document. 

La liste des stop words peut varier en fonction de la langue, du domaine et des objectifs de l'analyse.

In [20]:
from nltk.corpus import stopwords

stop_words = stopwords.words('english')
print('Nombre de stop words : {}'.format(len(stop_words)))
stop_words[:20]

Nombre de stop words : 179


['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

➡️ Supprimons ces mots de nos jetons en utilisant NLTK :

In [21]:
tokens_no_stops = [t for t in tokens if t not in stop_words]
tokens_no_stops

['Text',
 'preprocessing',
 'helps',
 'improve',
 'quality',
 'reliability',
 'NLP',
 'analysis',
 'results',
 'cleaning',
 'normalizing',
 'textual',
 'data',
 ',',
 'It',
 "'s",
 'amazing',
 '!']

A noter que le mot : `And` n'ont pas été supprimés car python est sensible à la casse :

`'And' != 'and' `

Veillez à bien mettre en minuscule votre text.

### 3.4 Stemming & Lemmatization

<img src='https://d2mk45aasx86xg.cloudfront.net/difference_between_Stemming_and_lemmatization_8_11zon_452539721d.webp'>

**Stemming** et **lemmatisation** sont deux techniques utilisées dans le traitement du langage naturel pour réduire les mots à leur forme de base.

**Stemming** : Le stemming est une technique pour extraire la racine d'un mot en enlevant les suffixes, les préfixes et autres modifications morphologiques. L'objectif du stemming est de réduire les mots à leur forme de base pour une analyse plus cohérente. Par exemple, les mots "runner", "running", "ran" peuvent être réduits à la forme de base "run".

**Lemmatisation** : La lemmatisation est similaire au stemming, mais elle vise à produire un lemme ou un mot normalisé, qui est une forme valide de dictionnaire pour un mot donné. La lemmatisation implique une analyse morphologique plus avancée pour déterminer la forme correcte d'un mot, en prenant en compte son contexte et sa définition. Par exemple, le mot "running" peut être lemmatisé en "run", tandis que le mot "better" peut être lemmatisé en "good".

En général, la lemmatisation est considérée comme une technique plus précise que le stemming, mais elle est également plus lente et plus complexe à implémenter. Les deux techniques peuvent être utiles pour normaliser les mots et améliorer les résultats des analyses NLP, mais le choix entre les deux dépend des besoins spécifiques d'un projet NLP particulier.

In [22]:
# Let's import the libraries for stemming and lemmatization
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

# Then we have to create an instance
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

Pour ce faire, nous devons définir quel type de mot nous lemmatisons : 'n' pour le nom, 'v' pour le verbe, 'a' pour l'adjectif et 'r' pour les adverbes. La valeur par défaut est 'n' pour le nom.

In [23]:
print(stemmer.stem('connection'), stemmer.stem('connected'), stemmer.stem('connective'))

# but what if the words don't mean the same thing once truncated
print(stemmer.stem('meaning'), stemmer.stem('meanness'))

connect connect connect
mean mean


In [24]:
for word in ['was', 'changed','connected', 'meaning', 'changing', "wording"]:
    print(lemmatizer.lemmatize(word, 'n'), 
        lemmatizer.lemmatize(word, 'v'), 
        lemmatizer.lemmatize(word, 'a'),
        lemmatizer.lemmatize(word, 's'),
        lemmatizer.lemmatize(word, 'r'))
    print()

wa be was was was

changed change changed changed changed

connected connect connected connected connected

meaning mean meaning meaning meaning

changing change changing changing changing

wording word wording wording wording



In [225]:
stem  = [stemmer.stem(word) for word in processing.data_token[1][1]]

lem = [lemmatizer.lemmatize(word, 'n') for word in document.split()]

print("stemmed words : ", stem)
print()
print("lemmatized words : ", lem)

stemmed words :  ['text', 'preprocess', 'help', 'improv', 'qualiti', 'reliabl', 'nlp', 'analysi', 'result', 'clean', 'normal', 'textual', 'data', '.']

lemmatized words :  ['Text', 'preprocessing', 'help', 'improve', 'the', 'quality', 'and', 'reliability', 'of', 'NLP', 'analysis', 'result', 'by', 'cleaning', 'and', 'normalizing', 'textual', 'data.']


### 3.5 Ngrammes

Jusqu'à présent, nous n'avons utilisé que des unigrammes de mots. Mais parfois, on peut vouloir utiliser aussi des bigrammes , voire des trigrammes de mots. Ou même des unigrammes, des bigrammes et des trigrammes de caractères, pourquoi pas ?

👉🏻 Voyons sur un exemple simple ce que seraient des bigrammes de la phrase suivante : « Être ou ne pas être »

In [49]:
# Import the module ngrams
from nltk.util import ngrams

# Print the bigrams and trigrams
print(tokens, '\n')

print('bigrams:', list(ngrams(tokens, 2)))

['Text', 'preprocessing', 'helps', 'improve', 'the', 'quality', 'and', 'reliability', 'of', 'NLP', 'analysis', 'results', 'by', 'cleaning', 'and', 'normalizing', 'textual', 'data', '.'] 

bigrams: [('Text', 'preprocessing'), ('preprocessing', 'helps'), ('helps', 'improve'), ('improve', 'the'), ('the', 'quality'), ('quality', 'and'), ('and', 'reliability'), ('reliability', 'of'), ('of', 'NLP'), ('NLP', 'analysis'), ('analysis', 'results'), ('results', 'by'), ('by', 'cleaning'), ('cleaning', 'and'), ('and', 'normalizing'), ('normalizing', 'textual'), ('textual', 'data'), ('data', '.')]


In [45]:
processing.data_lem

[('Text preprocessing helps improve the quality and reliability of NLP analysis results by cleaning and normalizing textual data.',
  ['text',
   'preprocessing',
   'helps',
   'improve',
   'quality',
   'reliability',
   'nlp',
   'analysis',
   'results',
   'cleaning',
   'normalizing',
   'textual',
   'data',
   '.']),
 ('Text preprocessing helps improve the quality and reliability of NLP analysis results by cleaning and normalizing textual data.',
  ['text',
   'preprocessing',
   'help',
   'improve',
   'quality',
   'reliability',
   'nlp',
   'analysis',
   'result',
   'clean',
   'normalize',
   'textual',
   'data',
   '.'])]

---

# Exercices

1. Creéez une classe `Processing` contenant une méthode `tokenization` qui tranfome un document en liste de token.
Cette méthode possède 3 arguments :
- `document : str`  --> Le document sous forme de str,
- `stem:bool=False` --> Si True, la méthode applique la transformation stemming,
- `lem:bool=False` --> Si True, la méthode applique la transformation lemmatization.

La méthode garde dans un attribut data, l'ensemble des précédents traitement : le document et la liste des tokens.

La méthode retourne la liste de token.


2. Testez votre programme sur le jeu de données [suivant](https://drive.google.com/file/d/1Pz9YfRErwnkgD2qTk4Q0CCY_PPP7akqa/view?usp=sharing).

In [26]:
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer


class Processing:
    def __init__(self):
        self.test = {
            "document": None,
            "tokens": None,
        }

    def tokenization(self, document, stem=False , lem=False):
        self.test["document"] = document

        tokens = word_tokenize(document)
     

        if stem:
            stemmer = PorterStemmer()
            tokens = [stemmer.stem(token) for token in tokens]

        if lem:
            lemmatizer = WordNetLemmatizer()
            tokens = [lemmatizer.lemmatize(token) for token in tokens]

        self.test["tokens"] = tokens
        return tokens



    

In [28]:
processor = Processing()
document = "Ceci est un test."
    
tokens = processor.tokenization(document, stem=True, lem=True)
print("Document original:", processor.test["document"])
print("Tokens traités:", processor.test["tokens"])

Document original: Ceci est un test.
Tokens traités: ['ceci', 'est', 'un', 'test', '.']
