# Introduction au traitement du langage naturel (NLP) en utilisant des modèles non supervisée

## Qu'est ce que NLP ?

Nutural language processing ou traitement automatique du langage naturel est un domaine de l'intelligence artificielle qui se concentre sur l'interaction entre les ordinateurs et les humaisn en utilisant le langage naturel.

Avant d'utiliser des modèles d'ia pour réaliser des projets, il est très important de choisir correctement ses données et de les prétraiter correctement.

Il existe un processus pour pré-traiter ces données appelé nettoyage.

## Prétraiter les données (Nettoyage)

Il y a 6 étapes pour nettoyer les données :
- La suppression des signes de ponctuation
- La tokenization
- La suppression des mots vides
- Le stemming
- La lemmatisation
- Le Part Of Speech Tagging

### La suppresion des signes de ponctuation

On supprime les ponctuations des phrases, elles ne sont pas utiles car elles n'ajoutent pas de sens à la phrase, au langage.

Exemple en code python :

Dans un premier temps il faut charger notre jeu de donné.

In [4]:
import pandas as pd

In [7]:
dataframe = pd.read_csv("../../../../data/NLP/Corona_NLP_train.csv", encoding='latin1')

print(dataframe)


       UserName  ScreenName                      Location     TweetAt  \
0          3799       48751                        London  16-03-2020   
1          3800       48752                            UK  16-03-2020   
2          3801       48753                     Vagabonds  16-03-2020   
3          3802       48754                           NaN  16-03-2020   
4          3803       48755                           NaN  16-03-2020   
...         ...         ...                           ...         ...   
41152     44951       89903  Wellington City, New Zealand  14-04-2020   
41153     44952       89904                           NaN  14-04-2020   
41154     44953       89905                           NaN  14-04-2020   
41155     44954       89906                           NaN  14-04-2020   
41156     44955       89907  i love you so much || he/him  14-04-2020   

                                           OriginalTweet           Sentiment  
0      @MeNyrbie @Phil_Gahan @Chrisitv https

Nous allons retirer la ponctuation des tweets originals

Pour se faire nous allons créer une fonction effacer_ponctuation qui va utiliser les regex pour effacer la ponctuation. On doit importer la librairie python pour gérer les regex.

In [8]:
import re

In [9]:
def effacer_ponctuation(text):
    return re.sub(r'[^\w\s]', '', text)

Nous allons ensuite utiliser cette fonction pour les retirer les ponctuations de nos textes

In [10]:
text_sans_ponctuation = [effacer_ponctuation(text) for text in dataframe['OriginalTweet']]

print(text_sans_ponctuation[:5])

['MeNyrbie Phil_Gahan Chrisitv httpstcoiFz9FAn2Pa and httpstcoxX6ghGFzCC and httpstcoI2NlzdxNo8', 'advice Talk to your neighbours family to exchange phone numbers create contact list with phone numbers of neighbours schools employer chemist GP set up online shopping accounts if poss adequate supplies of regular meds but not over order', 'Coronavirus Australia Woolworths to give elderly disabled dedicated shopping hours amid COVID19 outbreak httpstcobInCA9Vp8P', 'My food stock is not the only one which is empty\r\r\n\r\r\nPLEASE dont panic THERE WILL BE ENOUGH FOOD FOR EVERYONE if you do not take more than you need \r\r\nStay calm stay safe\r\r\n\r\r\nCOVID19france COVID_19 COVID19 coronavirus confinement Confinementotal ConfinementGeneral httpstcozrlG0Z520j', 'Me ready to go at supermarket during the COVID19 outbreak\r\r\n\r\r\nNot because Im paranoid but because my food stock is litteraly empty The coronavirus is a serious thing but please dont panic It causes shortage\r\r\n\r\r\nCoro

Après la suppression des ponctuations nous pouvons passer à la tokenization

### Tokenization

La tokenization permet de séparer les mots de la chaîne de caractère en liste de mot séparés. Cela sera très important pour le traitement de nos données dans les différents modèles.

Pour réaliser la tokenization on peut utiliser diverse librarie comme NLTK spécialisé dans le traitement du langage naturel.

In [18]:
import nltk
from nltk.tokenize import word_tokenize

# données nécessaire pour réaliser la tokenization avec la lib NLTK
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/huynh/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Nous allons ici écrire la fonction tokenize

In [19]:
def tokenize(text_sans_ponctuation):
    texte_tokenize = []
    for text in text_sans_ponctuation:
        texte_tokenize.append(word_tokenize(text))
    return texte_tokenize

In [20]:
texte_tokenize = tokenize(text_sans_ponctuation)

print(texte_tokenize[1])

['advice', 'Talk', 'to', 'your', 'neighbours', 'family', 'to', 'exchange', 'phone', 'numbers', 'create', 'contact', 'list', 'with', 'phone', 'numbers', 'of', 'neighbours', 'schools', 'employer', 'chemist', 'GP', 'set', 'up', 'online', 'shopping', 'accounts', 'if', 'poss', 'adequate', 'supplies', 'of', 'regular', 'meds', 'but', 'not', 'over', 'order']


Après la tokenization on va réaliser la suppression des mots vides

### Suppresion des mots vides

La suppression des mots vides permet de retirer des mots qui sont utilisés pour la structure du langage (dit langage structurant) mais qui ne contribuent pas en aucune manière à son contenu ou sa compréhension.

Par exemple le, la, un, une

Pour réaliser ça on peut utiliser utiliser la liste des stop_words de la librairie nltk

In [22]:
from nltk.corpus import stopwords

# données pour avoir une liste de stop words
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /Users/huynh/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Ensuite nous allons définir notre fonction

In [30]:
def suppression_mots_vides(texte_tokenize):
    texte_sans_mots_vides= []
    stop_words = set(stopwords.words('english'))
    for texte in texte_tokenize:
        texte_sans_mots_vides.append([mot for mot in texte if mot not in stop_words])
    return texte_sans_mots_vides

In [32]:
text_sans_mots_vides = suppression_mots_vides(texte_tokenize)

print(text_sans_mots_vides[1])

['advice', 'Talk', 'neighbours', 'family', 'exchange', 'phone', 'numbers', 'create', 'contact', 'list', 'phone', 'numbers', 'neighbours', 'schools', 'employer', 'chemist', 'GP', 'set', 'online', 'shopping', 'accounts', 'poss', 'adequate', 'supplies', 'regular', 'meds', 'order']


Après la suppression des mots vides on peut réaliser un prétraitement permettant de mettre les mots en minuscules

Voici une fonction pour

In [33]:
def mettre_en_minuscule(text_sans_mots_vides):
    text_minuscule = []
    for text in text_sans_mots_vides:
        text_minuscule.append([mot.lower() for mot in text])
    return text_minuscule

In [34]:
text_minuscule = mettre_en_minuscule(text_sans_mots_vides)

print(text_minuscule[1])

['advice', 'talk', 'neighbours', 'family', 'exchange', 'phone', 'numbers', 'create', 'contact', 'list', 'phone', 'numbers', 'neighbours', 'schools', 'employer', 'chemist', 'gp', 'set', 'online', 'shopping', 'accounts', 'poss', 'adequate', 'supplies', 'regular', 'meds', 'order']


### Le stemming

Le stemming est un processus pour supprimer les affixes de mots et les laisser sous une forme canonique invariante on peut aussi dire qu'il met les mots sous forme de "racine". Les mots n'auront pas forcement de sens propre dans notre langage.

Voici la fonction pour réaliser cela. Nous continuerons à utiliser la librairie nltk.

In [35]:
from nltk.stem import PorterStemmer

In [36]:
def stemming(text_minuscule):
    text_stemming = []
    for text in text_minuscule:
        text_stemming.append([PorterStemmer().stem(mot) for mot in text])
    return text_stemming

In [37]:
text_stemming = stemming(text_minuscule)

print(text_stemming[1])

['advic', 'talk', 'neighbour', 'famili', 'exchang', 'phone', 'number', 'creat', 'contact', 'list', 'phone', 'number', 'neighbour', 'school', 'employ', 'chemist', 'gp', 'set', 'onlin', 'shop', 'account', 'poss', 'adequ', 'suppli', 'regular', 'med', 'order']


### La lemmatisation

La lemmatisation c'est un processus algorithmique pour amener un mot dans sa forme de dictionnaire dit "Lemma".

_Il est préférable de réaliser la lemmatisation à la place du stemming si le texte (les données) fournis sont propres avec peu d'erreur. En effet par exemple le stemming ne fera pas la différence entre le mot est (être) et le mot est comme Grand-Est._

_Il faut que le texte soit propre car sinon le sens du mot par exemple s'il y a des fautes d'orthographe peut être mal interprété et donc changer le sens de celui ci après lemmatisation. (ça peut être le cas aussi avec des problèmes de grammaire et de syntaxes ou autres ...)_

⚠️ La lemmatisation doit se faire avant de retirer les stop words ! Il faut faire le POS tagging pour réaliser la lemmatisation si on veut que la lemmetisation soit meilleur que le stemming.

_Ici on illustre seulement comment réaliser les techniques dont on aura besoin dans le futur pour prétraiter les données._

Voici une fonction pour réaliser la lemmatisation.

In [38]:
from nltk.stem import WordNetLemmatizer

nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /Users/huynh/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [41]:
def lemmatisation(text_minuscule):
    text_lemma = []
    for text in text_minuscule:
        text_lemma.append([WordNetLemmatizer().lemmatize(mot) for mot in text])
    return text_lemma

In [42]:
text_lemma = lemmatisation(text_minuscule)

print(text_lemma[1])

['advice', 'talk', 'neighbour', 'family', 'exchange', 'phone', 'number', 'create', 'contact', 'list', 'phone', 'number', 'neighbour', 'school', 'employer', 'chemist', 'gp', 'set', 'online', 'shopping', 'account', 'po', 'adequate', 'supply', 'regular', 'med', 'order']


### Part Of Speech Tagging (POS tagging)

Le Part Of Speech Tagging est l'étape qui permet de mettre une étique à chaque mot d'une phrase avec sa classe grammaticale, comme un adjectif, un nom, un verbe, adverbe et présition etc ...

Dans la plus part des fonctions qui permmettent la lemmatisation le POS Tagging est fait dans la foulé. En revanche sur la librairie nltk avec la fonction qu'on a utilisé le POS Tagging n'est pas réalisé. Je vous invite donc à lire les documentations pour les librairies que vous voulez utiliser pour le pré-traitement.

Le POS se fait juste après l'étape de la tokenization donc nous allons reprendre à cette étape.

Nous allons donc réaliser cette étape :

In [43]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/huynh/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [51]:
def pos_tagging(text):
    texte_tag = []
    for texte in text:
        texte_tag.append(nltk.pos_tag(texte))
    return texte_tag

In [53]:
texte_tag = pos_tagging(texte_tokenize)

print(texte_tag[1])

[('advice', 'NN'), ('Talk', 'NN'), ('to', 'TO'), ('your', 'PRP$'), ('neighbours', 'NNS'), ('family', 'NN'), ('to', 'TO'), ('exchange', 'VB'), ('phone', 'NN'), ('numbers', 'NNS'), ('create', 'VBP'), ('contact', 'JJ'), ('list', 'NN'), ('with', 'IN'), ('phone', 'NN'), ('numbers', 'NNS'), ('of', 'IN'), ('neighbours', 'NNS'), ('schools', 'NNS'), ('employer', 'VBP'), ('chemist', 'JJ'), ('GP', 'NNP'), ('set', 'VBD'), ('up', 'RP'), ('online', 'JJ'), ('shopping', 'NN'), ('accounts', 'NNS'), ('if', 'IN'), ('poss', 'JJ'), ('adequate', 'JJ'), ('supplies', 'NNS'), ('of', 'IN'), ('regular', 'JJ'), ('meds', 'NNS'), ('but', 'CC'), ('not', 'RB'), ('over', 'IN'), ('order', 'NN')]


Normalement c'est après cette étape qu'on réalise la lemmatisation. Dans ce cas il faut réaliser une nouvelle fonction.

In [59]:
def pos_tagging_lemmatization(text):
    text_lemma = []
    for texte in text:
        lemma_tags = []
        for token, tag in texte:
            if tag.startswith('N'):
                lemma = WordNetLemmatizer().lemmatize(token, pos='n')
            elif tag.startswith('V'):
                lemma = WordNetLemmatizer().lemmatize(token, pos='v')
            elif tag.startswith('J'):
                lemma = WordNetLemmatizer().lemmatize(token, pos='a')
            elif tag.startswith('R'):
                lemma = WordNetLemmatizer().lemmatize(token, pos='r')
            else:
                lemma = WordNetLemmatizer().lemmatize(token)
            lemma_tags.append(lemma)
        text_lemma.append(lemma_tags)
    return text_lemma
             

In [60]:
text_lemma = pos_tagging_lemmatization(texte_tag)

print(text_lemma[1])

['advice', 'Talk', 'to', 'your', 'neighbour', 'family', 'to', 'exchange', 'phone', 'number', 'create', 'contact', 'list', 'with', 'phone', 'number', 'of', 'neighbour', 'school', 'employer', 'chemist', 'GP', 'set', 'up', 'online', 'shopping', 'account', 'if', 'poss', 'adequate', 'supply', 'of', 'regular', 'med', 'but', 'not', 'over', 'order']


## En résumé

Il faut réaliser les étapes si on veut faire de la lemmatisation dans cette ordre :

Tokenisation > POS Tagging (si non compris dans la lemmatisation) > Lemmatisation > Suppression ponctuation > Mettre dans le meme caste (minuscule ou majuscule) > Suppression des stops words 

Sinon faire :

Suppression ponctuation > Tokenisation > Mettre dans le meme caste > Suppression des stops words > Stemming

## Conclusion

Ce type de prétraitement de donner concerne le text-mining voir le cours sur text-mining