#### Lien vers le site
https://www.stat4decision.com/fr/traitement-langage-naturel-francais-tal-nlp/

In [3]:
import spacy
path = "C:\\Users\\ivaro\\OneDrive\\Bureau\\NLP\\" #A modifier/automatiser
nlp = spacy.load(path + "fr_core_news_sm-2.2.5") #Charge le modele fr deja installe

On peut installer le modèle grace à la commande suivante :

py -m spacy download fr_core_news_sm

In [10]:
#Phrase permettant le test des fonctions 

test = "Ceci est un test effectué à Paris par la main d'Armelle. Test des doublons de mots, et de traitement des ponctuations"

# Principe de Tokenisation

Ce qu'on appelle Token en NLP c'est la plus petite entité d'une phrase : le mot. Lorsque l'on cherche à tokeniser un article, un texte ou une phrase, on cherche à récupéré les mots composant le texte

Spacy permet de le faire simplement.

In [11]:
def return_token(sentence):
    """On va chercher a tokeniser la sentence"""
    doc = nlp(sentence) #On convertit la sentence en 'objet' spacy
    # Retourner le texte de chaque token
    return [X.text for X in doc]

Tokens = return_token(test)
Tokens

['Ceci',
 'est',
 'un',
 'test',
 'effectué',
 'à',
 'Paris',
 'par',
 'la',
 'main',
 "d'",
 'Armelle',
 '.',
 'Test',
 'des',
 'doublons',
 'de',
 'mots',
 ',',
 'et',
 'de',
 'traitement',
 'des',
 'ponctuations']

**Remarque** : La Tokenisation permet de séparer le mot de la ponctuation, mais ne supprime pas les doublons. Cela permet juste de separer chaque entités les unes des autres.

## Suppression des mots inutiles (Stop words)

Dans le langage certains mots reviennent souvent et n'apportent pas d'informations au sens de la phrase ou du texte. Dans cette partie nous verrons comment les supprimer. (Utile pour des nuages de mots par exemple ou encore pour des predictions)

In [26]:
import nltk
#nltk.download('stopwords')
from nltk.corpus import stopwords
stopWords = set(stopwords.words('french')) #Recuperation des mots consideres comme des stop_words en FR
stopWords

{'ai',
 'aie',
 'aient',
 'aies',
 'ait',
 'as',
 'au',
 'aura',
 'aurai',
 'auraient',
 'aurais',
 'aurait',
 'auras',
 'aurez',
 'auriez',
 'aurions',
 'aurons',
 'auront',
 'aux',
 'avaient',
 'avais',
 'avait',
 'avec',
 'avez',
 'aviez',
 'avions',
 'avons',
 'ayant',
 'ayante',
 'ayantes',
 'ayants',
 'ayez',
 'ayons',
 'c',
 'ce',
 'ces',
 'd',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'es',
 'est',
 'et',
 'eu',
 'eue',
 'eues',
 'eurent',
 'eus',
 'eusse',
 'eussent',
 'eusses',
 'eussiez',
 'eussions',
 'eut',
 'eux',
 'eûmes',
 'eût',
 'eûtes',
 'furent',
 'fus',
 'fusse',
 'fussent',
 'fusses',
 'fussiez',
 'fussions',
 'fut',
 'fûmes',
 'fût',
 'fûtes',
 'il',
 'ils',
 'j',
 'je',
 'l',
 'la',
 'le',
 'les',
 'leur',
 'lui',
 'm',
 'ma',
 'mais',
 'me',
 'mes',
 'moi',
 'mon',
 'même',
 'n',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ont',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 's',
 'sa',
 'se',
 'sera',
 'serai',
 'seraient',
 'serais',
 'serait',


In [27]:
#Pour supprimer les stopWords 
def delete_SW(test) :
    clean_words = []
    stopWords = set(stopwords.words('french'))
    for token in return_token(test):
        if token not in stopWords:
            clean_words.append(token)
    return clean_words

clean_words = delete_SW(test)
clean_words

['Ceci',
 'test',
 'effectué',
 'Paris',
 'Armelle',
 '.',
 'Test',
 'doublons',
 'mots',
 ',',
 'traitement',
 'ponctuations']

**Remarque** La ponctuation est encore presente. On pourrait par exemple rajouter les caractères "." ou "," dans les SW

In [24]:
#Ajout d'elements a SW

el = ","
stopWords.add(el)
stopWords

{'.',
 'ai',
 'aie',
 'aient',
 'aies',
 'ait',
 'as',
 'au',
 'aura',
 'aurai',
 'auraient',
 'aurais',
 'aurait',
 'auras',
 'aurez',
 'auriez',
 'aurions',
 'aurons',
 'auront',
 'aux',
 'avaient',
 'avais',
 'avait',
 'avec',
 'avez',
 'aviez',
 'avions',
 'avons',
 'ayant',
 'ayante',
 'ayantes',
 'ayants',
 'ayez',
 'ayons',
 'c',
 'ce',
 'ces',
 'd',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'es',
 'est',
 'et',
 'eu',
 'eue',
 'eues',
 'eurent',
 'eus',
 'eusse',
 'eussent',
 'eusses',
 'eussiez',
 'eussions',
 'eut',
 'eux',
 'eûmes',
 'eût',
 'eûtes',
 'furent',
 'fus',
 'fusse',
 'fussent',
 'fusses',
 'fussiez',
 'fussions',
 'fut',
 'fûmes',
 'fût',
 'fûtes',
 'il',
 'ils',
 'j',
 'je',
 'l',
 'la',
 'le',
 'les',
 'leur',
 'lui',
 'm',
 'ma',
 'mais',
 'me',
 'mes',
 'moi',
 'mon',
 'même',
 'n',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ont',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 's',
 'sa',
 'se',
 'sera',
 'serai',
 'seraient',
 'serais',
 'ser

## Tokenisation par phrase

Ici au lieu de recuperer mot a mot, on va recuperer phrase par phrase.

In [28]:
def return_token_sent(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte de chaque phrase
    return [X.text for X in doc.sents]

return_token_sent(test)


['Ceci est un test effectué à Paris par Armelle.',
 'Test des doublons de mots, et de traitement des ponctuations']

# Recuperation des racines des mots : Stemming

Principal avantage : Reduction de la taille totale et concatenation des mots identiques (chaise et chaises)

In [30]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='french')

def return_stem(sentence):
    doc = nlp(sentence)
    return [stemmer.stem(X.text) for X in doc]

return_stem(test)

['cec',
 'est',
 'un',
 'test',
 'effectu',
 'à',
 'paris',
 'par',
 'armel',
 '.',
 'test',
 'de',
 'doublon',
 'de',
 'mot',
 ',',
 'et',
 'de',
 'trait',
 'de',
 'ponctuat']

# Reconnaissance d'entité nommée (NER)

On appelle entité nommée les personnes "PER", les lieux "LOC" ou encore les entreprises "ORG".

In [32]:
def return_NER(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte et le label pour chaque entité
    return [(X.text, X.label_) for X in doc.ents]

return_NER(test)

[('Paris', 'LOC'), ('Armelle', 'PER')]

**Remarque** : On peut aussi visualiser ausein meme du texte ces entités grace a un visualizer de spacy.

In [33]:
from spacy import displacy

doc = nlp(test)
displacy.render(doc, style="ent", jupyter=True)

On peut aussi choisir de n'afficher qu'une seule des trois entités et changer sa couleur.

In [36]:
doc = nlp(test)
colors = {"PER": "linear-gradient(90deg, #aa9cfc, #fc9ce7)"}
options = {"ents": ["PER"], "colors": colors}

displacy.render(doc, style="ent", jupyter=True, options=options)

# Identification grammaticale des mots

In [37]:
def return_POS(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner les étiquettes de chaque token
    return [(X, X.pos_) for X in doc]

return_POS(test)

[(Ceci, 'PRON'),
 (est, 'AUX'),
 (un, 'DET'),
 (test, 'NOUN'),
 (effectué, 'VERB'),
 (à, 'ADP'),
 (Paris, 'PROPN'),
 (par, 'ADP'),
 (Armelle, 'PROPN'),
 (., 'PUNCT'),
 (Test, 'VERB'),
 (des, 'DET'),
 (doublons, 'NOUN'),
 (de, 'ADP'),
 (mots, 'NOUN'),
 (,, 'PUNCT'),
 (et, 'CCONJ'),
 (de, 'ADP'),
 (traitement, 'NOUN'),
 (des, 'DET'),
 (ponctuations, 'NOUN')]

**Remarque** Les mots Armelle et Paris sont mal tagger. On peut se demander si tout les NER ne seront pas mal tagger  

In [38]:
doc = nlp(test)
displacy.serve(doc, style="dep")

  "__main__", mod_spec)



Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


# Similarité entre deux phrases

## Représentation vectorielle d'une phrase

On cherche a représenter les mots ou les phrases dans le but de quantinfier la similarité entre deux entités. Cela permettra notamment de quantifier le liant entre deux phrases ou deux paragraphes.

In [39]:
#Long
import numpy as np

def return_word_embedding(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le vecteur lié à chaque token
    return [(X.vector) for X in doc]

return_word_embedding(test)

[array([ -3.0495858 ,   0.8870512 ,   3.5745993 ,   1.955323  ,
          7.726041  ,  -5.7932673 ,   3.8147964 ,  -2.421845  ,
          5.8645525 ,  -2.129246  ,   2.5779777 ,   6.2553926 ,
          1.9823548 ,  -2.4407604 ,   1.605385  ,  -1.1182969 ,
          9.022318  ,  -1.0674939 ,  -0.56972694,   2.052289  ,
          9.936584  ,  -6.1348624 ,   8.264683  ,   0.0848603 ,
         -2.8735423 ,   3.00378   ,   0.69289106,  -5.1419926 ,
          0.61735165,  -0.4095925 ,  -9.124325  ,  -2.7599444 ,
         -2.87152   ,   1.190747  ,  -3.7232966 ,  -2.3986218 ,
          2.9229336 ,   3.073824  ,  -1.4235057 ,  -3.213647  ,
          0.9779224 ,   3.770625  ,  -7.1429935 , -10.8855505 ,
          3.6402931 ,  -1.8953588 ,   0.8510724 ,  -6.4490857 ,
         10.038576  ,   1.608648  ,   4.2104874 ,   5.7334757 ,
          2.032218  ,  -5.247355  ,  -4.509519  ,   2.6865823 ,
         -8.707823  ,   0.73496145,  -1.1759497 ,  -9.120184  ,
         -4.1727223 ,  -7.402847  ,  -3.

Afin de déterminer la similarité entre deux phrases nous allons devoir définir une distance et trouver une méthode pour représenter graphiquement la phrase. Pour cela nous allons avancer en deux étapes :

- déterminer l’embedding moyen d’une phrase en moyennant l’embedding de tous les mots de la phrase
- calculer la distance entre deux phrases par simple distance euclidienne

In [9]:
#Etape 1
def return_mean_embedding(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner la moyenne des vecteurs pour chaque phrase
    return np.mean([(X.vector) for X in doc], axis=0)

test1 = "Il fait chaud aujourd'hui"
test2 = "En effet, il y a beaucoup de soleil !"
test3 = "Je lis un livre"


#Etape 2 Disttance euclidienne
## On va utiliser linalg.norm pour avoir la distance euclidienne

import numpy as np

print(np.linalg.norm(return_mean_embedding(test1)-return_mean_embedding(test2)))
print(np.linalg.norm(return_mean_embedding(test3)-return_mean_embedding(test1)))

27.31604
35.74369


On a bien une proximité plus forte entre les deux premieres phrases qu'entre la 1er et la 3eme phrase.

Pour aller plus loin, se renseigner sur **Transformers**