# Extraction des données avec SpaCy


Dans ce notebook, nous allons utiliser la bibliothèque SpaCy pour tester ses différentes fonctionnalités.

In [1]:
import spacy
nlp = spacy.load("fr_core_news_sm")

test = "La pertinence de la recherche équivaut à un score calculé par Elasticsearch à partir de la correspondance entre le texte en saisie libre et le contenu recherché. Par défaut, le moteur de recherche retourne les résultats classés par pertinence décroissante. Les filtres sélectionnés ne modifient pas le score, mais permettent de retirer des résultats les décisions dont le contenu ne coïncide pas avec eux."

## 1. Tokenisation

La première chose à savoir dans l'extraction de texte est la tokenisation. Ceci permet de transformer un texte en une série de tokens individuels. On peut donc dire que chaque token représente un mot. 
La fonction nlp (qui vient de SpaCy) permet de tokeniser un texte, pour que la bibliothèque puisse interpréter ce dernier.

In [2]:
def return_token(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte de chaque token
    return [X.text for X in doc]

In [3]:
return_token(test)

['La',
 'pertinence',
 'de',
 'la',
 'recherche',
 'équivaut',
 'à',
 'un',
 'score',
 'calculé',
 'par',
 'Elasticsearch',
 'à',
 'partir',
 'de',
 'la',
 'correspondance',
 'entre',
 'le',
 'texte',
 'en',
 'saisie',
 'libre',
 'et',
 'le',
 'contenu',
 'recherché',
 '.',
 'Par',
 'défaut',
 ',',
 'le',
 'moteur',
 'de',
 'recherche',
 'retourne',
 'les',
 'résultats',
 'classés',
 'par',
 'pertinence',
 'décroissante',
 '.',
 'Les',
 'filtres',
 'sélectionnés',
 'ne',
 'modifient',
 'pas',
 'le',
 'score',
 ',',
 'mais',
 'permettent',
 'de',
 'retirer',
 'des',
 'résultats',
 'les',
 'décisions',
 'dont',
 'le',
 'contenu',
 'ne',
 'coïncide',
 'pas',
 'avec',
 'eux',
 '.']

## 2. Enlever les mots les plus fréquents

En français (et dans plusieurs d'autres langues), il existe des mots très fréquemment utilisés mais qui pour autant n'apportent pas d'information. En anglais, on les appelles des "stop words".
Pour les enlever, on utilise la bibliothèque NLTK, et on enlève les stop words français.

In [8]:
# On télécharge les "stop words" si ce n'est pas déjà fait sur la ligne suivante
# nltk.download("stopwords")
from nltk.corpus import stopwords
stopWords = set(stopwords.words('french'))

In [9]:
clean_words = []
for token in return_token(test):
    if token not in stopWords:
        clean_words.append(token)

clean_words

['La',
 'pertinence',
 'recherche',
 'équivaut',
 'score',
 'calculé',
 'Elasticsearch',
 'partir',
 'correspondance',
 'entre',
 'texte',
 'saisie',
 'libre',
 'contenu',
 'recherché',
 '.',
 'Par',
 'défaut',
 ',',
 'moteur',
 'recherche',
 'retourne',
 'résultats',
 'classés',
 'pertinence',
 'décroissante',
 '.',
 'Les',
 'filtres',
 'sélectionnés',
 'modifient',
 'score',
 ',',
 'permettent',
 'retirer',
 'résultats',
 'décisions',
 'dont',
 'contenu',
 'coïncide',
 '.']

## 3. Tokenisation par phrases

La tokenisation marche aussi par phrase, afin de les identifier séparément dans un texte.

In [10]:
def return_token_sent(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte de chaque phrase
    return [X.text for X in doc.sents]

In [11]:
return_token_sent(test)

['La pertinence de la recherche équivaut à un score calculé par Elasticsearch à partir de la correspondance entre le texte en saisie libre et le contenu recherché.',
 'Par défaut, le moteur de recherche retourne les résultats classés par pertinence décroissante.',
 'Les filtres sélectionnés ne modifient pas le score, mais permettent de retirer des résultats les décisions dont le contenu ne coïncide pas avec eux.']

## 4. Stemming

Le stemming consiste à réduire un mot dans sa forme "racine", afin d'éviter d'avoir plusieurs variantes d'un mot comme un seul et même mot. Par exemple, "décision" et "décisions" seront considérés comme un même mot.

In [12]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='french')

def return_stem(sentence):
    doc = nlp(sentence)
    return [stemmer.stem(X.text) for X in doc]

In [13]:
return_stem(test)

['la',
 'pertinent',
 'de',
 'la',
 'recherch',
 'équivaut',
 'à',
 'un',
 'scor',
 'calcul',
 'par',
 'elasticsearch',
 'à',
 'part',
 'de',
 'la',
 'correspond',
 'entre',
 'le',
 'text',
 'en',
 'sais',
 'libr',
 'et',
 'le',
 'contenu',
 'recherch',
 '.',
 'par',
 'défaut',
 ',',
 'le',
 'moteur',
 'de',
 'recherch',
 'retourn',
 'le',
 'résultat',
 'class',
 'par',
 'pertinent',
 'décroiss',
 '.',
 'le',
 'filtr',
 'sélection',
 'ne',
 'modifient',
 'pas',
 'le',
 'scor',
 ',',
 'mais',
 'permettent',
 'de',
 'retir',
 'de',
 'résultat',
 'le',
 'décis',
 'dont',
 'le',
 'contenu',
 'ne',
 'coïncid',
 'pas',
 'avec',
 'eux',
 '.']

## 5. Reconnaissance d’entités nommées (NER)

Dans un texte, il peut avoir des noms qui représentent des entités telles que des personnes, entreprises ou lieux. Ici, on peut donc les identifier.

In [14]:
def return_NER(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte et le label pour chaque entité
    return [(X.text, X.label_) for X in doc.ents]

In [15]:
return_NER(test)

[('Elasticsearch', 'PER')]

Ici, "Elasticsearch" est considéré comme une personne, même si ce n'est pas tout à fait vrai. Cette fonction marche donc de cette manière.

## 6. L’étiquetage morpho-syntaxique

L'étiquetage morpho-syntaxique permet d'identifier chaque mot par sa fonctionnalité grammaticale (Nom propre, adjectif, déterminant…).

In [16]:
def return_POS(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner les étiquettes de chaque token
    return [(X, X.pos_) for X in doc]

In [17]:
return_POS(test)

[(La, 'DET'),
 (pertinence, 'NOUN'),
 (de, 'ADP'),
 (la, 'DET'),
 (recherche, 'NOUN'),
 (équivaut, 'VERB'),
 (à, 'ADP'),
 (un, 'DET'),
 (score, 'NOUN'),
 (calculé, 'VERB'),
 (par, 'ADP'),
 (Elasticsearch, 'PROPN'),
 (à, 'ADP'),
 (partir, 'VERB'),
 (de, 'ADP'),
 (la, 'DET'),
 (correspondance, 'NOUN'),
 (entre, 'ADP'),
 (le, 'DET'),
 (texte, 'NOUN'),
 (en, 'ADP'),
 (saisie, 'NOUN'),
 (libre, 'ADJ'),
 (et, 'CCONJ'),
 (le, 'DET'),
 (contenu, 'NOUN'),
 (recherché, 'VERB'),
 (., 'PUNCT'),
 (Par, 'ADP'),
 (défaut, 'NOUN'),
 (,, 'PUNCT'),
 (le, 'DET'),
 (moteur, 'NOUN'),
 (de, 'ADP'),
 (recherche, 'NOUN'),
 (retourne, 'VERB'),
 (les, 'DET'),
 (résultats, 'NOUN'),
 (classés, 'VERB'),
 (par, 'ADP'),
 (pertinence, 'NOUN'),
 (décroissante, 'ADJ'),
 (., 'PUNCT'),
 (Les, 'DET'),
 (filtres, 'NOUN'),
 (sélectionnés, 'VERB'),
 (ne, 'ADV'),
 (modifient, 'VERB'),
 (pas, 'ADV'),
 (le, 'DET'),
 (score, 'NOUN'),
 (,, 'PUNCT'),
 (mais, 'CCONJ'),
 (permettent, 'VERB'),
 (de, 'ADP'),
 (retirer, 'VERB'),
 (des,

## 7. Embedding par mot

Avec SpaCy, on peut facilement récupérer le vecteur correspondant à chaque mot une fois passé dans le modèle pré-entraîné en français.

Cela nous sert à représenter chaque mot comme étant un vecteur de taille 96.

In [18]:
import numpy as np

def return_word_embedding(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le vecteur lié à chaque token
    return [(X.vector) for X in doc]

In [19]:
return_word_embedding(test)

[array([-2.64311671e-01, -1.73261702e+00,  7.21418142e-01,  1.74567497e+00,
         9.37224746e-01, -5.00540161e+00, -5.13207316e-01,  2.64488029e+00,
        -3.05415058e+00, -2.46765423e+00,  4.31972075e+00,  2.70814085e+00,
        -2.07741594e+00, -3.09693670e+00, -2.04586172e+00,  2.97202826e+00,
        -3.79974604e+00,  3.50514084e-01, -1.84431899e+00,  2.87507415e-01,
        -2.31297064e+00, -3.26339769e+00,  1.86884522e-01, -6.88935339e-01,
         4.62174702e+00,  2.77296990e-01, -3.41122150e-02, -1.55670023e+00,
        -2.63805604e+00,  9.44297731e-01, -1.55662805e-01, -2.09418273e+00,
         3.50173926e+00,  8.20319366e+00,  3.44119430e+00,  3.40056157e+00,
         5.93381119e+00, -8.04627895e-01, -1.71245563e+00, -6.57686114e-01,
         2.27570486e+00,  2.30924344e+00, -1.39671147e+00, -4.21133327e+00,
        -7.58918583e-01, -2.54492521e+00,  4.83907795e+00, -9.37668324e-01,
        -1.32285380e+00,  1.07544267e+00, -1.48911524e+00, -3.41302013e+00,
         4.5

Cette information nous sert notamment lorsque l’on cherche à caractériser la similarité entre deux mots ou deux phrases.

## 8. Similarité entre phrases

In [20]:
def return_mean_embedding(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner la moyenne des vecteurs pour chaque phrase
    return np.mean([(X.vector) for X in doc], axis=0)

In [21]:
test_1 = "La pertinence de la recherche équivaut à un score calculé par Elasticsearch à partir de la correspondance entre le texte en saisie libre et le contenu recherché."
test_2 = "Par défaut, le moteur de recherche retourne les résultats classés par pertinence décroissante."
test_3 = "Les filtres sélectionnés ne modifient pas le score, mais permettent de retirer des résultats les décisions dont le contenu ne coïncide pas avec eux."

In [23]:
np.linalg.norm(return_mean_embedding(test_1)-return_mean_embedding(test_2))
np.linalg.norm(return_mean_embedding(test_1)-return_mean_embedding(test_3))
np.linalg.norm(return_mean_embedding(test_2)-return_mean_embedding(test_3))

8.75358