In [1]:
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.0.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.0.0/fr_core_news_sm-3.0.0-py3-none-any.whl (17.2 MB)
[+] Download and installation successful
You can now load the package via spacy.load('fr_core_news_sm')


In [2]:
import spacy
nlp = spacy.load("fr_core_news_sm")

In [3]:
Simplon = "De l’analyse du besoin à la data visualisation, en passant par la récolte et le traitement des données. Le développeur data conçoit et exploite les bases de données."

In [4]:
def return_token(sentence):
    doc = nlp(sentence)
    return [X.text for X in doc]

In [5]:
return_token(Simplon)

['De',
 'l’',
 'analyse',
 'du',
 'besoin',
 'à',
 'la',
 'data',
 'visualisation',
 ',',
 'en',
 'passant',
 'par',
 'la',
 'récolte',
 'et',
 'le',
 'traitement',
 'des',
 'données',
 '.',
 'Le',
 'développeur',
 'data',
 'conçoit',
 'et',
 'exploite',
 'les',
 'bases',
 'de',
 'données',
 '.']

In [6]:
words_simplon = return_token(Simplon)

In [7]:
from nltk.corpus import stopwords
stopWords = set(stopwords.words('french'))

In [8]:
clean_words_simplon = []

for token in words_simplon:
    if token not in stopWords:
        clean_words_simplon.append(token)

In [9]:
clean_words_simplon

['De',
 'l’',
 'analyse',
 'besoin',
 'data',
 'visualisation',
 ',',
 'passant',
 'récolte',
 'traitement',
 'données',
 '.',
 'Le',
 'développeur',
 'data',
 'conçoit',
 'exploite',
 'bases',
 'données',
 '.']

In [10]:
def return_token_sents(sentence):
    doc = nlp(sentence)
    return [X.text for X in doc.sents]

In [11]:
return_token_sents(Simplon)

['De l’analyse du besoin à la data visualisation, en passant par la récolte et le traitement des données.',
 'Le développeur data conçoit et exploite les bases de données.']

In [12]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='french')

def return_stem(sentence):
    doc = nlp(sentence)
    return [stemmer.stem(X.text) for X in doc]

In [13]:
return_stem(Simplon)

['de',
 'l’',
 'analys',
 'du',
 'besoin',
 'à',
 'la',
 'dat',
 'visualis',
 ',',
 'en',
 'pass',
 'par',
 'la',
 'récolt',
 'et',
 'le',
 'trait',
 'de',
 'don',
 '.',
 'le',
 'développeur',
 'dat',
 'conçoit',
 'et',
 'exploit',
 'le',
 'bas',
 'de',
 'don',
 '.']

In [14]:
trump = "Donald Trump, né le 14 juin 1946, à New York, est un homme d'affaires, animateur de télévision, homme d'État et milliardaire américain. Il est le 45e président des États-Unis, en fonction du 20 janvier 2017 au 20 janvier 2021."

In [15]:
biden = "Joseph Robinette Biden Jr., dit Joe Biden, né le 20 novembre 1942 à Scranton, est un homme d'État américain. Il est le 47ᵉ vice-président des États-Unis, en fonction de 2009 à 2017, et le 46ᵉ président des États-Unis, depuis le 20 janvier 2021."

In [16]:
def return_NER(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte et le label pour chaque entité
    return [(X.text, X.label_) for X in doc.ents]

In [17]:
return_NER(trump)

[('Donald Trump', 'PER'),
 ('New York', 'LOC'),
 ('État', 'LOC'),
 ('États-Unis', 'LOC')]

In [18]:
from spacy import displacy

doc = nlp(trump)
displacy.render(doc, style="ent", jupyter=True)

In [19]:
def return_POS(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner les étiquettes de chaque token
    return [(X, X.pos_) for X in doc]

In [20]:
return_POS(trump)

[(Donald, 'NOUN'),
 (Trump, 'PROPN'),
 (,, 'PUNCT'),
 (né, 'VERB'),
 (le, 'DET'),
 (14, 'NUM'),
 (juin, 'NOUN'),
 (1946, 'NUM'),
 (,, 'PUNCT'),
 (à, 'ADP'),
 (New, 'PROPN'),
 (York, 'PROPN'),
 (,, 'PUNCT'),
 (est, 'AUX'),
 (un, 'DET'),
 (homme, 'NOUN'),
 (d', 'ADP'),
 (affaires, 'NOUN'),
 (,, 'PUNCT'),
 (animateur, 'NOUN'),
 (de, 'ADP'),
 (télévision, 'NOUN'),
 (,, 'PUNCT'),
 (homme, 'NOUN'),
 (d', 'ADP'),
 (État, 'NOUN'),
 (et, 'CCONJ'),
 (milliardaire, 'ADJ'),
 (américain, 'ADJ'),
 (., 'PUNCT'),
 (Il, 'PRON'),
 (est, 'AUX'),
 (le, 'DET'),
 (45e, 'ADJ'),
 (président, 'NOUN'),
 (des, 'ADP'),
 (États-Unis, 'PROPN'),
 (,, 'PUNCT'),
 (en, 'ADP'),
 (fonction, 'NOUN'),
 (du, 'ADP'),
 (20, 'NUM'),
 (janvier, 'NOUN'),
 (2017, 'NUM'),
 (au, 'ADP'),
 (20, 'NUM'),
 (janvier, 'NOUN'),
 (2021, 'NUM'),
 (., 'PUNCT')]

In [None]:
doc = nlp(trump)
displacy.serve(doc, style="dep")




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...



In [None]:
import numpy as np

In [None]:
def return_mean_embedding(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner la moyenne des vecteurs pour chaque phrase
    return np.mean([(X.vector) for X in doc], axis=0)

In [None]:
return_mean_embedding(Simplon)

In [None]:
def return_tensor(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner la moyenne des vecteurs pour chaque phrase
    return np.mean([(X.vector) for X in doc], axis=0)

In [None]:
test_2 = "Le réseau sera bientot rétabli à Marseille"
test_3 = "La panne réseau affecte plusieurs utilisateurs de l'opérateur"
test_4 = "Il fait 18 degrés ici"

In [None]:
np.linalg.norm(return_tensor(Simplon)-return_tensor(test_2))

In [None]:
np.linalg.norm(return_tensor(Simplon)-return_tensor(test_3))

In [None]:
np.linalg.norm(return_tensor(Simplon)-return_tensor(test_4))

In [None]:
np.linalg.norm(return_tensor(trump)-return_tensor(test_2))

In [None]:
np.linalg.norm(return_tensor(trump)-return_tensor(test_3))

In [None]:
np.linalg.norm(return_tensor(trump)-return_tensor(test_4))

In [None]:
np.linalg.norm(return_tensor(trump)-return_tensor(biden))