In [1]:
#pip install spacy
#python -m spacy download fr_core_news_sm
import spacy

In [2]:
nlp = spacy.load("fr_core_news_sm")

# Tokenisation

In [3]:
txt_1="Alors que la France s'apprête à durcir les mesures contre l'épidémie, en recourant sans doute à nouveau au confinement, une chronique parue dans le journal Les Echos est devenue virale"

In [4]:
print(txt_1.split())

['Alors', 'que', 'la', 'France', "s'apprête", 'à', 'durcir', 'les', 'mesures', 'contre', "l'épidémie,", 'en', 'recourant', 'sans', 'doute', 'à', 'nouveau', 'au', 'confinement,', 'une', 'chronique', 'parue', 'dans', 'le', 'journal', 'Les', 'Echos', 'est', 'devenue', 'virale']


In [5]:
doc_1=nlp(txt_1)

In [6]:
for token in doc_1:
    print(token.text)

Alors
que
la
France
s'
apprête
à
durcir
les
mesures
contre
l'
épidémie
,
en
recourant
sans
doute
à
nouveau
au
confinement
,
une
chronique
parue
dans
le
journal
Les
Echos
est
devenue
virale


In [7]:
txt_2="J'ai eu l'info y'a une heure"
doc_2=nlp(txt_2)

In [8]:
for token in doc_2:
    print(token.text)

J'
ai
eu
l'
info
y'
a
une
heure


In [9]:
from spacy.attrs import ORTH
special_case = [{ORTH: "il"}, {ORTH: "y"} ,{ORTH: "a"}]
nlp.tokenizer.add_special_case("y'a", special_case)

In [10]:
doc_3=nlp(txt_2)
for token in doc_3:
    print(token.text)

J'
ai
eu
l'
info
il
y
a
une
heure


In [11]:
txt_3="Depuis la rentrée universitaire, la BU de Lyon 2 vous accueille sur réservation"
nlp.tokenizer.add_special_case("BU", [{ORTH:"bibliothèque"},{ORTH:"universitaire"}])
doc_4=nlp(txt_3)
for token in doc_4:
    print(token.text)

Depuis
la
rentrée
universitaire
,
la
bibliothèque
universitaire
de
Lyon
2
vous
accueille
sur
réservation


# Stop Words

In [12]:
doc_5=nlp(txt_1)
for token in doc_5:
    print(token.text, token.is_stop)

Alors True
que True
la True
France False
s' True
apprête False
à True
durcir False
les True
mesures False
contre True
l' True
épidémie False
, False
en True
recourant False
sans True
doute False
à True
nouveau True
au True
confinement False
, False
une True
chronique False
parue False
dans True
le True
journal False
Les True
Echos False
est True
devenue False
virale False


In [13]:
text_filtre=""
for token in doc_5:
    if(not token.is_stop):
        text_filtre+=token.text+" "
print(text_filtre)

France apprête durcir mesures épidémie , recourant doute confinement , chronique parue journal Echos devenue virale 


# NER

In [14]:
txt_4="Le ministre de l’Éducation nationale, invité de LCI lundi 25 janvier, a estimé qu’il lui serait difficile de conduire la liste LREM aux élections régionales en Ile-de-France, en raison de la crise sanitaire"
doc_6=nlp(txt_4)
print([(ent.text,ent.label_) for ent in doc_6.ents])

[('LCI', 'ORG'), ('LREM', 'MISC'), ('Ile-de-France', 'LOC')]


In [15]:
from spacy import displacy
displacy.render(doc_6, style="ent")

# Part of speech tagging

In [16]:
txt_5="Le philosophe Gaspard Koenig s'y interroge sur le sacrifice des jeunes générations qui subissent de plein fouet les conséquences de ces mesures sanitaires pour sauver la vie de leurs aînés"

In [17]:
doc_7 = nlp(txt_5)

for token in doc_7:
    print(token.text,"\t| ",token.pos_)

Le 	|  DET
philosophe 	|  NOUN
Gaspard 	|  PROPN
Koenig 	|  PROPN
s' 	|  PRON
y 	|  PRON
interroge 	|  VERB
sur 	|  ADP
le 	|  DET
sacrifice 	|  NOUN
des 	|  ADP
jeunes 	|  ADJ
générations 	|  NOUN
qui 	|  PRON
subissent 	|  VERB
de 	|  ADP
plein 	|  ADJ
fouet 	|  NOUN
les 	|  DET
conséquences 	|  NOUN
de 	|  ADP
ces 	|  DET
mesures 	|  NOUN
sanitaires 	|  ADJ
pour 	|  ADP
sauver 	|  VERB
la 	|  DET
vie 	|  NOUN
de 	|  ADP
leurs 	|  DET
aînés 	|  NOUN


In [18]:
displacy.render(doc_7, style="dep")