# Spacy

### Créatio d'un objet nlp en langue française

In [1]:
#Importer la classe de langue "French"
from spacy.lang.fr import French

#Création de l'objet nlp
nlp = French()

### Création de l'objet “Doc”

In [2]:
# Création d'un objet doc en traitant une chaine de caractères avec l'objet nlp
doc = nlp("MARINE LE PEN SOUHAITE UN “MORATOIRE SUR L’AUGMENTATION DE LA CONTRIBUTION FRANÇAISE À L’UNION EUROPÉENNE”RMC, Bourdin Direct, le 13 octobre 2020, 11’20’’IMPOSSIBLE   NewsletterUne fois voté au sein de l’Union, le budget européen doit être respecté par tous les États membres. Marine Le Pen, si elle est élue à la présidence de la République, ne pourra suspendre le versement français qu’en renégociant ce budget avec les 26 autres Etats, ce qui n’est pas prévu par les traités. Ou alors elle devra attendre l’échéance de 2027, date prévue pour la négociation du prochain budget.Par Ithry Marouan, étudiante en master droit européen à l'Université de Lille, sous la direction de Vincent Couronne, docteur en droit européen, chercheur au laboratoire VIP (Paris-Saclay), le 15 octobre 2020")

# Parcourir sur les tokens dans un Doc
for token in doc:
    print(token.text)

MARINE
LE
PEN
SOUHAITE
UN
“
MORATOIRE
SUR
L’
AUGMENTATION
DE
LA
CONTRIBUTION
FRANÇAISE
À
L’
UNION
EUROPÉENNE”RMC
,
Bourdin
Direct
,
le
13
octobre
2020
,
11’20’’IMPOSSIBLE
  
NewsletterUne
fois
voté
au
sein
de
l’
Union
,
le
budget
européen
doit
être
respecté
par
tous
les
États
membres
.
Marine
Le
Pen
,
si
elle
est
élue
à
la
présidence
de
la
République
,
ne
pourra
suspendre
le
versement
français
qu’
en
renégociant
ce
budget
avec
les
26
autres
Etats
,
ce
qui
n’
est
pas
prévu
par
les
traités
.
Ou
alors
elle
devra
attendre
l’
échéance
de
2027
,
date
prévue
pour
la
négociation
du
prochain
budget
.
Par
Ithry
Marouan
,
étudiante
en
master
droit
européen
à
l'
Université
de
Lille
,
sous
la
direction
de
Vincent
Couronne
,
docteur
en
droit
européen
,
chercheur
au
laboratoire
VIP
(
Paris
-
Saclay
)
,
le
15
octobre
2020


### Token

In [3]:
# Obtenir le Token d'indice 1 au sein du Doc.
token = doc[1]

# Obtiens le texte du token avec l'attribut .text
print(token.text)

LE


### Span

In [4]:
# Une portion du Doc est un objet Span
span = doc[1:3]

# Obtiens le texte du span avec l'attribut .text
print(span.text)

LE PEN


### Attributs lexicaux

In [5]:
doc1 = nlp("Cela coûte 5 € dix .")
print("Index :   ", [token.i for token in doc1])
print("Text :    ", [token.text for token in doc1])

print("is_alpha :", [token.is_alpha for token in doc1])
print("is_punct :", [token.is_punct for token in doc1])
print("like_num :", [token.like_num for token in doc1])

Index :    [0, 1, 2, 3, 4, 5]
Text :     ['Cela', 'coûte', '5', '€', 'dix', '.']
is_alpha : [True, True, False, False, True, False]
is_punct : [False, False, False, False, False, True]
like_num : [False, False, True, False, True, False]


### Télécharger le modèle pré-entraîné de la langue française.

In [6]:
# Importation de Spacy
import spacy
# Charger le paquet de modèle de la langue française.
nlp = spacy.load("fr_core_news_sm")

#### Marquage de partie de parole avec POS

In [7]:
# Création d'un objet doc en traitant une chaine de caractères avec l'objet nlp
doc = nlp("MARINE LE PEN SOUHAITE UN “MORATOIRE SUR L’AUGMENTATION DE LA CONTRIBUTION FRANÇAISE À L’UNION EUROPÉENNE”RMC, Bourdin Direct, le 13 octobre 2020, 11’20’’IMPOSSIBLE   NewsletterUne fois voté au sein de l’Union, le budget européen doit être respecté par tous les États membres. Marine Le Pen, si elle est élue à la présidence de la République, ne pourra suspendre le versement français qu’en renégociant ce budget avec les 26 autres Etats, ce qui n’est pas prévu par les traités. Ou alors elle devra attendre l’échéance de 2027, date prévue pour la négociation du prochain budget.Par Ithry Marouan, étudiante en master droit européen à l'Université de Lille, sous la direction de Vincent Couronne, docteur en droit européen, chercheur au laboratoire VIP (Paris-Saclay), le 15 octobre 2020")
# Itère sur les tokens
for token in doc:
    # Affichage de texte et l'étiquette de partie de discours prédite
     print(token.text, "------->", token.pos_)


MARINE -------> NOUN
LE -------> DET
PEN -------> NOUN
SOUHAITE -------> PROPN
UN -------> DET
“ -------> PUNCT
MORATOIRE -------> NOUN
SUR -------> ADP
L’ -------> NOUN
AUGMENTATION -------> NOUN
DE -------> ADP
LA -------> DET
CONTRIBUTION -------> NOUN
FRANÇAISE -------> ADJ
À -------> ADP
L’ -------> NOUN
UNION -------> PROPN
EUROPÉENNE”RMC -------> PROPN
, -------> PUNCT
Bourdin -------> PROPN
Direct -------> PROPN
, -------> PUNCT
le -------> DET
13 -------> NUM
octobre -------> NOUN
2020 -------> NUM
, -------> PUNCT
11’20’’IMPOSSIBLE -------> NUM
   -------> SPACE
NewsletterUne -------> CCONJ
fois -------> NOUN
voté -------> VERB
au -------> DET
sein -------> NOUN
de -------> ADP
l’ -------> PROPN
Union -------> PROPN
, -------> PUNCT
le -------> DET
budget -------> NOUN
européen -------> ADJ
doit -------> VERB
être -------> AUX
respecté -------> VERB
par -------> ADP
tous -------> ADJ
les -------> DET
États -------> NOUN
membres -------> ADJ
. -------> PUNCT
Marine -------> NO

#### Explication d'un  parties  du discours (DET)

In [8]:
spacy.explain ("DET")

'determiner'

#### Prédiction de dépendances syntaxiques avec "dep"  et a qui le mot considéré se rattacher avec "head"



In [9]:
for token in doc:
    print(token.text, "------>", token.dep_, "------>", token.head.text)

MARINE ------> ROOT ------> MARINE
LE ------> det ------> PEN
PEN ------> nmod ------> MARINE
SOUHAITE ------> acl ------> PEN
UN ------> det ------> MORATOIRE
“ ------> punct ------> UN
MORATOIRE ------> obj ------> SOUHAITE
SUR ------> case ------> L’
L’ ------> nmod ------> MORATOIRE
AUGMENTATION ------> ROOT ------> AUGMENTATION
DE ------> case ------> CONTRIBUTION
LA ------> det ------> CONTRIBUTION
CONTRIBUTION ------> nmod ------> AUGMENTATION
FRANÇAISE ------> amod ------> CONTRIBUTION
À ------> case ------> L’
L’ ------> nmod ------> AUGMENTATION
UNION ------> amod ------> L’
EUROPÉENNE”RMC ------> amod ------> L’
, ------> punct ------> Bourdin
Bourdin ------> conj ------> L’
Direct ------> amod ------> Bourdin
, ------> punct ------> AUGMENTATION
le ------> det ------> 13
13 ------> nmod ------> AUGMENTATION
octobre ------> nmod ------> 13
2020 ------> nmod ------> octobre
, ------> punct ------> 11’20’’IMPOSSIBLE
11’20’’IMPOSSIBLE ------> obl:mod ------> doit
   ------>  --

###### REMARQUE : La balise de dépendance ROOT désigne le verbe ou l'action principale de la phrase. Les autres mots sont directement ou indirectement liés au mot ROOT de la phrase.

#### découvrir ce que représentent les autres balises

In [10]:
spacy.explain("ROOT"), spacy.explain("case"), spacy.explain("acl"), spacy.explain("amod"), spacy.explain("nmod")


(None,
 'case marking',
 'clausal modifier of noun (adjectival clause)',
 'adjectival modifier',
 'modifier of nominal')

#### Visualisation des  dependence 

In [None]:
from spacy import displacy

displacy.serve(doc, style="dep")




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...



#### Prédiction des entités Nommées

In [11]:
# parcourir les entités prédites
for ent in doc.ents:
    # Affiche le texte de l'entité et son label
    print(ent.text, "------->", ent.label_)

MARINE -------> ORG
PEN -------> ORG
UNION -------> ORG
Bourdin Direct -------> PER
NewsletterUne -------> ORG
Union -------> LOC
États membres -------> LOC
Le Pen -------> PER
République -------> MISC
Etats -------> MISC
Ithry Marouan -------> PER
Université de Lille -------> ORG
Vincent Couronne -------> PER
laboratoire VIP -------> ORG
Paris -------> LOC
Saclay -------> LOC


In [15]:
spacy.explain("MISC"), spacy.explain("GPE"), spacy.explain("NNP"), spacy.explain("dobj")

('Miscellaneous entities, e.g. events, nationalities, products or works of art',
 'Countries, cities, states',
 'noun, proper singular',
 'direct object')

#### Visualisatuin des entités Nommées

In [None]:
from spacy import displacy
displacy.serve(doc, style="ent")




Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

