# SpaCy

### Création d'un objet nlp en langue française

In [1]:
#Importer la classe de langue "French"
from spacy.lang.fr import French
import spacy
# Création de l'objet nlp avec cet objet, nous pouvons faire que
# la Tokenisation pas le reste des fonctionnalités de pipeline de nlp 
nlp = French()


### Télécharger le modèle pré-entraîné de la langue française.

In [2]:
# Charger le paquet de modèle de la langue française 
# pour avoir accès à toutes les fonctionnalités de pipeline.
nlp = spacy.load("fr_core_news_sm")
 #liste de noms des composants du pipeline
nlp.pipe_names


['tok2vec', 'morphologizer', 'parser', 'ner', 'attribute_ruler', 'lemmatizer']

In [17]:
# Vérifions si un composant particulier (par exemple test)est présent dans le pipline
nlp.has_pipe('test')

False

### Créons et ajoutons un composant au pipeline.

In [8]:
# Declarons une fonction qui ajoute un indice a chaque token
def composant(doc):
    # Effectue une action sur le doc
    return doc
# Ajoute le composant en premier dans le pipeline
nlp.add_pipe(composant,  first=True)
nlp.pipe_names

['composant', 'tagger', 'parser', 'ner']

In [9]:
nlp.remove_pipe("composant") #supprimer le composant du pipeline
nlp.pipe_names

['tagger', 'parser', 'ner']

### Créons et ajoutons un composant au pipeline avec la version 3.

In [7]:
from spacy.language import Language
# Utilisation comme décorateur
@Language.component("composant")
def composant(doc):
    # le corps de la fonction 
    return doc
# Utilisation de la fonction
Language.component("composant", func=composant)
nlp.add_pipe("composant")
nlp.pipe_names

['tok2vec',
 'morphologizer',
 'parser',
 'ner',
 'attribute_ruler',
 'lemmatizer',
 'composant']

In [8]:
nlp.remove_pipe("composant") #supprimer le composant du pipeline
nlp.pipe_names

['tok2vec', 'morphologizer', 'parser', 'ner', 'attribute_ruler', 'lemmatizer']

### Création de l'objet “Doc” avec la Tokenisation

In [8]:
#Notre text
text = """Solidaire Etudiant-e-s ne peut faire interdire une conférence ou autre 
manifestation organisée par un enseignant (et pas l’Université elle-même), si elle est 
conforme à la loi. C’est contraire au principe constitutionnel d’indépendance des 
professeurs d’université. Il peut toutefois participer au débat et veiller à ce qu’aucun 
message illégal et partial ne soit délivré."""
# Création d'un objet doc en traitant une chaine de caractères avec l'objet nlp
doc = nlp(text)
# Parcourir sur les tokens dans un Doc
for token in doc:
        print(token.text)  

Solidaire
Etudiant
-
e
-
s
ne
peut
faire
interdire
une
conférence
ou
autre


manifestation
organisée
par
un
enseignant
(
et
pas
l’
Université
elle-même
)
,
si
elle
est


conforme
à
la
loi
.
C’
est
contraire
au
principe
constitutionnel
d’
indépendance
des


professeurs
d’
université
.
Il
peut
toutefois
participer
au
débat
et
veiller
à
ce
qu’
aucun


message
illégal
et
partial
ne
soit
délivré
.


### Creation des phrases à partir des tokens

In [19]:
# Creation d'une liste de phrase à partir des tokens inverser la Tokenisation
sents_list = []
for sent in doc.sents:
    sents_list.append(sent.text)
print(sents_list)

['Solidaire Etudiant-e-s ne peut faire interdire une conférence ou autre \nmanifestation organisée par un enseignant (et pas l’Université elle-même), si elle est \nconforme à la loi.', 'C’est contraire au principe constitutionnel d’indépendance des \nprofesseurs d’université.', 'Il peut toutefois participer au débat et veiller à ce qu’aucun \nmessage illégal et partial ne soit délivré.']


### Token

In [20]:
# Obtenir le Token d'indice 1 au sein du Doc.
token = doc[1]
# Obtiens le texte du token avec l'attribut .text
print(token.text)

Etudiant


### Span

In [21]:
# Une portion du Doc est un objet Span
span = doc[1:6]

# Obtiens le texte du span avec l'attribut .text
print(span.text)

Etudiant-e-s


#### Diviser un document en phrases

In [22]:
for ix, sent in enumerate(doc.sents, 1): 
    # afficher le texte de chaque phrase
    print("phrase numéro {}: {}".format(ix, sent))

phrase numéro 1: Solidaire Etudiant-e-s ne peut faire interdire une conférence ou autre 
manifestation organisée par un enseignant (et pas l’Université elle-même), si elle est 
conforme à la loi.
phrase numéro 2: C’est contraire au principe constitutionnel d’indépendance des 
professeurs d’université.
phrase numéro 3: Il peut toutefois participer au débat et veiller à ce qu’aucun 
message illégal et partial ne soit délivré.


### Liste des stop words de la langue française

In [23]:
# afficher cette liste 
print(nlp.Defaults.stop_words)

{'seize', 'onze', 'touchant', 'étais', 'feront', 'â', 'nôtre', 'leurs', 'était', 'quelle', 'ès', 'certaines', 'exactement', 'derriere', 'donc', 'oust', 'alors', 'dix-neuf', 'avons', 'pourrait', 'seul', 'dix-huit', 'cinq', 'tienne', 'désormais', 'là', 'suffisante', 'té', 'vé', 'de', 'parlent', 'directement', 'importe', 'où', 'hormis', 'effet', 'eux-mêmes', 'deux', 'eh', 'etc', 'partant', 'suivre', 'vas', 'etais', 'plus', 'comment', 'j’', 'doivent', "s'", 'huit', 'nombreuses', 'ouias', 'anterieure', 'as', 'ouverts', 'merci', 'tien', 'c’', 'me', 'revoilà', 'retour', 'soixante', 't’', 'ouverte', 'surtout', 'seule', 'moins', 'elle', 'lesquelles', 'assez', 'avec', 'cinquantaine', "t'", 'etant', 'même', 'compris', 'parce', 'durant', 'souvent', 'pres', 'auxquelles', 'nouvea', 'aupres', 'encore', 'jusque', 'te', 'tente', 'seraient', 'ci', 'longtemps', 'moi-même', 'semblent', 'onzième', 'different', 'miennes', 'proche', 'hem', 'n’', 'egale', 'pourrais', 'sa', 'pu', 'pendant', 'restent', 'vous-mê

#### Pour supprimer plusieurs stop words à la fois de la liste 

In [30]:
#Pour supprimer un mot unique:
#nlp.Defaults.stop_words.remove("moi")
#Pour supprimer un mot DE la liste
nlp.Defaults.stop_words -= {"permet", "doivent", "tous"}
print(nlp.Defaults.stop_words)

{'nouveau', 'aucune', 'autre', 'ainsi', 'pfft', 'subtiles', 'euh', 'beaucoup', 'il', 'directement', 'crac', 'anterieures', 'avant', 'particulière', 'deja', 'tout', 'ma', 'pourrait', 'chez', 'parfois', 'chaque', 'couic', 'plutôt', 'comparable', 'minimale', 'moindres', 'passé', 'toi-même', 'dit', 'probante', 'retour', 'certaines', 'fi', 'tres', 'bigre', 'peut', 'probable', 'toi', 'cinquantième', 'neanmoins', 'laquelle', 't’', 'nul', 'parmi', 'toutefois', 'deuxièmement', 'quatre-vingt', "l'", "c'", 'ton', 'beau', 'n’', 'tac', 'quelques', 'très', 'telle', 'hein', 'contre', 'i', 'allô', 'speculatif', 'mêmes', 'clac', 'desquels', 'depuis', 'boum', 'lui', 'moi-meme', 'quanta', 'bat', 'cet', 'parler', 'j’', 'elle', 'delà', 'son', 'excepté', 'cent', 'avons', 'reste', 'est', 'été', 'vlan', 'rare', 'ô', 'autrui', 'ont', 'aucun', 'hormis', 'dessous', 'nous', 'maintenant', 'different', 'doit', 'sa', 'hélas', 'tardive', 'attendu', 'avaient', 'ouverts', 'lesquelles', 'quoique', 'tiens', 'ouste', 'pui

#### Pour ajouter plusieurs stop words à la fois 

In [24]:
#Pour ajouter un mot unique:
#nlp.Defaults.stop_words.add("doit")
#Pour ajouter plusieurs mots:
nlp.Defaults.stop_words |= {"permet", "doivent", "tous"}
print(nlp.Defaults.stop_words)

{'seize', 'onze', 'touchant', 'étais', 'feront', 'â', 'nôtre', 'leurs', 'était', 'quelle', 'ès', 'certaines', 'exactement', 'derriere', 'donc', 'oust', 'alors', 'dix-neuf', 'avons', 'pourrait', 'seul', 'dix-huit', 'cinq', 'tienne', 'désormais', 'là', 'suffisante', 'té', 'vé', 'de', 'parlent', 'directement', 'importe', 'où', 'hormis', 'effet', 'eux-mêmes', 'deux', 'eh', 'etc', 'partant', 'suivre', 'vas', 'etais', 'plus', 'comment', 'j’', 'doivent', "s'", 'huit', 'nombreuses', 'ouias', 'anterieure', 'as', 'ouverts', 'merci', 'tien', 'c’', 'me', 'revoilà', 'retour', 'soixante', 't’', 'ouverte', 'surtout', 'seule', 'moins', 'elle', 'lesquelles', 'assez', 'avec', 'cinquantaine', "t'", 'etant', 'même', 'compris', 'parce', 'durant', 'souvent', 'pres', 'auxquelles', 'nouvea', 'aupres', 'encore', 'jusque', 'te', 'tente', 'seraient', 'ci', 'longtemps', 'moi-même', 'semblent', 'onzième', 'different', 'miennes', 'proche', 'hem', 'n’', 'egale', 'pourrais', 'sa', 'pu', 'pendant', 'restent', 'vous-mê

### Vérifier si un token est un stop word ou une ponctuation ou non 

In [25]:
doc1 = nlp("Quel avenir pour les chauffeurs Uber ?.")
# Parcourir sur les tokens dans un Doc
for token in doc1:
        print(token.text, "-------->", token.is_stop, "-------->", token.is_punct,
              "-------->", token.is_space) 

Quel --------> True --------> False --------> False
avenir --------> False --------> False --------> False
pour --------> True --------> False --------> False
les --------> True --------> False --------> False
chauffeurs --------> False --------> False --------> False
Uber --------> False --------> False --------> False
? --------> False --------> True --------> False
. --------> False --------> True --------> False


#### Supprimer les stop words et ponctuations de Doc

In [26]:
tokens = [token.text for token in doc1 if not token.is_stop | token.is_space | token.is_punct]
print(tokens)

['avenir', 'chauffeurs', 'Uber']


# Supprimer les stop words et ponctuations de Doc générer par le text

In [27]:
tokens = [token.text for token in doc if not token.is_stop | token.is_space | token.is_punct]
print(tokens)

['Solidaire', 'Etudiant', 'e', 's', 'faire', 'interdire', 'conférence', 'manifestation', 'organisée', 'enseignant', 'Université', 'conforme', 'loi', 'contraire', 'principe', 'constitutionnel', 'indépendance', 'professeurs', 'université', 'toutefois', 'participer', 'débat', 'veiller', 'message', 'illégal', 'partial', 'délivré']


In [28]:
print("La taille de Doc avant traitement : ", len(doc))
print("La taille de Doc après traitement : ", len(tokens))

La taille de Doc avant traitement :  72
La taille de Doc après traitement :  27


### Attributs lexicaux

In [29]:

print("Index :   ", [token.i for token in doc1], "\n")
print("Text :    ", [token.text for token in doc1], "\n")
print("is_alpha :", [token.is_alpha for token in doc1], "\n")
print("is_ascii :", [token.is_ascii for token in doc1], "\n")
print("is_digit :", [token.is_digit for token in doc1], "\n")
print("is_upper :", [token.is_upper for token in doc1], "\n")
print("is_lower :", [token.is_lower for token in doc1], "\n")
print("is_bracket :", [token.is_bracket for token in doc1], "\n")
print("is_quote :", [token.is_quote for token in doc1], "\n")
print("is_punct :", [token.is_punct for token in doc1], "\n")
print("like_num :", [token.like_num for token in doc1], "\n")
print("is_digit :", [token.is_digit for token in doc1], "\n")

Index :    [0, 1, 2, 3, 4, 5, 6, 7] 

Text :     ['Quel', 'avenir', 'pour', 'les', 'chauffeurs', 'Uber', '?', '.'] 

is_alpha : [True, True, True, True, True, True, False, False] 

is_ascii : [True, True, True, True, True, True, True, True] 

is_digit : [False, False, False, False, False, False, False, False] 

is_upper : [False, False, False, False, False, False, False, False] 

is_lower : [False, True, True, True, True, False, False, False] 

is_bracket : [False, False, False, False, False, False, False, False] 

is_quote : [False, False, False, False, False, False, False, False] 

is_punct : [False, False, False, False, False, False, True, True] 

like_num : [False, False, False, False, False, False, False, False] 

is_digit : [False, False, False, False, False, False, False, False] 



### Vérifier si un token est un URI ou non 

In [30]:
doc1 = nlp("Quel avenir pour les chauffeurs Uber ? https://spacy.io/api/language#add_pipe.")
# Parcourir sur les tokens dans un Doc
for token in doc1:
        print(token.text, "-------->", token.like_url) 

Quel --------> False
avenir --------> False
pour --------> False
les --------> False
chauffeurs --------> False
Uber --------> False
? --------> False
https://spacy.io/api/language#add_pipe --------> True
. --------> False


### Lemmatizer pour afficher la racine de chaque mot .

In [31]:
#la lemmatisation grâce au mot clé .lemma_
for token in doc:
     print(token.text, "------->", token.lemma_)

Solidaire -------> Solidaire
Etudiant -------> Etudiant
- -------> -
e -------> e
- -------> -
s -------> s
ne -------> ne
peut -------> pouvoir
faire -------> faire
interdire -------> interdire
une -------> un
conférence -------> conférence
ou -------> ou
autre -------> autre

 -------> 

manifestation -------> manifestation
organisée -------> organiser
par -------> par
un -------> un
enseignant -------> enseignant
( -------> (
et -------> et
pas -------> pas
l’ -------> l’
Université -------> université
elle-même -------> lui-même
) -------> )
, -------> ,
si -------> si
elle -------> lui
est -------> être

 -------> 

conforme -------> conforme
à -------> à
la -------> le
loi -------> loi
. -------> .
C’ -------> c’
est -------> être
contraire -------> contraire
au -------> au
principe -------> principe
constitutionnel -------> constitutionnel
d’ -------> d’
indépendance -------> indépendance
des -------> de

 -------> 

professeurs -------> professeur
d’ -------> d’
université ----

In [32]:
#supperimer les stop words et espace et la ponctuation
noStopWordsnoPunct = [token for token in doc if not token.is_punct | token.is_space | token.is_stop]
doc1 = nlp(' '.join([tokens.text for tokens in noStopWordsnoPunct]))
print("Parent type:", type(doc1))
print("Token type:", type(doc1[0]))
doc1

Parent type: <class 'spacy.tokens.doc.Doc'>
Token type: <class 'spacy.tokens.token.Token'>


Solidaire Etudiant e s faire interdire conférence manifestation organisée enseignant Université conforme loi contraire principe constitutionnel indépendance professeurs université toutefois participer débat veiller message illégal partial délivré

### Lemmatizer pour afficher la racine de chaque mot mais cette fois sans les stop words, ponctuation et espace.

In [33]:
#la lemmatisation grâce au mot clé .lemma_
for token in doc1:
     print(token.text, "------->", token.lemma_)

Solidaire -------> Solidaire
Etudiant -------> Etudiant
e -------> e
s -------> s
faire -------> faire
interdire -------> interdir
conférence -------> conférence
manifestation -------> manifestation
organisée -------> organiser
enseignant -------> enseigner
Université -------> université
conforme -------> conforme
loi -------> loi
contraire -------> contraire
principe -------> principe
constitutionnel -------> constitutionnel
indépendance -------> indépendanc
professeurs -------> professeur
université -------> université
toutefois -------> toutefois
participer -------> participer
débat -------> débat
veiller -------> veiller
message -------> message
illégal -------> illégal
partial -------> partial
délivré -------> délivrer


In [178]:
# autre exemple
doc1 = nlp("Suis, suis, est.")
for token in doc1:
     print(token.text, "------->", token.lemma_)

Suis -------> être
, -------> ,
suis -------> être
, -------> ,
est -------> être
. -------> .


#### Part of Speech (POS) Tagging

In [34]:
# Itère sur les tokens
for token in doc:
    # Affichage de texte et l'étiquette de partie de discours prédite
     print(token.text, "------->", token.pos_)


Solidaire -------> PROPN
Etudiant -------> PROPN
- -------> PROPN
e -------> PROPN
- -------> PUNCT
s -------> AUX
ne -------> ADV
peut -------> VERB
faire -------> AUX
interdire -------> NOUN
une -------> DET
conférence -------> NOUN
ou -------> CCONJ
autre -------> ADJ

 -------> SPACE
manifestation -------> NOUN
organisée -------> VERB
par -------> ADP
un -------> DET
enseignant -------> NOUN
( -------> PUNCT
et -------> CCONJ
pas -------> ADV
l’ -------> ADJ
Université -------> NOUN
elle-même -------> PRON
) -------> PUNCT
, -------> PUNCT
si -------> SCONJ
elle -------> PRON
est -------> AUX

 -------> SPACE
conforme -------> ADJ
à -------> ADP
la -------> DET
loi -------> NOUN
. -------> PUNCT
C’ -------> ADJ
est -------> AUX
contraire -------> ADJ
au -------> ADP
principe -------> NOUN
constitutionnel -------> ADJ
d’ -------> ADV
indépendance -------> NOUN
des -------> ADP

 -------> SPACE
professeurs -------> ADJ
d’ -------> DET
université -------> NOUN
. -------> PUNCT
Il ----

### Explication d'un parties du discours (DET)

In [35]:
spacy.explain ("PROPN")

'proper noun'

### Afficher la Part of Speech  d'un mot qui est utilisé dans deux contextes différents.

In [36]:
# Charger le paquet de modèle de la langue anglaise 
nlp = spacy.load('en_core_web_sm')
doc1 = nlp("You read this book")
doc2 = nlp("I will book my ticket")

for token in doc1:
     print(token.text, "------->", token.pos_)
print("\n \n")
for token in doc2:
     print(token.text, "------->", token.pos_)

You -------> PRON
read -------> VERB
this -------> DET
book -------> NOUN

 

I -------> PRON
will -------> AUX
book -------> VERB
my -------> PRON
ticket -------> NOUN


#### Afficher la Part of Speech d'un mot qui est utilisé dans deux contextes différents alors que dans la langue française il marche pas.

In [37]:
# Charger le paquet de modèle de la langue française 
nlp = spacy.load("fr_core_news_sm")
doc1 = nlp("Stéphane a accusé son frère à sa place.")
doc2 = nlp("Ils ont fait entrer l'accusé dans le tribunal. ")
for token in doc1:
     print(token.text, "------->", token.pos_)
print("\n \n")
for token in doc2:
     print(token.text, "------->", token.pos_)

Stéphane -------> PROPN
a -------> AUX
accusé -------> VERB
son -------> DET
frère -------> NOUN
à -------> ADP
sa -------> DET
place -------> NOUN
. -------> PUNCT

 

Ils -------> PRON
ont -------> AUX
fait -------> AUX
entrer -------> VERB
l' -------> DET
accusé -------> VERB
dans -------> ADP
le -------> DET
tribunal -------> NOUN
. -------> PUNCT


### Dependency

#### Prédiction de dépendances syntaxiques avec "dep"  et a qui le mot considéré se rattacher avec "head"

In [38]:
for token in doc:
    print(token.text, "------>", token.dep_, "------>", token.head.text)

Solidaire ------> nsubj ------> peut
Etudiant ------> flat:name ------> Solidaire
- ------> flat:name ------> Solidaire
e ------> flat:name ------> Solidaire
- ------> punct ------> peut
s ------> punct ------> peut
ne ------> advmod ------> peut
peut ------> ROOT ------> peut
faire ------> amod ------> interdire
interdire ------> xcomp ------> peut
une ------> det ------> conférence
conférence ------> obj ------> peut
ou ------> cc ------> autre
autre ------> amod ------> 


 ------> nmod ------> conférence
manifestation ------> nmod ------> 

organisée ------> acl ------> 

par ------> case ------> enseignant
un ------> det ------> enseignant
enseignant ------> obl:agent ------> organisée
( ------> punct ------> peut
et ------> cc ------> Université
pas ------> advmod ------> l’
l’ ------> amod ------> Université
Université ------> conj ------> peut
elle-même ------> dep ------> Université
) ------> punct ------> peut
, ------> punct ------> peut
si ------> mark ------> 

elle ------

#### découvrir ce que représentent les autres balises

In [39]:
spacy.explain("ROOT"), spacy.explain("xcomp"), spacy.explain("acl"), spacy.explain("amod")


(None,
 'open clausal complement',
 'clausal modifier of noun (adjectival clause)',
 'adjectival modifier')

### Visualisation des dependence

In [None]:
from spacy import displacy

displacy.serve(doc, style="dep")




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...



### Phrases nominales a partir de l'arbre de dépendance

In [40]:
for tocken in doc.noun_chunks:
    print(tocken.text, "------->", tocken.root.text, "---->", tocken.root.dep_)

Solidaire Etudiant-e -------> Solidaire ----> nsubj
une conférence ou autre 
manifestation organisée par un enseignant -------> conférence ----> obj
et pas l’Université elle-même -------> Université ----> conj
elle -------> elle ----> nsubj
d’université -------> université ----> nmod
message illégal et partial -------> message ----> nmod


### Prédiction des entités Nommées

In [41]:
# parcourir les entités prédites
for ent in doc.ents:
    # Affiche le texte de l'entité et son label
    print(ent.text, "------->", ent.label_)

Solidaire Etudiant-e-s -------> MISC
l’Université -------> ORG
C’ -------> MISC
d’ -------> PER


In [42]:
spacy.explain("MISC"), spacy.explain("GPE"), spacy.explain("NNP"), spacy.explain("dobj"), spacy.explain("ORG")

('Miscellaneous entities, e.g. events, nationalities, products or works of art',
 'Countries, cities, states',
 'noun, proper singular',
 'direct object',
 'Companies, agencies, institutions, etc.')

### Visualisatuin des entités Nommées

In [None]:
from spacy import displacy
displacy.serve(doc, style="ent")




Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...



### Correspondance basée sur des règles avec "Matcher"

### Matcher de token

In [3]:
# Importer spaCy Matcher
from spacy.matcher import Matcher
# Initialiser le matcher avec le vocabulaire partagé
matcher = Matcher(nlp.vocab)
text = """Solidaire Etudiant-e-s ne peut faire interdire une conférence ou autre 
manifestation organisée par un enseignant (et pas l’Université elle-même), si elle est 
conforme à la loi. C’est contraire au principe constitutionnel d’indépendance des 
professeurs d’université. Il peut toutefois participer au débat et veiller à ce qu’aucun 
message illégal et partial ne soit délivré."""
# Traite un texte
doc = nlp(text)
# Ajoute le motif au matcher (Definir les regles)
pattern = [{'TEXT': 'message'}, {'TEXT': 'illégal'}, {'TEXT': 'et'}]

# Ajouter la regle 
matcher.add('rule_1', [pattern])
# Appelle le matcher sur le doc
matches = matcher(doc)
matches

[(7604275899133490726, 64, 67)]

#### L'extraction de text avec le matcher definer avant sur un doc

In [4]:
# parcorir sur les correspondances
for match_id, start, end in matches:
    # Obtiens le span en correspondance
    matched_span = doc[start:end]
    print(matched_span.text)

message illégal et


In [5]:
text = """Solidaire Etudiant-e-s ne peut faire interdire une conférence ou autre 
manifestation ORGANISÉE par enseignant 2021! (et pas l’Université elle-même), si elle est 
conforme à la loi. C’est contraire au principe constitutionnel d’indépendance des 
professeurs d’université. Il peut toutefois participer au débat et veiller à ce qu’aucun 
message illégal et partial ne soit délivré."""
doc = nlp(text)
matcher = Matcher(nlp.vocab)
pattern = [{"LOWER": "manifestation"},
    {"LOWER": "organisée"},
    {"LOWER": "par"},
    {"LOWER": "enseignant"},
    {"IS_DIGIT": True},
    {"IS_PUNCT": True}]
# Ajouter la regle 
matcher.add('rule_2', [pattern])
# Appelle le matcher sur le doc
matches = matcher(doc)
for match_id, start, end in matches:
    # Obtiens le span en correspondance
    matched_span = doc[start:end]
    print(matched_span.text)

manifestation ORGANISÉE par enseignant 2021!


In [6]:
# accusé ici c'est un nom
doc1 = nlp("Stéphane a accusé son frère à sa place..")
# accusé ici c'est un verbe
doc2 = nlp("Ils ont fait entrer l'accusé dans le tribunal ")
pattern = [{'TEXT': 'accusé', 'POS': 'NOUN'}]
# Initialize the matcher avec le vocab
matcher = Matcher(nlp.vocab)
matcher.add('rule', [pattern])

In [7]:
matches = matcher(doc1) 
for match_id, start, end in matches:
    # Obtiens le span en correspondance
    matched_span = doc1[start:end]
    print(matched_span.text)

In [8]:
matches = matcher(doc2) 
for match_id, start, end in matches:
    # Obtiens le span en correspondance
    matched_span = doc2[start:end]
    print(matched_span.text)

Dans cet exemple, nous recherchons deux tokens.
Un verbe avec le lemme(la racine) "manger", suivi par un nom.

In [9]:

# Traite un texte
doc = nlp("Avant elle mangeait des pâtes. Désormais elle mange des légumes.")

# Ajoute le motif au matcher (Definir les regles)
pattern = [
    {"LEMMA": "manger", "POS": "VERB"},
    {"POS": "ADP"},
    {"POS": "NOUN"}
]
# Ajouter la regle 
matcher.add('rule_1', [pattern])
# Appelle le matcher sur le doc
matches = matcher(doc)
for match_id, start, end in matches:
    # Obtiens le span en correspondance
    matched_span = doc[start:end]
    print(matched_span.text)

mangeait des pâtes
mange des légumes


#### Utilisation d'opérateurs et de quantificateurs 

In [10]:
text = """Solidaire Etudiant-e-s ne peut faire interdire une conférence ou autre 
manifestation ORGANISÉE par enseignant 2021! (et pas l’Université elle-même), si elle est 
conforme à la loi. C’est contraire au principe constitutionnel d’indépendance des 
professeurs d’université. Il peut toutefois participer au débat et veiller à ce qu’aucun 
message illégal et partial ne soit délivré."""
pattern = [
    {"LEMMA": "être", "POS": "AUX"},
    {"POS": "ADJ"},
    {"POS": "ADP", "OP": "+"}, # optionnel : trouve 0 ou 1 fois
    {"POS": "NOUN"}
]
doc = nlp(text)
# Ajouter la regle 
matcher.add('rule_1', [pattern])
# Appelle le matcher sur le doc
matches = matcher(doc)
for match_id, start, end in matches:
    # Obtiens le span en correspondance
    matched_span = doc[start:end]
    print(matched_span.text)

est contraire au principe


### Matcher de phrase

In [49]:
#importation
from spacy.matcher import PhraseMatcher
#inisailisation
matcher = PhraseMatcher(nlp.vocab)
# Termes pour matcher
terms_list = ['Jean-Claude ','Henri Jouffroy','Jules-Armand ','Youssouf Aptidon ','Privat-Antoine ']
# convertir la liste de phrases en un objet doc
patterns = [nlp.make_doc(text) for text in terms_list]
#ajouter le modèle à notre matcher
matcher.add("phrase_matcher", None, *patterns)#Les entrées sont: Un ID ,optional parameter, pattern list

# Matcher Object (Application de match sur un text)
fictional_char_doc = nlp("""Jean Claude Anglars  Politiquemania - Politiquemania. Jean-Claude Anglars est né le 20
                         février 1961. Youssouf Aptidon Darar, né en 1921 à Djibouti et mort le 14 mars 2013 à Djibouti,
                         est un militaire et homme politique djiboutien.""")
character_matches = matcher(fictional_char_doc)

In [50]:
# Matching positions
character_matches

[(520014689628841516, 8, 9), (520014689628841516, 17, 19)]

In [51]:
# Matched items
for match_id, start, end in character_matches:
    span = fictional_char_doc[start:end]
    print(span.text)

Jean-Claude
Youssouf Aptidon


In [52]:
# utiliser attr parameter egal a 'LOWER'
case_insensitive_matcher = PhraseMatcher(nlp.vocab, attr="LOWER")

# Creation doc &amp; pattern
my_doc=nlp('je souhaite visiter la ville New York')
terms=['New York']
pattern=[nlp(term) for term in terms]

# ajouter pattern au matcher
case_insensitive_matcher.add("matcher",None,*pattern)

# application sur notre doc my_doc
my_matches=case_insensitive_matcher(my_doc)

for match_id,start,end in my_matches:
  span=my_doc[start:end]
  print(span.text)

New York


In [53]:
my_doc = nlp(''''À partir de 8 heures du matin, Monsieur X prendra la parole sur la chaîne  191.1. Ensuite,
             il y aura une interview exclusive avec lacteur Y sur la chaîne 194.1. Appelez-nous au 33333''')
#Creation de pattern
pattern=nlp('199.5')
# Initialition du matcher et ajouter le pattern
pincode_matcher= PhraseMatcher(nlp.vocab,attr="SHAPE")
pincode_matcher.add("pincode_matching", None, pattern)
# Application de matcher sur notre doc
matches = pincode_matcher(my_doc)
# afficherles matcher-phrases
for match_id, start, end in matches:
  span = my_doc[start:end]
  print(span.text)

191.1
194.1


### Règle d'entité

In [54]:
from spacy.pipeline import EntityRuler
# Initialisez le EntityRuler
ruler = EntityRuler(nlp)
# Mon label sera Exemple et pattern contiendra les mots juridique que nous 
# souhaitons ajouter
pattern=[{"label": "Exemple", "pattern": "BÂTONNIER"}]
# Ajouter la règle d'entité au pipeline NLP.
ruler.add_patterns(pattern)
nlp.add_pipe(ruler)
doc = nlp(""" BÂTONNIER est un Avocat élu par ses confrères pour représenter 
            l’Ordre des avocats et faire observer la discipline professionnelle.
                    """)
print([(ent.text, ent.label_) for ent in doc.ents])

[('BÂTONNIER', 'ORG'), ('Avocat', 'ORG'), ('l’Ordre des avocats', 'MISC')]


#### vocabulaire partagé

In [152]:
doc = nlp("Ines nage souvent")
print("valeur de hash :", nlp.vocab.strings["souvent"])
print("valeur de chaine :", nlp.vocab.strings[821433950267086228])

valeur de hash : 821433950267086228
valeur de chaine : souvent


In [153]:
doc = nlp("Ines nage souvent")
print("valeur de hash :", doc.vocab.strings["souvent"])

valeur de hash : 821433950267086228


##### Crée un doc manuellement

In [155]:
# Importe la classe Doc
from spacy.tokens import Doc

# Les mots et les espaces à partir desquels créer le doc
words = ["Bonjour", "monde", "!"]
spaces = [True, True, False]

# Crée un doc manuellement
doc = Doc(nlp.vocab, words=words, spaces=spaces)
doc

Bonjour monde !

##### Crée un Span manuellement


In [157]:
# Importe les classes Span
from spacy.tokens import Span

# Les mots et les espaces à partir desquels créer le doc
words = ["Bonjour", "monde", "!"]
spaces = [True, True, False]

# Crée un doc manuellement
doc = Doc(nlp.vocab, words=words, spaces=spaces)

# Crée un span manuellement
span = Span(doc, 0, 2)

# Crée un span avec un label
span_with_label = Span(doc, 0, 2, label="GREETING")

# Ajoute le span à doc.ents
doc.ents = [span_with_label]
doc.ents

(Bonjour monde,)

#### Vecteurs de mots et similarité sémantique

#### Les vecteurs de mots dans spaCy

In [196]:
doc = nlp("ASSIGNATION DE JURÉ")
# Accède au vecteur via l'attribut token.vector
print(doc[2].vector)

[ 1.2632797   0.23083645  0.38898504 -5.1011415  -1.3000488  -3.4664907
  4.2930913   7.5837107  -2.0616546  -1.634711   -3.7464945   6.826188
  3.8806047  -0.16149741  0.49566066 -1.1583458  -1.9864562   1.9500803
 -0.5096699   4.146461   -0.7442602  -1.898237    0.7319286   4.4126687
  2.9405494  -2.201996    6.3898554   2.4588194  -1.7222137   2.4176888
 -0.0574072   0.0240131   0.239537   -3.4011106  -1.0765687   1.6112238
 -0.7508415   3.2752192  -1.7572901   3.1839406  -6.167159    2.3697479
  0.36960727 -3.2440214   4.6429696  -4.2886243  -5.638518   -6.389758
 -1.9945995  -5.007551    0.8183912   2.0851703  -0.12826723 -4.3383236
  1.8170545  -1.8136282  -0.24439082 -2.40773    -2.426916    6.752461
  3.3557024  -1.7382666   3.125442   -3.386338    5.2027936  -3.9655
 -2.8099809  -1.1053399   0.81016815 -4.1653423  -0.9185063  -0.37925255
  1.2594235   4.4168468  -2.0239391  -2.1671185   1.2525706   4.3915343
 -2.28012     0.2898965   0.8116075  -3.9037523   6.4572153   0.70319

#### Similarité sémantique

In [55]:
# Charge un plus grand modèle avec les vecteurs
#nlp = spacy.load('fr_core_news_md')             
doc1 = nlp("ASSIGNATION À TÉMOIGNER")
doc2 = nlp("ASSIGNATION DE JURÉ")
print(doc1.similarity(doc2))

0.8893207665366708


  print(doc1.similarity(doc2))


In [198]:
# Compare deux tokens
# accusé ici c'est un nom
doc1 = nlp("Stéphane a accusé son frère à sa place..")
# accusé ici c'est un verbe
doc2 = nlp("Ils ont fait entrer l'accusé dans le tribunal ")

token1 = doc1[2]
token2 = doc2[5]
print(token1.similarity(token2))

1.0


In [11]:
test_2 = "Quelle est la valeur juridique ? "
test_3 = "Selon Nicolas Sarkozy “la question de la partialité de certains magistrats peut se poser” au regard de la jurisprudence de la CEDH'"
#La suite : au regard de la jurisprudence de la CEDH'"
test_4 = "Yannick Jadot : “Je veux une TVA à 0% sur les produits bio” "
t2= nlp (test_2)
t3= nlp (test_3)
t4= nlp (test_4)
# Similarity of two documents
print("t2 similarity t4", t2.similarity(t3))
print("t4 similarity t3", t4.similarity(t3))
# Similarity of tokens and spans
A = t2[4]
B = t4[7]
print(A, "<->", B, A.similarity(B))
print(t2[4], "<->", t3[20], t2[4].similarity(t3[20]))


t2 similarity t4 0.18593279240208843
t4 similarity t3 0.5311292036612536
juridique <-> TVA -0.01463885
juridique <-> jurisprudence 0.21975578


  print("t2 similarity t4", t2.similarity(t3))
  print("t4 similarity t3", t4.similarity(t3))
  print(A, "<->", B, A.similarity(B))
  print(t2[4], "<->", t3[20], t2[4].similarity(t3[20]))
