In [14]:
#----Installation----#

# pip install -U spacy
# python -m spacy download en_core_web_sm

import spacy
import time

nlp = spacy.load("en_core_web_sm")
nlp_fr = spacy.load("fr_core_news_sm")
nlp_ru = spacy.load("ru_core_news_sm")

In [18]:
import nltk
from nltk import word_tokenize

In [5]:
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'ner', 'attribute_ruler', 'lemmatizer']

In [6]:
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x2157565e400>),
 ('tagger', <spacy.pipeline.tagger.Tagger at 0x215755093b0>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x2157545da00>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x21575306a60>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x21568adcb00>),
 ('lemmatizer', <spacy.lang.en.lemmatizer.EnglishLemmatizer at 0x215756d5bc0>)]

In [7]:
nlp_fr.pipe_names

['tok2vec', 'morphologizer', 'parser', 'ner', 'attribute_ruler', 'lemmatizer']

In [8]:
nlp_ru.pipe_names

['tok2vec', 'morphologizer', 'parser', 'ner', 'attribute_ruler', 'lemmatizer']

### Création des doc avec spaCy (tokenisation + annotation etc)

In [33]:
start_time = time.time()

pathEN = "hawkingEN.txt"
pathFR = "hawkingFR.txt"
pathRU = "hawkingRU.txt"

textEN = open(pathEN, encoding="utf-8").read()
textFR = open(pathFR, encoding="utf-8").read()
textRU = open(pathRU, encoding="utf-8").read()

docEN = nlp(textEN)
docFR = nlp_fr(textFR)
docRU = nlp_ru(textRU)

print("--- %s secondes ---" % (time.time() - start_time))

--- 0.2525629997253418 secondes ---


### Tokenization NLTK

In [34]:
start_time = time.time()

pathEN = "hawkingEN.txt"
pathFR = "hawkingFR.txt"
pathRU = "hawkingRU.txt"

textEN = open(pathEN, encoding="utf-8").read()
textFR = open(pathFR, encoding="utf-8").read()
textRU = open(pathRU, encoding="utf-8").read()

docEN_nltk = word_tokenize(textEN)
docFR_nltk = word_tokenize(textFR)
docRU_nltk = word_tokenize(textRU)

print("--- %s secondes ---" % (time.time() - start_time))

--- 0.007911443710327148 secondes ---


### Maintenant allons voir ce qu'on peut extraire des tokens

In [35]:
print(docFR)
for token in docFR:
    print(token.text)

print(len(docFR))

Stephen William Hawking (prononcé [ˈstiːvən ˈhɔːkɪŋ]), né le 8 janvier 1942 à Oxford et mort le 14 mars 2018 à Cambridge, est un physicien théoricien et cosmologiste britannique. Ses livres et ses apparitions publiques ont fait de ce théoricien de renommée mondiale une célébrité.

Depuis l'âge d'une vingtaine d'années, Hawking souffre d'une forme rare — de début précoce et d'évolution lente — de sclérose latérale amyotrophique (SLA) ; sa maladie progresse au fil des ans au point de le laisser presque complètement paralysé. Pourtant, il est professeur de mathématiques à l'université de Cambridge de 1980 à 20091, membre du Gonville and Caius College et chercheur distingué du Perimeter Institute for Theoretical Physics. Il est connu pour ses contributions dans les domaines de la cosmologie et la gravité quantique, en particulier dans le cadre des trous noirs. Son succès est également lié à ses ouvrages de vulgarisation scientifique dans lesquels il discute de ses théories et de la cosmolo

In [39]:
for token in docFR:
    print(token, token.lemma_, token.pos_, token.tag_, token.dep_, spacy.explain(token.pos_), spacy.explain(token.tag_), token.morph)

#NOTE progresse --> lemme : progress
#
#
# Theoretical Theoretical PROPN PROPN nmod proper noun proper noun Gender=Masc|Number=Sing
# Physics Physics PROPN PROPN flat:name proper noun proper noun Gender=Masc|Number=Sing
# cosmologiste cosmologist ADJ ADJ conj adjective adjective Number=Sing

Stephen Stephen PROPN PROPN ROOT proper noun proper noun 
William William PROPN PROPN nmod proper noun proper noun 
Hawking Hawking PROPN PROPN flat:name proper noun proper noun Gender=Masc|Number=Sing
( ( PUNCT PUNCT punct punctuation punctuation 
prononcé prononcer VERB VERB appos verb verb Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part
[ [ PUNCT PUNCT punct punctuation punctuation 
ˈstiːvən ˈstiːvən NOUN NOUN ROOT noun noun Gender=Masc|Number=Sing
ˈhɔːkɪŋ ˈhɔːkɪŋ ADJ ADJ amod adjective adjective 
] ] PUNCT PUNCT punct punctuation punctuation 
) ) PUNCT PUNCT punct punctuation punctuation 
, , PUNCT PUNCT punct punctuation punctuation 
né naître VERB VERB ROOT verb verb Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part
le le DET DET det determiner determiner Definite=Def|Gender=Masc|Number=Sing|PronType=Art
8 8 NUM NUM obl:mod numeral numeral NumType=Card
janvier janvier NOUN NOUN nmod noun noun Gender=Masc|Number=Sing
1942 1942 NUM NUM nmod numeral numeral NumType=Card
à à ADP ADP 

In [40]:
for token in docEN:
        print(token, token.lemma_, token.pos_, token.tag_, token.dep_, spacy.explain(token.pos_), spacy.explain(token.tag_), token.morph)


Stephen Stephen PROPN NNP compound proper noun noun, proper singular NounType=Prop|Number=Sing
William William PROPN NNP compound proper noun noun, proper singular NounType=Prop|Number=Sing
Hawking Hawking PROPN NNP compound proper noun noun, proper singular NounType=Prop|Number=Sing
CH CH PROPN NNP compound proper noun noun, proper singular NounType=Prop|Number=Sing
CBE CBE PROPN NNP compound proper noun noun, proper singular NounType=Prop|Number=Sing
FRS FRS PROPN NNP compound proper noun noun, proper singular NounType=Prop|Number=Sing
FRSA FRSA PROPN NNP nsubj proper noun noun, proper singular NounType=Prop|Number=Sing
( ( PUNCT -LRB- punct punctuation left round bracket PunctSide=Ini|PunctType=Brck
8 8 NUM CD appos numeral cardinal number NumType=Card
January January PROPN NNP npadvmod proper noun noun, proper singular NounType=Prop|Number=Sing
1942 1942 NUM CD nummod numeral cardinal number NumType=Card
– – PUNCT : punct punctuation punctuation mark, colon or ellipsis 
14 14 NUM C

the the DET DT det determiner determiner Definite=Def|PronType=Art
BBC BBC PROPN NNP poss proper noun noun, proper singular NounType=Prop|Number=Sing
's 's PART POS case particle possessive ending 
poll poll NOUN NN pobj noun noun, singular or mass Number=Sing
of of ADP IN prep adposition conjunction, subordinating or preposition 
the the DET DT det determiner determiner Definite=Def|PronType=Art
100 100 NUM CD nummod numeral cardinal number NumType=Card
Greatest Greatest PROPN NNP compound proper noun noun, proper singular NounType=Prop|Number=Sing
Britons Britons PROPN NNPS pobj proper noun noun, proper plural NounType=Prop|Number=Plur
. . PUNCT . punct punctuation punctuation mark, sentence closer PunctType=Peri
He he PRON PRP nsubj pronoun pronoun, personal Case=Nom|Gender=Masc|Number=Sing|Person=3|PronType=Prs
died die VERB VBD ROOT verb verb, past tense Tense=Past|VerbForm=Fin
on on ADP IN prep adposition conjunction, subordinating or preposition 
14 14 NUM CD nummod numeral card

In [41]:
for token in docRU:
        print(token, token.lemma_, token.pos_, token.tag_, token.dep_, spacy.explain(token.pos_), spacy.explain(token.tag_), token.morph)


# Хо́кинг хо́кинг X X appos other other Foreign=Yes (Hawking) 
# протяжении протяжение NOUN NOUN obl noun noun Animacy=Inan|Case=Loc|Gender=Neut|Number=Sing


Сти́вен Сти́вен PUNCT PUNCT punct punctuation punctuation 
Уи́льям уи́льям PROPN PROPN ROOT proper noun proper noun Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
Хо́кинг хо́кинг X X appos other other Foreign=Yes
( ( PUNCT PUNCT punct punctuation punctuation 
англ англ ADJ ADJ amod adjective adjective Case=Nom|Degree=Pos|Gender=Neut|Number=Sing
. . PUNCT PUNCT punct punctuation punctuation 
Stephen stephen X X appos other other Foreign=Yes
William william X X flat:foreign other other Foreign=Yes
Hawking hawking X X flat:foreign other other Foreign=Yes
; ; PUNCT PUNCT punct punctuation punctuation 
8 8 ADJ ADJ nmod adjective adjective 
января январь NOUN NOUN flat noun noun Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
1942 1942 ADJ ADJ flat adjective adjective 
, , PUNCT PUNCT punct punctuation punctuation 
Оксфорд оксфорд PROPN PROPN nsubj proper noun proper noun Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
, , PUNCT PUNCT punct punctuation punctuation 
Великобритания великобритания P

In [43]:
for token in docFR:
    print(token, token.dep_, token.head.text) #Head = gouvernor 

[token.dep_ for token in docFR]


Stephen ROOT Stephen
William nmod Stephen
Hawking flat:name Stephen
( punct Stephen
prononcé appos Stephen
[ punct Stephen
ˈstiːvən ROOT ˈstiːvən
ˈhɔːkɪŋ amod ˈstiːvən
] punct ˈstiːvən
) punct né
, punct né
né ROOT né
le det 8
8 obl:mod né
janvier nmod 8
1942 nmod janvier
à case Oxford
Oxford obl:arg né
et cc mort
mort conj né
le det 14
14 obl:mod né
mars nmod 14
2018 nmod mars
à case Cambridge
Cambridge obl:arg né
, punct physicien
est cop physicien
un det physicien
physicien conj Cambridge
théoricien amod physicien
et cc cosmologiste
cosmologiste conj Cambridge
britannique xcomp cosmologiste
. punct né
Ses det livres
livres nsubj fait
et cc apparitions
ses det apparitions
apparitions conj livres
publiques amod apparitions
ont aux:tense fait
fait ROOT fait
de case théoricien
ce det théoricien
théoricien obl:arg fait
de case renommée
renommée nmod théoricien
mondiale amod renommée
une det célébrité
célébrité obj fait
. punct fait


 cc souffre
Depuis case âge
l' det âge
âge obl:mod sou

['ROOT',
 'nmod',
 'flat:name',
 'punct',
 'appos',
 'punct',
 'ROOT',
 'amod',
 'punct',
 'punct',
 'punct',
 'ROOT',
 'det',
 'obl:mod',
 'nmod',
 'nmod',
 'case',
 'obl:arg',
 'cc',
 'conj',
 'det',
 'obl:mod',
 'nmod',
 'nmod',
 'case',
 'obl:arg',
 'punct',
 'cop',
 'det',
 'conj',
 'amod',
 'cc',
 'conj',
 'xcomp',
 'punct',
 'det',
 'nsubj',
 'cc',
 'det',
 'conj',
 'amod',
 'aux:tense',
 'ROOT',
 'case',
 'det',
 'obl:arg',
 'case',
 'nmod',
 'amod',
 'det',
 'obj',
 'punct',
 'cc',
 'case',
 'det',
 'obl:mod',
 'case',
 'det',
 'nmod',
 'case',
 'nmod',
 'punct',
 'nsubj',
 'ROOT',
 'case',
 'det',
 'obl:arg',
 'amod',
 'ROOT',
 'case',
 'nmod',
 'amod',
 'cc',
 'case',
 'conj',
 'amod',
 'punct',
 'case',
 'nmod',
 'amod',
 'amod',
 'punct',
 'appos',
 'punct',
 'punct',
 'det',
 'nsubj',
 'amod',
 'case',
 'nmod',
 'case',
 'nmod',
 'case',
 'nmod',
 'mark',
 'obj',
 'aux:tense',
 'advmod',
 'advmod',
 'ROOT',
 'punct',
 'advmod',
 'punct',
 'expl:subj',
 'cop',
 'ROOT',
 'c

In [48]:
from spacy import displacy

start_time = time.time()
displacy.render(docFR, style="dep")
print("--- %s secondes ---" % (time.time() - start_time))

--- 0.010912656784057617 secondes ---


Toutes les possibilités de patterns sont disponibles ici : 
    https://spacy.io/usage/rule-based-matching
        

In [55]:
from spacy.matcher import Matcher

matcher = Matcher(nlp_fr.vocab)
pattern=[{"POS":"NUM"}, {"POS":"NOUN"}, {"POS":"NUM"}]

matcher.add("Date", [pattern])

matches=matcher(docFR)

for match_id, start, end in matches:
    string_id = nlp_fr.vocab.strings[match_id]  # Get string representation
    span = docFR[start:end]  # The matched span
    print("Match ID : {} -- String ID : {} -- Début : {} -- Fin : {} \n-- Texte match : {}".format(match_id, string_id, start, end, span.text))

Match ID : 6257230598435404803 -- String ID : Date -- Début : 13 -- Fin : 16 
-- Texte match : 8 janvier 1942
Match ID : 6257230598435404803 -- String ID : Date -- Début : 21 -- Fin : 24 
-- Texte match : 14 mars 2018


In [60]:
matcher = Matcher(nlp.vocab)
pattern=[{"POS":"NUM"}, {"POS":"PROPN"}, {"POS":"NUM"}]

matcher.add("Date", [pattern])

matches=matcher(docEN)

for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = docEN[start:end]  # The matched span
    print("Match ID : {} -- String ID : {} -- Début : {} -- Fin : {} \n-- Texte match : {}".format(match_id, string_id, start, end, span.text))

Match ID : 6257230598435404803 -- String ID : Date -- Début : 8 -- Fin : 11 
-- Texte match : 8 January 1942
Match ID : 6257230598435404803 -- String ID : Date -- Début : 12 -- Fin : 15 
-- Texte match : 14 March 2018
Match ID : 6257230598435404803 -- String ID : Date -- Début : 423 -- Fin : 426 
-- Texte match : 14 March 2018


In [63]:
matcher = Matcher(nlp_ru.vocab)
pattern=[{"POS":"ADJ"}, {"POS":"NOUN"}, {"POS":"ADJ"}]

matcher.add("Date", [pattern])

matches=matcher(docRU)

for match_id, start, end in matches:
    string_id = nlp_ru.vocab.strings[match_id]  
    span = docRU[start:end]  
    print("Match ID : {} -- String ID : {} -- Début : {} -- Fin : {} \n-- Texte match : {}".format(match_id, string_id, start, end, span.text))

Match ID : 6257230598435404803 -- String ID : Date -- Début : 10 -- Fin : 13 
-- Texte match : 8 января 1942
Match ID : 6257230598435404803 -- String ID : Date -- Début : 18 -- Fin : 21 
-- Texte match : 14 марта 2018
Match ID : 6257230598435404803 -- String ID : Date -- Début : 43 -- Fin : 46 
-- Texte match : теоретической космологии Кембриджского
Match ID : 6257230598435404803 -- String ID : Date -- Début : 104 -- Fin : 107 
-- Texte match : многомировую интерпретацию квантовой
Match ID : 6257230598435404803 -- String ID : Date -- Début : 112 -- Fin : 115 
-- Texte match : почётным членом Королевского
Match ID : 6257230598435404803 -- String ID : Date -- Début : 118 -- Fin : 121 
-- Texte match : пожизненным членом Папской
Match ID : 6257230598435404803 -- String ID : Date -- Début : 271 -- Fin : 274 
-- Texte match : 14 марта 2018


In [49]:
start_time = time.time()
displacy.render(docFR, style="ent")
print("--- %s secondes ---" % (time.time() - start_time))

--- 0.00991964340209961 secondes ---


In [50]:
start_time = time.time()
displacy.render(docEN, style="ent")
print("--- %s secondes ---" % (time.time() - start_time))

--- 0.04662346839904785 secondes ---


In [128]:
text = "Orange, Free, Bouygues Telecom et SFR sont des acteurs majeurs de la téléphonie en France. Orange Mécanique est un un film de Stanley Kubrick. De quelle couleur est cette carte ? Orange."
doc = nlp_fr(text)

start_time = time.time()
displacy.render(doc, style="ent")
print("--- %s secondes ---" % (time.time() - start_time))

--- 0.03670454025268555 secondes ---


In [102]:
[chunk.text for chunk in docEN.noun_chunks]
#On extraie les groupes nominaux

['Stephen William Hawking CH CBE FRS FRSA',
 '14 March',
 'an English theoretical physicist',
 'cosmologist',
 'author',
 'who',
 'director',
 'research',
 'the Centre',
 'Theoretical Cosmology',
 'the University',
 'Cambridge',
 'the time',
 'his death',
 'He',
 'the Lucasian Professor',
 'Mathematics',
 'the University',
 'Cambridge',
 'Oxford',
 'a family',
 'doctors',
 'He',
 'his university education',
 'University College',
 'Oxford',
 'October',
 'the age',
 'he',
 '(Hons',
 'physics',
 'He',
 'his graduate work',
 'Trinity Hall',
 'October',
 'he',
 'his PhD degree',
 'applied mathematics',
 'theoretical physics',
 'general relativity',
 'cosmology',
 'March',
 'an early-onset slow-progressing form',
 'motor neurone disease',
 'him',
 'the decades',
 'the loss',
 'his speech',
 'he',
 'a speech-generating device',
 'use',
 'a handheld switch',
 'a single cheek muscle',
 "Hawking's scientific works",
 'a collaboration',
 'Roger Penrose',
 'gravitational singularity theorems',
 '

In [124]:

exEnt = (nlp_fr("Fb est un réseau social fondé par Mark Zuckerberg (âgé de 20 ans alors) avec ses camarades de l'université de Harvard (États-Unis). Il est accessible à tous depuis septembre 2006."))

print("Token  --  indexDeb  --  IndexFin  --  Etiq.")
print("--"*30)
for e in exEnt.ents: 
    print("{} --  {}  --  {}  --  {}".format(e.text, e.start_char, e.end_char, e.label_, spacy.explain(e.label_)))
    
displacy.render(exEnt, style="ent")


Token  --  indexDeb  --  IndexFin  --  Etiq.
------------------------------------------------------------
Mark Zuckerberg --  34  --  49  --  PER
université de Harvard --  96  --  117  --  ORG
États-Unis --  119  --  129  --  LOC


In [113]:
from spacy.tokens import Span

Fb_entite = Span(exEnt, 0, 1, label="ORG")
sept_entite = Span(exEnt,33,36, label="DATE")
exEnt.ents = list(exEnt.ents)+[Fb_entite]+[sept_entite]

print("Token  --  indexDeb  --  IndexFin  --  Etiq.")
print("--"*30)
for e in exEnt.ents: 
    print("{} --  {}  --  {}  --  {}".format(e.text, e.start_char, e.end_char, e.label_, spacy.explain(e.label_)))
    
displacy.render(exEnt, style="ent")

Token  --  indexDeb  --  IndexFin  --  Etiq.
------------------------------------------------------------
Fb --  0  --  2  --  ORG
Mark Zuckerberg --  34  --  49  --  PER
université de Harvard --  95  --  116  --  ORG
États-Unis --  118  --  128  --  LOC
septembre 2006. --  163  --  178  --  DATE


### Similarités entre vecteurs. 

Attention cependant, tous les modèles ne sont pas adaptés à cette manipulation et les résultats pourraient ne pas être pertinents. Préférez les modèles lg (large) pour ça


In [65]:
nlp_vec = spacy.load("en_core_web_lg")

ex01 = nlp_vec("A nice appartment")
ex02 = nlp_vec("A beautiful house")

ex01.similarity(ex02)

0.7952007053483752

In [67]:
ex03 = nlp_vec("I was born in France")
ex04 = nlp_vec("Her name is Francesca")

ex03.similarity(ex04)

0.599905303989377