# AVANT PROPOS

Avant de commencer, on installe Spacy la librairie via pip par exemple. 

Spacy propose de nombreux modèles en différentes langues qui nous permettront de travailler sur nos corpus. Vous pourrez trouver les modèles [ici](https://spacy.io/usage/models). 

Spacy a l'avantage de proposer une multitude d'outils utile pour le traitement automatique de la langue, assez performant et en plus flexible. 

Ce Notebook a pour but de présenter quelques fonctionnalités simples puis de complexifier nos chaînes de traitement afin de démontrer de la puissance de Spacy

### Import et modèles

Spacy propose une multitude de langues (60 au total), dans un premier temps, nous utiliserons le modèle [_"en_core_web_sm"_](https://spacy.io/models/en) pour l'anglais

`English pipeline optimized for CPU. Components: tok2vec, tagger, parser, senter, ner, attribute_ruler, lemmatizer.`



In [2]:
import spacy

nlp = spacy.load("en_core_web_sm")

### Pré-traitement de nos textes

Nous travaillons sur un extrait de _Great Expectations_ par __Charles Dickens__.

#### Etape 0. Ouverture fichier

On affiche les tokens, grace à \*.token. Ici, le doc (```dickens_doc```) est tokénizé comme on peut le voir ici.
Cependant, la tokenization est "personnalisable", nous verrons ça après. 

In [44]:
path = 'dickensExtrait.txt'
dickens_text = open(path).read()
dickens_doc = nlp(dickens_text)

print("Les 10 premiers tokens :\n", dickens_doc[0:10], "\n\n")

print("Liste des tokens détectés :\n")

cpt = 0
for token in dickens_doc:
    print(token.text)
    cpt+=1
    if cpt == 10:
        break

Les 10 premiers tokens :
 A window was raised, and a clear voice demanded 


Liste des tokens détectés :

A
window
was
raised
,
and
a
clear
voice
demanded


Les tokens ont de multiples attributs permettant 
* de renvoyer vrai ou faux à des assertions (is_space, ispunct, is_alpha etc) 
* d\'agir sur le token d'une quelconque manière (set_extension qui ajoute une extension et sa valeur à un Token)
* de renvoyer des informations pertinentes sur le token tels que ses voisins (token.nbor), des informations sur la hiérarchie syntaxique élaborée sous forme d'arbre (Token.children)

[Pour plus d'informations](https://spacy.io/api/token#attributes)

In [45]:
print("Tok\t IdTok\t Alpha?\t Ponct?\t Esp?\t Forme\t Stopword?")
print("-"*60)
for token in dickens_doc:
     print ("{}\t {}\t {}\t {}\t {}\t {}\t {}\t"
            .format(token, token.idx, token.is_alpha, token.is_punct, 
            token.is_space, token.shape_, token.is_stop))

Tok	 IdTok	 Alpha?	 Ponct?	 Esp?	 Forme	 Stopword?
------------------------------------------------------------
A	 0	 True	 False	 False	 X	 True	
window	 2	 True	 False	 False	 xxxx	 False	
was	 9	 True	 False	 False	 xxx	 True	
raised	 13	 True	 False	 False	 xxxx	 False	
,	 19	 False	 True	 False	 ,	 False	
and	 21	 True	 False	 False	 xxx	 True	
a	 25	 True	 False	 False	 x	 True	
clear	 27	 True	 False	 False	 xxxx	 False	
voice	 33	 True	 False	 False	 xxxx	 False	
demanded	 39	 True	 False	 False	 xxxx	 False	
"	 48	 False	 True	 False	 "	 False	
What	 49	 True	 False	 False	 Xxxx	 True	
name	 54	 True	 False	 False	 xxxx	 True	
?	 58	 False	 True	 False	 ?	 False	
"	 59	 False	 True	 False	 "	 False	
To	 61	 True	 False	 False	 Xx	 True	
which	 64	 True	 False	 False	 xxxx	 True	
my	 70	 True	 False	 False	 xx	 True	
conductor	 73	 True	 False	 False	 xxxx	 False	
replied	 83	 True	 False	 False	 xxxx	 False	
,	 90	 False	 True	 False	 ,	 False	

	 91	 False	 False	 True	 
	 Fa

In [46]:
print("token\t lemma_\t norm_\t tag\t pos_\t morph")
for token in dickens_doc:
    print("{}\t {}\t {}\t {}\t {}\t {}\t"
            .format(token, token.lemma_, token.norm_, token.tag_, token.pos_, token.morph))

token	 lemma_	 norm_	 tag	 pos_	 morph
A	 a	 a	 DT	 DET	 Definite=Ind|PronType=Art	
window	 window	 window	 NN	 NOUN	 Number=Sing	
was	 be	 was	 VBD	 AUX	 Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin	
raised	 raise	 raised	 VBN	 VERB	 Aspect=Perf|Tense=Past|VerbForm=Part	
,	 ,	 ,	 ,	 PUNCT	 PunctType=Comm	
and	 and	 and	 CC	 CCONJ	 ConjType=Cmp	
a	 a	 a	 DT	 DET	 Definite=Ind|PronType=Art	
clear	 clear	 clear	 JJ	 ADJ	 Degree=Pos	
voice	 voice	 voice	 NN	 NOUN	 Number=Sing	
demanded	 demand	 demanded	 VBD	 VERB	 Tense=Past|VerbForm=Fin	
"	 "	 "	 ``	 PUNCT	 PunctSide=Ini|PunctType=Quot	
What	 what	 what	 WDT	 DET	 	
name	 name	 name	 NN	 NOUN	 Number=Sing	
?	 ?	 ?	 .	 PUNCT	 PunctType=Peri	
"	 "	 "	 ''	 PUNCT	 PunctSide=Fin|PunctType=Quot	
To	 to	 to	 TO	 PART	 	
which	 which	 which	 WDT	 DET	 	
my	 my	 my	 PRP$	 PRON	 Number=Sing|Person=1|Poss=Yes|PronType=Prs	
conductor	 conductor	 conductor	 NN	 NOUN	 Number=Sing	
replied	 reply	 replied	 VBD	 VERB	 Tense=Past|VerbForm=Fin	


#### Etape 1. Le Tokenizer Spacy

Il est possible de personnaliser le Tokenizer de Spacy en modifiant quelques paramètres :

La démarche est assez complexe mais peut être intéressante selon ce qu'on souhaite traiter. 

Le code qui suit est issu de : https://stackoverflow.com/questions/51012476/spacy-custom-tokenizer-to-include-only-hyphen-words-as-tokens-using-infix-regex

Dans cet exemple, on a redéfinit la manière dont on tokénize de manière à obtenir it's en deux tokens "it" et "'s", et d'obtenir un seul token pour le mot composé "male-dominated"

In [47]:
text = "Note: Since the fourteenth century the practice of “medicine” has become a profession; and more importantly, it\'s a male-dominated profession.'"

textEx = nlp(text)

print ([token.text for token in textEx])

['Note', ':', 'Since', 'the', 'fourteenth', 'century', 'the', 'practice', 'of', '“', 'medicine', '”', 'has', 'become', 'a', 'profession', ';', 'and', 'more', 'importantly', ',', 'it', "'s", 'a', 'male', '-', 'dominated', 'profession', '.', "'"]


In [42]:
import re
import spacy
from spacy.tokenizer import Tokenizer
from spacy.util import compile_prefix_regex, compile_infix_regex, compile_suffix_regex

def custom_tokenizer(nlp):
    infix_re = re.compile(r'''[.\,\?\:\;\...\‘\’\`\“\”\"\'~]''')
    prefix_re = compile_prefix_regex(nlp.Defaults.prefixes)
    suffix_re = compile_suffix_regex(nlp.Defaults.suffixes)

    return Tokenizer(nlp.vocab, prefix_search=prefix_re.search,
                                suffix_search=suffix_re.search,
                                infix_finditer=infix_re.finditer,
                                token_match=None)

nlp2 = spacy.load('en_core_web_sm')
nlp2.tokenizer = custom_tokenizer(nlp)

doc = nlp2(u'Note: Since the fourteenth century the practice of “medicine” has become a profession; and more importantly, it\'s a male-dominated profession.')
[token.text for token in doc]

['Note',
 ':',
 'Since',
 'the',
 'fourteenth',
 'century',
 'the',
 'practice',
 'of',
 '“',
 'medicine',
 '”',
 'has',
 'become',
 'a',
 'profession',
 ';',
 'and',
 'more',
 'importantly',
 ',',
 'it',
 "'s",
 'a',
 'male-dominated',
 'profession',
 '.']

#### Etape 2 : Détection de phrases

On a choisit de découper un extrait. 
De cette simple découpe, on peut constater plusieurs choses qui pourraient être améliorés en modifiant la pipeline. 

1. Voulons-nous considérer les citations comme phrases indépendantes ? 
2. Il serait intéressant de nettoyer les phrases vides. Cependant ceci vient peut-être de notre structure de données de base. 

In [98]:
phrases_dickens = list(dickens_doc.sents)
print("Il y a {} phrases découpées selon Spacy dans mon extrait".format(len(phrases_dickens)))
print("--"*5)

for phrase in phrases_dickens[:10]:
    print(phrase)
    print("--"*5)


Il y a 41 phrases découpées selon Spacy dans mon extrait
----------
A window was raised, and a clear voice demanded "What name?"
----------
To which my conductor replied,
"Pumblechook."
----------
The voice returned, "Quite right," and the window was shut again, and a young lady
came across the court-yard, with keys in her hand.
----------


----------
"This," said Mr. Pumblechook, "is Pip."
----------

"This is Pip, is it?" returned the young lady, who was very pretty and seemed very proud; "come in, Pip."
----------

Mr. Pumblechook was coming in also, when she stopped him with the gate.
----------


----------
"Oh!" she said.
----------
"Did you wish to see Miss Havisham?"
----------


In [97]:
from nltk.tokenize import sent_tokenize

phrases_dickens_nltk = sent_tokenize(dickens_text)

print("Il y a {} phrases découpées selon Spacy dans mon extrait".format(len(phrases_dickens_nltk)))
print("--"*5)

for phrase in phrases_dickens_nltk[:10]:
    print(phrase)
    print("--"*5)

Il y a 39 phrases découpées selon Spacy dans mon extrait
----------
A window was raised, and a clear voice demanded "What name?"
----------
To which my conductor replied,
"Pumblechook."
----------
The voice returned, "Quite right," and the window was shut again, and a young lady
came across the court-yard, with keys in her hand.
----------
"This," said Mr. Pumblechook, "is Pip."
----------
"This is Pip, is it?"
----------
returned the young lady, who was very pretty and seemed very proud; "come in, Pip."
----------
Mr. Pumblechook was coming in also, when she stopped him with the gate.
----------
"Oh!"
----------
she said.
----------
"Did you wish to see Miss Havisham?"
----------


Malgré l'apparition de quelques phrases vides, le tokenizer de phrases de spaCy semble être offrir une tokenization intéressante.

On le voit particulièrement pour la phrase :
`"This is Pip, is it?" returned the young lady, who was very pretty and seemed very proud; "come in, Pip."` tokenizée en une seule phrase par spaCy mais en deux par nltk.

Un post traitement pour supprimer les phrases vides pourrait être intéressant

#### Etape 3 - Stopwords

spaCy propose des listes de stopwords dans différentes langues.
Il peut être intéressant d'observer ces listes et, si besoin, de les retirer de nos textes en pré-traitement. 

Attention, ce n'est pas toujours pertinent de retirer les stopwords.

In [72]:
from spacy.lang.fr.stop_words import STOP_WORDS as fr_stop
from spacy.lang.en.stop_words import STOP_WORDS as en_stop

spacy_stopwords_en = list(en_stop)
spacy_stopwords_fr = list(fr_stop)

print(len(spacy_stopwords_en))
print(len(spacy_stopwords_fr))

print(spacy_stopwords_en[:40])
print("------")
print(spacy_stopwords_fr[:40])

326
487
['anywhere', 'whither', 'those', 'about', 'however', 'via', 'whatever', 'were', 'mine', 'enough', 'although', 'hers', 'she', 'a', 'twenty', 'will', 'upon', 'to', 'off', 'unless', 'their', 'two', 'under', 'perhaps', 'them', 'not', 'eight', 'whose', 'next', 'most', 'elsewhere', 'must', 'again', 'by', 'other', "'ve", 'everyone', 'four', 'side', 'former']
------
['différents', 'via', 'nombreuses', 'leur', 'néanmoins', 'certains', 'apres', 'près', 'toujours', 't’', "quelqu'un", 'parfois', 'treize', 'celles-là', 'dix-sept', 'a', 'retour', 'ayant', 'directement', 'parlent', 'dans', 'entre', 'nouvea', 'dès', 'merci', 'importe', 'ceux', 'lors', 'quand', 'cinquante', 'voici', 'hé', 'aussi', 'suivants', 'aie', 'comme', 'hi', 'donc', 'eux', 'quatre-vingt']


Exemple simple 

In [91]:
nlp = spacy.load('en_core_web_sm')

exemple_en = nlp("My name is Morgann and I like chocolate. I am a french student")

exemple_en_tok = [token.text for token in exemple_en]

exemple_en_nostop = [word for word in exemple_en_tok if not word in spacy_stopwords_en]

print(list(exemple_en))
print(exemple_en_nostop)

[My, name, is, Morgann, and, I, like, chocolate, ., I, am, a, french, student]
['My', 'Morgann', 'I', 'like', 'chocolate', '.', 'I', 'french', 'student']


In [94]:


dickens_tok = [token.text for token in dickens_doc]

dickens_nostop = [word for word in dickens_tok if not word in spacy_stopwords_en]

print(dickens_tok[:50])
print(dickens_nostop[:50])

['A', 'window', 'was', 'raised', ',', 'and', 'a', 'clear', 'voice', 'demanded', '"', 'What', 'name', '?', '"', 'To', 'which', 'my', 'conductor', 'replied', ',', '\n', '"', 'Pumblechook', '.', '"', 'The', 'voice', 'returned', ',', '"', 'Quite', 'right', ',', '"', 'and', 'the', 'window', 'was', 'shut', 'again', ',', 'and', 'a', 'young', 'lady', '\n', 'came', 'across', 'the']
['A', 'window', 'raised', ',', 'clear', 'voice', 'demanded', '"', 'What', '?', '"', 'To', 'conductor', 'replied', ',', '\n', '"', 'Pumblechook', '.', '"', 'The', 'voice', 'returned', ',', '"', 'Quite', 'right', ',', '"', 'window', 'shut', ',', 'young', 'lady', '\n', 'came', 'court', '-', 'yard', ',', 'keys', 'hand', '.', '\n', '"', 'This', ',', '"', 'said', 'Mr.']


Et les stopwords de NLTK ?

In [73]:
import nltk
from nltk.corpus import stopwords

nltk_stopwords_en = list(stopwords.words("english"))
nltk_stopwords_fr = list(stopwords.words("french"))

print(len(nltk_stopwords_en))
print(len(nltk_stopwords_fr))

print(list(nltk_stopwords_en[:40]))
print("------")
print(list(nltk_stopwords_fr[:40]))

179
157
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this']
['au', 'aux', 'avec', 'ce', 'ces', 'dans', 'de', 'des', 'du', 'elle', 'en', 'et', 'eux', 'il', 'ils', 'je', 'la', 'le', 'les', 'leur', 'lui', 'ma', 'mais', 'me', 'même', 'mes', 'moi', 'mon', 'ne', 'nos', 'notre', 'nous', 'on', 'ou', 'par', 'pas', 'pour', 'qu', 'que', 'qui']


In [93]:

exemple_en = "My name is Morgann and I like chocolate. I am a french student"

exemple_en_tok = nltk.word_tokenize(exemple_en)

exemple_en_nostop = [word for word in exemple_en_tok if not word in nltk_stopwords_en]

print(exemple_en)
print(exemple_en_nostop)

My name is Morgann and I like chocolate. I am a french student
['My', 'name', 'Morgann', 'I', 'like', 'chocolate', '.', 'I', 'french', 'student']


On observe que la liste de stopwords de spacy est bien plus fournie. Cependant, on peut débattre de son contenu. Les stopwords de spaCy semblent simplement être sélectionnés parmi les mots ayant le plus d'occurences dans les corpus sélectionnés pour entrainer les modèles de spaCy.

NLTK propose une liste bien moins fournie mais qui semble bien plus pertinente.

#### Etape 4 : La lemmatisation 

Dans cette étape, nous allons nous intéresser aux outils de lemmatisation et de stemming à partir de notre extrait.

_Note : contrairement à NLTK, spaCy ne possède pas de stemmer_

In [104]:
print("Token \t\t Lemme")
for token in dickens_doc:
    print(token, "\t\t",token.lemma_)

Token 		 Lemme
A 		 a
window 		 window
was 		 be
raised 		 raise
, 		 ,
and 		 and
a 		 a
clear 		 clear
voice 		 voice
demanded 		 demand
" 		 "
What 		 what
name 		 name
? 		 ?
" 		 "
To 		 to
which 		 which
my 		 my
conductor 		 conductor
replied 		 reply
, 		 ,

 		 

" 		 "
Pumblechook 		 Pumblechook
. 		 .
" 		 "
The 		 the
voice 		 voice
returned 		 return
, 		 ,
" 		 "
Quite 		 quite
right 		 right
, 		 ,
" 		 "
and 		 and
the 		 the
window 		 window
was 		 be
shut 		 shut
again 		 again
, 		 ,
and 		 and
a 		 a
young 		 young
lady 		 lady

 		 

came 		 come
across 		 across
the 		 the
court 		 court
- 		 -
yard 		 yard
, 		 ,
with 		 with
keys 		 key
in 		 in
her 		 her
hand 		 hand
. 		 .

 		 

" 		 "
This 		 this
, 		 ,
" 		 "
said 		 say
Mr. 		 Mr.
Pumblechook 		 Pumblechook
, 		 ,
" 		 "
is 		 be
Pip 		 Pip
. 		 .
" 		 "

 		 

" 		 "
This 		 this
is 		 be
Pip 		 Pip
, 		 ,
is 		 be
it 		 it
? 		 ?
" 		 "
returned 		 return
the 		 the
young 		 young
lady 		 lady
, 		 ,
w

In [8]:
import io
nlp_fr = spacy.load("fr_core_news_sm")

path = 'hugoExtrait.txt'

hugo_text = open(path, encoding="utf-8").read()
text = ""
hugo_doc = nlp_fr(hugo_text)

print("Token \t\t Lemme")
for token in hugo_doc:
    print(token, "\t\t",token.lemma_)

Token 		 Lemme
Le 		 le
spectacle 		 spectacle
était 		 être
épouvantable 		 épouvantable
et 		 et
charmant 		 charmer
. 		 .
Gavroche 		 Gavroche
, 		 ,
fusillé 		 fusiller
, 		 ,
taquinait 		 taquiner
la 		 le
fusillade 		 fusillade
. 		 .
Il 		 il
avait 		 avoir
l' 		 le
air 		 air
de 		 de
s' 		 se
amuser 		 amuser
beaucoup 		 beaucoup
. 		 .
C' 		 ce
était 		 être
le 		 le
moineau 		 moineau
becquetant 		 becqueter
les 		 le
chasseurs 		 chasseur
. 		 .
Il 		 il
répondait 		 répondre
à 		 à
chaque 		 chaque
décharge 		 décharge
par 		 par
un 		 un
couplet 		 couplet
. 		 .
On 		 on
le 		 le
visait 		 visait
sans 		 sans
cesse 		 cesse
, 		 ,
on 		 on
le 		 le
manquait 		 manquer
toujours 		 toujours
. 		 .
Les 		 le
gardes 		 garde
nationaux 		 national
et 		 et
les 		 le
soldats 		 soldat
riaient 		 rire
en 		 en
l' 		 le
ajustant 		 ajuster
. 		 .
Il 		 il
se 		 se
couchait 		 coucher
, 		 ,
puis 		 puis
se 		 se
redressait 		 redresser
, 		 ,
s' 		 se
effaçait 		 effacer
dans 	

#### Etape 5 : POS tagger

On peut continuer de jouer avec les objets token avec l'étiquettage morpho-syntaxique de ces derniers. 

In [9]:
for token in dickens_doc:
    print("{}\t{}\t{}\t{}\t{}\t".format(token, token.lemma_,token.tag_, token.pos_, spacy.explain(token.tag_)))

NameError: name 'dickens_doc' is not defined

In [112]:
for token in hugo_doc:
    print("{}\t{}\t{}\t{}\t".format(token, token.tag_, token.pos_, spacy.explain(token.tag_), spacy.explain(token.pos_)))

Le	DET	DET	determiner	
spectacle	NOUN	NOUN	noun	
était	AUX	AUX	auxiliary	
épouvantable	ADJ	ADJ	adjective	
et	CCONJ	CCONJ	coordinating conjunction	
charmant	VERB	VERB	verb	
.	PUNCT	PUNCT	punctuation	
Gavroche	PROPN	PROPN	proper noun	
,	PUNCT	PUNCT	punctuation	
fusillé	ADJ	ADJ	adjective	
,	PUNCT	PUNCT	punctuation	
taquinait	VERB	VERB	verb	
la	DET	DET	determiner	
fusillade	NOUN	NOUN	noun	
.	PUNCT	PUNCT	punctuation	
Il	PRON	PRON	pronoun	
avait	VERB	VERB	verb	
l'	DET	DET	determiner	
air	NOUN	NOUN	noun	
de	ADP	ADP	adposition	
s'	PRON	PRON	pronoun	
amuser	VERB	VERB	verb	
beaucoup	ADV	ADV	adverb	
.	PUNCT	PUNCT	punctuation	
C'	PRON	PRON	pronoun	
était	AUX	AUX	auxiliary	
le	DET	DET	determiner	
moineau	NOUN	NOUN	noun	
becquetant	VERB	VERB	verb	
les	DET	DET	determiner	
chasseurs	NOUN	NOUN	noun	
.	PUNCT	PUNCT	punctuation	
Il	PRON	PRON	pronoun	
répondait	VERB	VERB	verb	
à	ADP	ADP	adposition	
chaque	DET	DET	determiner	
décharge	NOUN	NOUN	noun	
par	ADP	ADP	adposition	
un	DET	DET	determiner	
couplet	NO

#### Etape 6 : Visualiser 

spaCy offre la possibilité de visualiser les dépendances

Attention, en lançant la cellule, ça va ouvrir un petit serveur local consultable à l'adresse : http://127.0.0.1:5000 
Il faudra interrompre l'exécution de la cellule pour arrêter le serveur. 

In [14]:
from spacy import displacy

exemple = "La belle ferme la porte"

exemple_doc = nlp_fr(exemple)

displacy.render(exemple_doc, style="dep")

In [15]:
for token in exemple_doc:
    print(token.text, "-->", token.dep_)

La --> det
belle --> amod
ferme --> ROOT
la --> det
porte --> obj


In [125]:
exemple_en = "Shakespeare is like mashed potatoes, you can never get enough of him."

exemple_doc = nlp(exemple_en)

displacy.serve(exemple_doc, style="dep")


Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [9]:
import spacy
from spacy import displacy

path = 'marieCurie.txt'
text = open(path, encoding="utf-8").read()

nlp = spacy.load("fr_core_news_lg")
doc = nlp(text)
displacy.render(doc, style="ent",jupyter=True)

In [8]:
import spacy
from spacy import displacy

path = 'marieCurie_en.txt'
text = open(path, encoding="utf-8").read()

nlp = spacy.load("en_core_web_lg")
doc = nlp(text)
displacy.render(doc, style="ent", jupyter=True)

In [11]:
import spacy
from spacy import displacy

path = 'kasparov_ru.txt'
text = open(path, encoding="utf-8").read()

nlp = spacy.load("ru_core_news_sm")
doc = nlp(text)
displacy.render(doc, style="ent")

In [12]:
print("Token  --  indexDeb  --  IndexFin  --  Etiq.")
print("--"*30)
for e in doc.ents: 
    print("{} --  {}  --  {}  --  {} --  {}".format(e.text, e.start_char, e.end_char, e.label_, spacy.explain(e.label_)))

Token  --  indexDeb  --  IndexFin  --  Etiq.
------------------------------------------------------------
Га́рри Ки́мович Каспа́ров --  0  --  25  --  PER --  Named person or family.
Баку --  81  --  85  --  LOC --  Non-GPE locations, mountain ranges, bodies of water
Азербайджанская ССР --  87  --  106  --  LOC --  Non-GPE locations, mountain ranges, bodies of water
СССР --  108  --  112  --  LOC --  Non-GPE locations, mountain ranges, bodies of water
СССР --  326  --  330  --  LOC --  Non-GPE locations, mountain ranges, bodies of water
СССР --  347  --  351  --  LOC --  Non-GPE locations, mountain ranges, bodies of water
России --  374  --  380  --  LOC --  Non-GPE locations, mountain ranges, bodies of water
СССР --  472  --  476  --  LOC --  Non-GPE locations, mountain ranges, bodies of water
России --  532  --  538  --  LOC --  Non-GPE locations, mountain ranges, bodies of water
Каспаров --  642  --  650  --  PER --  Named person or family.
ФИДЕ --  681  --  685  --  ORG --  Compani

Bien que spaCy offre des possibilités en termes de reconnaissances d'entités nommées, les modèles de bases semblent peu probants et très basiques. 

Il est intéressant donc d'envisager d'entrainer ces modèles avec différents corpus.

On peut également ajouter des entités manuellement.



In [136]:
nlp = spacy.load("fr_core_news_sm")
doc = (nlp("Fb est un réseau social particulièrement populaire en France"))

print("Token  --  indexDeb  --  IndexFin  --  Etiq.")
print("--"*30)
for e in doc.ents: 
    print("{} --  {}  --  {}  --  {}".format(e.text, e.start_char, e.end_char, e.label_, spacy.explain(e.label_)))

Token  --  indexDeb  --  IndexFin  --  Etiq.
------------------------------------------------------------
France --  54  --  60  --  LOC


In [140]:
from spacy.tokens import Span

Fb_entite = Span(doc, 0, 1, label="ORG")
doc.ents = list(doc.ents)+[Fb_entite]

for e in doc.ents: 
    print("{} --  {}  --  {}  --  {}".format(e.text, e.start_char, e.end_char, e.label_, spacy.explain(e.label_)))

Fb --  0  --  2  --  ORG
France --  54  --  60  --  LOC


### Les vecteurs

Les vecteurs correspondent à une manière de représenter les tokens par des chiffres (on les utilise pour entrainer des modèles) et peuvent permettre de comparer des token, des phrases etc.


In [19]:
import spacy

text = "Cats are very cool. Dogs are nice too."
doc = nlp(text)

vector_cats = doc[0]
vector_dogs = doc[4]

#print(vector_cats)
#print(vector_dogs)

print(vector_cats.similarity(vector_dogs))

-0.072669536


  print(vector_cats.similarity(vector_dogs))


In [151]:
nlp = spacy.load("en_core_web_sm")

doc = nlp("Painting and drawing, why?")
token1, token2 = doc[0], doc[2]

# Get the similarity of the tokens "TV" and "books"
similarity = token1.similarity(token2)
print(similarity)

0.3925574


  similarity = token1.similarity(token2)


In [164]:
# Test avec des span

doc = nlp("I really like to watch TV. However i'd rather go to the cinema")

span_TV = doc[3:6]
span_cine = doc[-4:]

similarity = span_cine.similarity(span_TV)

print(similarity)

doc = nlp("This was a great restaurant. Afterwards, we went to a really nice bar.")

# Create spans for "great restaurant" and "really nice bar"
span1 = doc[3:5]
span2 = doc[12:15]

# Get the similarity of the spans
similarityEX = span1.similarity(span2)
print(similarityEX)

0.34619305
0.6904658


  similarity = span_cine.similarity(span_TV)
  similarityEX = span1.similarity(span2)


Code pour exemple présentation

In [17]:
import spacy
from spacy.tokens import Span

text = "Morgann explains how spaCy works"

print(len(text))
print(len(doc))
nlp = spacy.load("en_core_web_sm")
doc = nlp(text)

[(print(ent.text, ent.label_)) for ent in doc.ents]

Spacy_ent = Span(doc, 3, 4, label="LIB")
doc.ents = list(doc.ents)+[Spacy_ent]

[(ent.text, ent.label_) for ent in doc.ents]


32
5
Morgann PERSON


[('Morgann', 'PERSON'), ('spaCy', 'LIB')]

In [16]:
spacy.explain("amod")

'adjectival modifier'

In [22]:
from spacy import displacy


text_fr = "Morgann explains how spaCy works."
nlp = spacy.load("en_core_web_lg")

doc_fr = nlp(text_fr)

displacy.render(doc_fr, style="dep")



In [33]:
import nltk
from nltk import word_tokenize

path = 'marieCurie.txt'
text = open(path, encoding="utf-8").read()
text = "pot-au-feu"

tokensNLTK = word_tokenize(text, language="french")

print(len(tokensNLTK))
print(tokensNLTK)


1
['pot-au-feu']


In [34]:
nlp = spacy.load("fr_core_news_sm")
doc = nlp(text)

print(len(doc))
print(doc.text)
print(type(doc))
for tok in doc:
    print(tok.text)

1
pot-au-feu
<class 'spacy.tokens.doc.Doc'>
pot-au-feu


In [6]:
import spacy

nlp_en = spacy.load("en_core_web_sm")
text = "Hot topics on Twitter: #Life and #Trump"

doc_zh = nlp_en(text)

for tok in doc_zh:
    print(tok)

Hot
topics
on
Twitter
:
#
Life
and
#
Trump


In [7]:
import nltk
from nltk import word_tokenize

tokensNLTK = word_tokenize(text)

print(len(tokensNLTK))
print(tokensNLTK)


10
['Hot', 'topics', 'on', 'Twitter', ':', '#', 'Life', 'and', '#', 'Trump']


In [15]:
import spacy

nlp_en = spacy.load("en_core_web_sm")
text = "We are going to look at some spaCy examples."

doc = nlp_en(text)
print("token\t lemma_\t tag\t pos_\t morph \t explain tag\t explain pos")
for token in doc:
    print("{}\t {}\t {}\t {}\t {}\t {}\t"
            .format(token, token.lemma_, token.tag_, token.pos_, token.morph, spacy.explain(token.tag_)))

token	 lemma_	 tag	 pos_	 morph 	 explain tag	 explain pos
We	 we	 PRP	 PRON	 Case=Nom|Number=Plur|Person=1|PronType=Prs	 pronoun, personal	
are	 be	 VBP	 AUX	 Mood=Ind|Tense=Pres|VerbForm=Fin	 verb, non-3rd person singular present	
going	 go	 VBG	 VERB	 Aspect=Prog|Tense=Pres|VerbForm=Part	 verb, gerund or present participle	
to	 to	 TO	 PART	 	 infinitival "to"	
look	 look	 VB	 VERB	 VerbForm=Inf	 verb, base form	
at	 at	 IN	 ADP	 	 conjunction, subordinating or preposition	
some	 some	 DT	 DET	 	 determiner	
spaCy	 spaCy	 JJR	 ADJ	 Degree=Cmp	 adjective, comparative	
examples	 example	 NNS	 NOUN	 Number=Plur	 noun, plural	
.	 .	 .	 PUNCT	 PunctType=Peri	 punctuation mark, sentence closer	


In [19]:
from spacy import displacy

text = "le tour de France, la tour Eiffel, Bouygues Telecom, Jean-Pierre Pernaut, Game of Thrones, l'Attaque des Titans, le Parisien, Paris, parisien"
nlp_fr = spacy.load("fr_core_news_lg")

doc = nlp_fr(text)

displacy.render(doc, style="ent",jupyter=True)

In [23]:
path = 'marieCurie.txt'
text = open(path, encoding="utf-8").read()

doc = nlp_fr(text)
displacy.render(doc, style="ent",jupyter=True)