### NLP in French using Spacy

Le traitement automatique du Langage Naturel (TALN/TLN) est un des domaines de recherche les plus actifs en science des données actuellement. 

![](SpaCy_logo.png)

#### French Model
+ pip install spacy
+ python -m spacy download fr_core_news_sm
+ pip install spacy-lefff
    - based on Lefff : https://hal.inria.fr/inria-00521242/
            
            
#### Resources
+ The WOLF (Wordnet Libre du Français, Free French Wordnet) is a free semantic lexical resource (wordnet) for French.
    + http://pauillac.inria.fr/~sagot/index.html#wolf

### Terminologie
+ Tokenisation
+ L’étiquetage morpho-syntaxique/Part-of-Speech(POS)
+ extraction des entités nommées depuis un texte
+ Embedding par mot
+ classification de texte
+ analyse d’opinion/sentiment
+ prédiction du prochain mot sur smartphone


#### Basic Terms
+ Tokenization: Segmenting text into words, punctuations marks etc.
+ Part-of-speech: (POS) Tagging Assigning word types to tokens, like verb or noun.
+ Dependency Parsing: Assigning syntactic dependency labels, describing the relations between individual tokens, like subject or object.
+ Lemmatization: Assigning the base forms of words. For example, the lemma of "was" is "be", and the lemma of "rats" is "rat".
+ Named Entity Recognition (NER): Labelling named "real-world" objects, like persons, companies or locations.
+ Similarity: Comparing words, text spans and documents and how similar they are to each other.
+ Sentence Boundary Detection (SBD): Finding and segmenting individual sentences.
+ Text Classification: Assigning categories or labels to a whole document, or parts of a document.
+ Rule-based Matching: Finding sequences of tokens based on their texts and linguistic annotations, similar to regular expressions.
+ Training: Updating and improving a statistical model's predictions.
+ Serialization: Saving objects to files or byte strings.

In [2]:
# Load Pkgs
import spacy

In [3]:
# Load Our Model & NLP(TALN) Object
nlp = spacy.load('fr_core_news_sm')

![](BehindSpacy.jpg)

In [4]:
# Method/Attr
dir(nlp)

['Defaults',
 '__call__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_format_docs_and_golds',
 '_meta',
 '_multiprocessing_pipe',
 '_optimizer',
 '_path',
 'add_pipe',
 'begin_training',
 'create_pipe',
 'disable_pipes',
 'entity',
 'evaluate',
 'factories',
 'from_bytes',
 'from_disk',
 'get_pipe',
 'has_pipe',
 'lang',
 'linker',
 'make_doc',
 'matcher',
 'max_length',
 'meta',
 'parser',
 'path',
 'pipe',
 'pipe_factories',
 'pipe_labels',
 'pipe_names',
 'pipeline',
 'preprocess_gold',
 'rehearse',
 'remove_pipe',
 'rename_pipe',
 'replace_pipe',
 'resume_training',
 'tagger',
 'tensorizer',
 'to_bytes',
 'to_disk',
 'tokenizer',
 'update',
 'use_params',
 'v

In [1]:
url = "https://www.france24.com/fr/rss"

In [5]:
# Fetch Info From RSS
# pip  install feedparser
import feedparser

In [6]:
f = feedparser.parse(url)

In [7]:
f.keys()

dict_keys(['bozo', 'entries', 'feed', 'headers', 'href', 'status', 'encoding', 'version', 'namespaces'])

In [9]:
f.entries[0]['title']

'Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement'

In [12]:
ex1 = f.entries[0]['title']
ex2 = f.entries[1]['summary']

In [13]:
ex2

'L’arrêt brutal des liaisons entre le Royaume-Uni et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant. Reportage.'

#### Tokenisation
+ La tokenisation cherche à transformer un texte en une série de tokens individuels.
+ La tokenisation du mot
+ Tokenisation par phrases

In [14]:
docx = nlp(ex1)

In [16]:
ex1

'Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement'

In [15]:
# WOrd Tokenization/
for token in docx:
    print(token.text)

Alexeï
Navalny
dit
avoir
piégé
un
agent
russe
impliqué
dans
son
empoisonnement


In [17]:
ex3 = "J'aime du lait"

In [18]:
docx3 = nlp(ex3)

In [19]:
for token in docx3:
    print(token.text)

J'
aime
du
lait


In [20]:
# Word Info Stats
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [25]:
for token in docx:
    print((token.text,token.shape_,token.is_stop,token.is_alpha,token.is_punct))

('Alexeï', 'Xxxxx', False, True, False)
('Navalny', 'Xxxxx', False, True, False)
('dit', 'xxx', True, True, False)
('avoir', 'xxxx', True, True, False)
('piégé', 'xxxx', False, True, False)
('un', 'xx', True, True, False)
('agent', 'xxxx', False, True, False)
('russe', 'xxxx', False, True, False)
('impliqué', 'xxxx', False, True, False)
('dans', 'xxxx', True, True, False)
('son', 'xxx', True, True, False)
('empoisonnement', 'xxxx', False, True, False)


### Tokenisation par phrases

In [26]:
ex2

'L’arrêt brutal des liaisons entre le Royaume-Uni et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant. Reportage.'

In [27]:
docx2 = nlp(ex2)

In [28]:
type(docx2)

spacy.tokens.doc.Doc

In [31]:
# Sentence Tokenisation
for num,sent in enumerate(docx2.sents,start=1):
    print(f"{num}:{sent}")

1:L’arrêt brutal des liaisons entre le Royaume-Uni
2:et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant.
3:Reportage.


In [None]:
#### Lemmatisation & Stemming

In [33]:
ex1

'Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement'

In [34]:
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [36]:
for token in docx:
    print((token.text,token.lemma_))

('Alexeï', 'Alexeï')
('Navalny', 'Navalny')
('dit', 'dire')
('avoir', 'avoir')
('piégé', 'piéger')
('un', 'un')
('agent', 'agent')
('russe', 'russe')
('impliqué', 'impliquer')
('dans', 'dans')
('son', 'son')
('empoisonnement', 'empoisonnement')


In [37]:
ex3

"J'aime du lait"

In [38]:
for token in docx3:
    print((token.text,token.lemma_))

("J'", 'je')
('aime', 'aime')
('du', 'de')
('lait', 'lait')


#### L’étiquetage morpho-syntaxique/Part-of-Speech(POS)
+ Il essaye d’attribuer une étiquette à chaque mot d’une phrase mentionnant la foncextionnalité grammaticale d’un mot 
+ (Nom propre, adjectif, déterminant…).



In [39]:
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [42]:
for token in docx:
    print(token.text,token.pos_,token.tag_)

Alexeï PROPN PROPN__Gender=Masc|Number=Sing
Navalny PROPN PROPN__Gender=Masc|Number=Sing
dit VERB VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
avoir AUX AUX__VerbForm=Inf
piégé VERB VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part
un DET DET__Definite=Ind|Gender=Masc|Number=Sing|PronType=Art
agent NOUN NOUN__Gender=Masc|Number=Sing
russe VERB VERB__Gender=Fem|Number=Sing|Tense=Past|VerbForm=Part
impliqué VERB VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part
dans ADP ADP
son DET DET__Number=Sing|Poss=Yes
empoisonnement NOUN NOUN__Gender=Masc|Number=Sing


In [45]:
for token in docx:
    print((token.text,token.tag_))

('Alexeï', 'PROPN__Gender=Masc|Number=Sing')
('Navalny', 'PROPN__Gender=Masc|Number=Sing')
('dit', 'VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin')
('avoir', 'AUX__VerbForm=Inf')
('piégé', 'VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part')
('un', 'DET__Definite=Ind|Gender=Masc|Number=Sing|PronType=Art')
('agent', 'NOUN__Gender=Masc|Number=Sing')
('russe', 'VERB__Gender=Fem|Number=Sing|Tense=Past|VerbForm=Part')
('impliqué', 'VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part')
('dans', 'ADP')
('son', 'DET__Number=Sing|Poss=Yes')
('empoisonnement', 'NOUN__Gender=Masc|Number=Sing')


In [46]:
docx3

J'aime du lait

In [47]:
for token in docx3:
    print(token.text,token.pos_,token.tag_)

J' PRON PRON__Number=Sing|Person=1
aime VERB VERB__Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin
du DET ADP_DET__Definite=Def|Gender=Masc|Number=Sing|PronType=Art
lait NOUN NOUN__Gender=Masc|Number=Sing


In [None]:
# Visualisation Des Dep

In [48]:
from spacy import displacy

In [49]:
displacy.render(docx,style='dep',jupyter=True)

In [50]:
docx3

J'aime du lait

In [51]:
displacy.render(docx3,style='dep',jupyter=True)

### Reconnaissance d’entités nommées (NER)
- On cherche à détecter les entités telles que des personnes, des entreprises ou des lieux dans un texte.

In [53]:
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [55]:
for entity in docx.ents:
    print((entity.text,entity.label_))

('Alexeï Navalny', 'PER')


In [56]:
# Explain
spacy.explain('PER')

'Named person or family.'

In [57]:
docx2

L’arrêt brutal des liaisons entre le Royaume-Uni et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant. Reportage.

In [58]:
for entity in docx2.ents:
    print((entity.text,entity.label_))

('Royaume-Uni', 'LOC')
('Douvres', 'LOC')
('Reportage', 'LOC')


In [59]:
# Visualize Entities
displacy.render(docx2,style='ent',jupyter=True)

In [None]:
### Noun Chunk

In [60]:
ex2

'L’arrêt brutal des liaisons entre le Royaume-Uni et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant. Reportage.'

In [61]:
docx2 = nlp(ex2)

In [62]:
for noun in docx2.noun_chunks:
    print(noun)

L’arrêt brutal des liaisons entre le Royaume-Uni
et le continent européen
des dizaines de poids lourds
de Douvres
Reportage.


In [63]:
# Root Noun
for noun in docx2.noun_chunks:
    print(noun.root.text)

L’
continent
dizaines
Douvres
Reportage


#### Similarité entre phrases (Similarity)

In [64]:
d1 = nlp("La femme")
d2 = nlp("La fille")

In [65]:
d1.similarity(d2)

  """Entry point for launching an IPython kernel.


0.9420618146233994

In [66]:
d3 = nlp("Le chat")

In [67]:
d1.similarity(d3)

  """Entry point for launching an IPython kernel.


0.27243440074080755

#### Word Embeddings (Embedding par mot)

In [68]:
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [69]:
type(docx)

spacy.tokens.doc.Doc

In [71]:
for word in docx:
    print(word.text,word.vector)

Alexeï [-0.57801384 -9.499393    6.270409   -6.612452   -9.532782   -3.754823
  4.102013   -1.7296364   0.42197883  2.8682342  -1.6353197   2.040993
  0.08148438 -0.10193264  1.9663248  -1.9154917  -4.235216   -5.019513
 -2.4805348   0.78011453  6.3478465  -1.3540419  -3.7018702   7.0702095
  2.7497792  -2.9013333  -2.0397964  -1.7619114  -0.592998    2.0745897
 -1.4060761  -4.2036858   4.9323816  -3.0229053  13.404644   -1.0339522
  5.174839    1.5939039   0.47620964  2.111621    3.4290142   8.318858
  0.26394862 -3.650488   -2.117982   -4.6383986  -0.02334848  2.209282
  7.967528    0.7236385   1.8033189  -6.1035995  -4.242278   -3.9140515
 -7.211985    2.8593493  -4.413377   -7.435608   -2.8398836   8.130455
 -7.570708    7.567334    2.1332946  -4.113237    1.9508309  -3.8286676
  5.0504127   2.4723759   0.9966483   2.024271   -3.0935593   3.7530835
 -0.41364563  1.9015231  -4.546221    2.6086473   0.15394098 -4.6088104
  0.32673234  3.4968317   1.7668386  -2.071981   -5.866379    1

In [None]:
#### Removing Stopword
#### Methods
+ Spacy
+ NLK
+ Neattext

In [None]:
# Method 1 :Utilise Spacy

In [74]:
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [75]:
for token in docx:
    print(token.text,token.is_stop)

Alexeï False
Navalny False
dit True
avoir True
piégé False
un True
agent False
russe False
impliqué False
dans True
son True
empoisonnement False


In [76]:
for token in docx:
    if token.is_stop != True:
        print(token.text)

Alexeï
Navalny
piégé
agent
russe
impliqué
empoisonnement


In [77]:
non_stopwords = [token.text for token in docx if token.is_stop != True]

In [78]:
no_stopwords

['Alexeï', 'Navalny', 'piégé', 'agent', 'russe', 'impliqué', 'empoisonnement']

In [None]:
# Using Neattext
# pip install neattext

In [80]:
# Load Text Cleaning Pkg
import neattext as nt
import neattext.functions as nfx

In [81]:
# OOP
d = nt.TextFrame(ex1)

In [82]:
d.text

'Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement'

In [84]:
d.remove_stopwords(lang='fr').text

'Alexeï Navalny piégé agent russe impliqué empoisonnement'

In [85]:
# MOP
nfx.remove_stopwords(ex1,lang='fr')

'Alexeï Navalny piégé agent russe impliqué empoisonnement'