### NLP in French using Spacy

Le traitement automatique du Langage Naturel (TALN/TLN) est un des domaines de recherche les plus actifs en science des données actuellement. 

![](https://github.com/Jcharis/Natural-Language-Processing-Tutorials/blob/master/NLP_in_French/SpaCy_logo.png?raw=1)

#### French Model
+ pip install spacy
+ python -m spacy download fr_core_news_sm
+ pip install spacy-lefff
    - based on Lefff : https://hal.inria.fr/inria-00521242/
            
            
#### Resources
+ The WOLF (Wordnet Libre du Français, Free French Wordnet) is a free semantic lexical resource (wordnet) for French.
    + http://pauillac.inria.fr/~sagot/index.html#wolf
    + https://colab.research.google.com/github/Jcharis/Natural-Language-Processing-Tutorials/blob/master/NLP_in_French/NLP%20in%20French.ipynb

### Terminologie
+ Tokenisation
+ L’étiquetage morpho-syntaxique/Part-of-Speech(POS)
+ extraction des entités nommées depuis un texte
+ Embedding par mot
+ classification de texte
+ analyse d’opinion/sentiment
+ prédiction du prochain mot sur smartphone


#### Basic Terms
+ Tokenization: Segmenting text into words, punctuations marks etc.
+ Part-of-speech: (POS) Tagging Assigning word types to tokens, like verb or noun.
+ Dependency Parsing: Assigning syntactic dependency labels, describing the relations between individual tokens, like subject or object.
+ Lemmatization: Assigning the base forms of words. For example, the lemma of "was" is "be", and the lemma of "rats" is "rat".
+ Named Entity Recognition (NER): Labelling named "real-world" objects, like persons, companies or locations.
+ Similarity: Comparing words, text spans and documents and how similar they are to each other.
+ Sentence Boundary Detection (SBD): Finding and segmenting individual sentences.
+ Text Classification: Assigning categories or labels to a whole document, or parts of a document.
+ Rule-based Matching: Finding sequences of tokens based on their texts and linguistic annotations, similar to regular expressions.
+ Training: Updating and improving a statistical model's predictions.
+ Serialization: Saving objects to files or byte strings.

In [1]:
# Load Pkgs
import spacy

In [2]:
# Load Our Model & NLP(TALN) Object
nlp = spacy.load('fr_core_news_sm')

OSError: ignored

![](https://github.com/Jcharis/Natural-Language-Processing-Tutorials/blob/master/NLP_in_French/BehindSpacy.jpg?raw=1)

In [None]:
# Method/Attr
dir(nlp)

['Defaults',
 '__call__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_format_docs_and_golds',
 '_meta',
 '_multiprocessing_pipe',
 '_optimizer',
 '_path',
 'add_pipe',
 'begin_training',
 'create_pipe',
 'disable_pipes',
 'entity',
 'evaluate',
 'factories',
 'from_bytes',
 'from_disk',
 'get_pipe',
 'has_pipe',
 'lang',
 'linker',
 'make_doc',
 'matcher',
 'max_length',
 'meta',
 'parser',
 'path',
 'pipe',
 'pipe_factories',
 'pipe_labels',
 'pipe_names',
 'pipeline',
 'preprocess_gold',
 'rehearse',
 'remove_pipe',
 'rename_pipe',
 'replace_pipe',
 'resume_training',
 'tagger',
 'tensorizer',
 'to_bytes',
 'to_disk',
 'tokenizer',
 'update',
 'use_params',
 'v

In [None]:
url = "https://www.france24.com/fr/rss"

In [None]:
# Fetch Info From RSS
# pip  install feedparser
import feedparser

In [None]:
f = feedparser.parse(url)

In [None]:
f.keys()

dict_keys(['bozo', 'entries', 'feed', 'headers', 'href', 'status', 'encoding', 'version', 'namespaces'])

In [None]:
f.entries[0]['title']

'Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement'

In [None]:
ex1 = f.entries[0]['title']
ex2 = f.entries[1]['summary']

In [None]:
ex2

'L’arrêt brutal des liaisons entre le Royaume-Uni et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant. Reportage.'

#### Tokenisation
+ La tokenisation cherche à transformer un texte en une série de tokens individuels.
+ La tokenisation du mot
+ Tokenisation par phrases

In [None]:
docx = nlp(ex1)

In [None]:
ex1

'Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement'

In [None]:
# WOrd Tokenization/
for token in docx:
    print(token.text)

Alexeï
Navalny
dit
avoir
piégé
un
agent
russe
impliqué
dans
son
empoisonnement


In [None]:
ex3 = "J'aime du lait"

In [None]:
docx3 = nlp(ex3)

In [None]:
for token in docx3:
    print(token.text)

J'
aime
du
lait


In [None]:
# Word Info Stats
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [None]:
for token in docx:
    print((token.text,token.shape_,token.is_stop,token.is_alpha,token.is_punct))

('Alexeï', 'Xxxxx', False, True, False)
('Navalny', 'Xxxxx', False, True, False)
('dit', 'xxx', True, True, False)
('avoir', 'xxxx', True, True, False)
('piégé', 'xxxx', False, True, False)
('un', 'xx', True, True, False)
('agent', 'xxxx', False, True, False)
('russe', 'xxxx', False, True, False)
('impliqué', 'xxxx', False, True, False)
('dans', 'xxxx', True, True, False)
('son', 'xxx', True, True, False)
('empoisonnement', 'xxxx', False, True, False)


### Tokenisation par phrases

In [None]:
ex2

'L’arrêt brutal des liaisons entre le Royaume-Uni et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant. Reportage.'

In [None]:
docx2 = nlp(ex2)

In [None]:
type(docx2)

spacy.tokens.doc.Doc

In [None]:
# Sentence Tokenisation
for num,sent in enumerate(docx2.sents,start=1):
    print(f"{num}:{sent}")

1:L’arrêt brutal des liaisons entre le Royaume-Uni
2:et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant.
3:Reportage.


In [None]:
#### Lemmatisation & Stemming

In [None]:
ex1

'Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement'

In [None]:
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [None]:
for token in docx:
    print((token.text,token.lemma_))

('Alexeï', 'Alexeï')
('Navalny', 'Navalny')
('dit', 'dire')
('avoir', 'avoir')
('piégé', 'piéger')
('un', 'un')
('agent', 'agent')
('russe', 'russe')
('impliqué', 'impliquer')
('dans', 'dans')
('son', 'son')
('empoisonnement', 'empoisonnement')


In [None]:
ex3

"J'aime du lait"

In [None]:
for token in docx3:
    print((token.text,token.lemma_))

("J'", 'je')
('aime', 'aime')
('du', 'de')
('lait', 'lait')


#### L’étiquetage morpho-syntaxique/Part-of-Speech(POS)
+ Il essaye d’attribuer une étiquette à chaque mot d’une phrase mentionnant la foncextionnalité grammaticale d’un mot 
+ (Nom propre, adjectif, déterminant…).



In [None]:
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [None]:
for token in docx:
    print(token.text,token.pos_,token.tag_)

Alexeï PROPN PROPN__Gender=Masc|Number=Sing
Navalny PROPN PROPN__Gender=Masc|Number=Sing
dit VERB VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
avoir AUX AUX__VerbForm=Inf
piégé VERB VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part
un DET DET__Definite=Ind|Gender=Masc|Number=Sing|PronType=Art
agent NOUN NOUN__Gender=Masc|Number=Sing
russe VERB VERB__Gender=Fem|Number=Sing|Tense=Past|VerbForm=Part
impliqué VERB VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part
dans ADP ADP
son DET DET__Number=Sing|Poss=Yes
empoisonnement NOUN NOUN__Gender=Masc|Number=Sing


In [None]:
for token in docx:
    print((token.text,token.tag_))

('Alexeï', 'PROPN__Gender=Masc|Number=Sing')
('Navalny', 'PROPN__Gender=Masc|Number=Sing')
('dit', 'VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin')
('avoir', 'AUX__VerbForm=Inf')
('piégé', 'VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part')
('un', 'DET__Definite=Ind|Gender=Masc|Number=Sing|PronType=Art')
('agent', 'NOUN__Gender=Masc|Number=Sing')
('russe', 'VERB__Gender=Fem|Number=Sing|Tense=Past|VerbForm=Part')
('impliqué', 'VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part')
('dans', 'ADP')
('son', 'DET__Number=Sing|Poss=Yes')
('empoisonnement', 'NOUN__Gender=Masc|Number=Sing')


In [None]:
docx3

J'aime du lait

In [None]:
for token in docx3:
    print(token.text,token.pos_,token.tag_)

J' PRON PRON__Number=Sing|Person=1
aime VERB VERB__Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin
du DET ADP_DET__Definite=Def|Gender=Masc|Number=Sing|PronType=Art
lait NOUN NOUN__Gender=Masc|Number=Sing


In [None]:
# Visualisation Des Dep

In [None]:
from spacy import displacy

In [None]:
displacy.render(docx,style='dep',jupyter=True)

In [None]:
docx3

J'aime du lait

In [None]:
displacy.render(docx3,style='dep',jupyter=True)

### Reconnaissance d’entités nommées (NER)
- On cherche à détecter les entités telles que des personnes, des entreprises ou des lieux dans un texte.

In [None]:
docx

Alexeï Navalny dit avoir piégé un agent russe impliqué dans son empoisonnement

In [None]:
for entity in docx.ents:
    print((entity.text,entity.label_))

('Alexeï Navalny', 'PER')


In [None]:
# Explain
spacy.explain('PER')

'Named person or family.'

In [None]:
docx2

L’arrêt brutal des liaisons entre le Royaume-Uni et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant. Reportage.

In [None]:
for entity in docx2.ents:
    print((entity.text,entity.label_))

('Royaume-Uni', 'LOC')
('Douvres', 'LOC')
('Reportage', 'LOC')


In [None]:
# Visualize Entities
displacy.render(docx2,style='ent',jupyter=True)

In [None]:
### Noun Chunk

In [None]:
ex2

'L’arrêt brutal des liaisons entre le Royaume-Uni et le continent européen a bloqué des dizaines de poids lourds au port de Douvres, désormais transformé en parking géant. Reportage.'

In [None]:
docx2 = nlp(ex2)

In [None]:
for noun in docx2.noun_chunks:
    print(noun)

L’arrêt brutal des liaisons entre le Royaume-Uni
et le continent européen
des dizaines de poids lourds
de Douvres
Reportage.


In [None]:
# Root Noun
for noun in docx2.noun_chunks:
    print(noun.root.text)

L’
continent
dizaines
Douvres
Reportage


#### Similarité entre phrases (Similarity)

In [None]:
d1 = nlp("La femme")
d2 = nlp("La fille")

In [None]:
d1.similarity(d2)

  """Entry point for launching an IPython kernel.


0.9420618146233994

In [None]:
d3 = nlp("Le chat")

In [None]:
d1.similarity(d3)

  """Entry point for launching an IPython kernel.


0.27243440074080755

#### Word Embeddings (Embedding par mot)

In [1]:
docx

NameError: ignored

In [2]:
type(docx)

NameError: ignored

In [None]:
for word in docx:
    print(word.text,word.vector)

In [None]:
#### Removing Stopword
#### Methods
+ Spacy
+ NLK
+ Neattext

In [None]:
# Method 1 :Utilise Spacy

In [None]:
docx

In [None]:
for token in docx:
    print(token.text,token.is_stop)

In [None]:
for token in docx:
    if token.is_stop != True:
        print(token.text)

In [None]:
non_stopwords = [token.text for token in docx if token.is_stop != True]

In [None]:
no_stopwords

In [None]:
# Using Neattext
# pip install neattext

In [None]:
# Load Text Cleaning Pkg
import neattext as nt
import neattext.functions as nfx

In [None]:
# OOP
d = nt.TextFrame(ex1)

In [None]:
d.text

In [None]:
d.remove_stopwords(lang='fr').text

In [None]:
# MOP
nfx.remove_stopwords(ex1,lang='fr')