In [None]:
pip install spacy

### Lancez la commande suitante dans un terminal :
#> python -m spacy download fr_core_news_md

# Chargement de la librairie

- Import the `English` class from `spacy.lang.en`
- Create the `nlp` object avec le constructeur `French`
- Create a `doc` and print its text.

In [None]:
# Import the English language class
from spacy.lang.____ import ____

# Create the nlp object
nlp = ____

# Process a text
doc = nlp("Ceci est une phrase narcissique puisqu'elle "
          "ne parle que d'elle-même.")

# Print the document text
print(____.text)

In [26]:
# Import the English language class
from spacy.lang.fr import French

# Create the nlp object
nlp = French()

# Process a text
doc = nlp("Ceci est une phrase narcissique puisqu'elle "
          "ne parle que d'elle-même.")

# Print the document text
print(doc.text)

Ceci est une phrase narcissique puisqu'elle ne parle que d'elle-même.


**L'objet NLP**

- contains the processing pipeline
- includes language-specific rules for tokenization etc.

**L'objet doc**

Contient un document, c'est-à-dire un ensemble de *tokens*.

# Manipulation d'un objet `Doc`

L'objet `Doc`se manipule comme une liste. 

A l'aide des `[]`:
- Accedez au premier token de doc
- Selectionnez les mots `'est une'` dans une slice
- Selectionnez les mots entre `'est une phrase narcissique'` dans une slice

In [None]:
# A slice of the Doc for 'est une'
est_une = ____
print(est_une.text)

# A slice of the Doc for 'est une phrase narcissique'
est_une_phrase_narcissique = ____
print(est_une_phrase_narcissique.text)

# Attributs lexicaux

In this example, you’ll use spaCy’s `Doc` and `Token` objects, and lexical attributes to find percentages in a text. You’ll be looking for two subsequent tokens: a number and a percent sign.

- Use the `like_num` token attribute to check whether a token in the doc resembles a number.
- Get the token following the current token in the document. The index of the next token in the `doc` is `token.i + 1`.
- Check whether the next token’s text attribute is a percent sign `”%“`.

In [None]:
from spacy.lang.en import English

nlp = English()

# Process the text
doc = nlp(
    "In 1990, more than 60% of people in East Asia were in extreme poverty. "
    "Now less than 4% are."
)

# Iterate over the tokens in the doc
for token in doc:
    # Check if the token resembles a number
    if ____.____:
        # Get the next token in the document
        next_token = ____[____]
        # Check if the next token's text equals "%"
        if next_token.____ == "%":
            print("Percentage found:", token.text)

# Modèles statistiques

**What are statistical models ?**

- Enable spaCy to predict linguistic attributes in context
    - Part-of-speech tags
    - Syntactic dependencies
    - Named entities
- Trained on labeled example texts
- Can be updated with more examples to fine-tune predictions

In [None]:
nlp = spacy.load('fr_core_news_md')

In [None]:
# Process a text
doc = nlp("She ate the pizza")

# Iterate over the tokens
for token in doc:
    # Print the text and the predicted part-of-speech tag
    print(token.text, token.pos_)

In [None]:
text = "Ce jour-là, 25 mars dernier, Pétersbourg fut le théâtre d’une aventure"
    "des plus étranges. Le barbier Ivan Yakovlévitch, domicilié avenue de"
    "l’Ascension (son nom de famille est perdu et son enseigne ne porte que"
    "l’inscription : On pratique aussi les saignées, au-dessous d’un monsieur"
    "à la joue barbouillée de savon), le barbier Ivan Yakovlévitch se réveilla"
    "d’assez bonne heure et perçut une odeur de pain chaud. S’étant mis sur"
    "son séant, il vit que son épouse – personne plutôt respectable et qui"
    "prisait fort le café – défournait des pains tout frais cuits."
    " « Aujourd’hui, Prascovie Ossipovna, je ne prendrai pas de café, déclara"
    "Ivan Yakovlévitch ; je préfère grignoter un bon pain chaud avec de la"
    "ciboule. » À la vérité, Ivan Yakovlévitch aurait bien voulu et pain et"
    "café, mais il jugeait impossible de demander les deux choses à la fois,"
    """ Prascovie Ossipovna ne tolérant pas de semblables caprices. « Tant"
    "mieux, se dit la respectable épouse en jetant un pain sur la table. Que"
    "mon nigaud s’empiffre de pain ! Il me restera davantage de café. »"
    " Respectueux des convenances, Ivan Yakovlévitch passa son habit"
    "par-dessus sa chemise et se mit en devoir de déjeuner. Il posa devant"
    "lui une pincée de sel, nettoya deux oignons, prit son couteau et, la"
    "mine grave, coupa son pain en deux. Il aperçut alors, à sa grande"
    "surprise, un objet blanchâtre au beau milieu ; il le tâta"
    "précautionneusement du couteau, le palpa du doigt… « Qu’est-ce que cela"
    "peut bien être ? » se dit-il en éprouvant de la résistance. Il fourra"
    "alors ses doigts dans le pain et en retira… un nez ! Les bras lui en"
    "tombèrent."

In [1]:
# python -m spacy download fr
# python -m spacy download fr_core_news_md

import spacy
from spacy import displacy

In [2]:
# TF-IDF
# Stop words
# Lemmatisation : regroupement des mots d une même famille dans un texte, afin de réduire ces mots à leur forme canonique (le lemme), comme petit, petite, petits, et petites.
# Racinisation (stemming) : regroupement des mots ayant une racine commune et appartenant au même champ lexical.
# Reconnaissance d entités nommées : détermination dans un texte des noms propres, tels que des personnes ou des endroits, ainsi que les quantités, valeurs, ou dates.


In [3]:
nlp = spacy.load('fr_core_news_md') # en_core_web_sm

from spacy.lang.fr.stop_words import STOP_WORDS
STOP_WORDS.add("blabla")
stopwords = STOP_WORDS
print(stopwords)

{'cinquième', 'encore', 't’', 'ouverte', 'touchant', 'uns', 'tiens', 'toi-même', 'superpose', 'tel', 'peut', 'cher', 'euh', 'de', 'personne', 'ces', 'si', 'suit', 'probable', 'chère', 'premier', 'la', 'comme', 'il', 'siens', 'exactement', 'ouf', 'bas', 'semblable', 'tac', 'retour', 'rare', 'auraient', 'à', 'lorsque', 'anterieure', 'dix-sept', 'pan', 'probante', 'basee', 'celui-ci', 'suivante', 'sinon', 'maximale', 'naturel', 'seront', 'possibles', 'passé', 'elles-mêmes', 'extenso', 'tente', 'six', 'certaine', 'hélas', 'directement', 'mêmes', 'tenir', 'tienne', 'vifs', 'près', 'ainsi', 'neuvième', 'peux', 'ont', 'malgre', 'nombreuses', 'vont', 'aux', 'lesquelles', 'celles-là', 'parseme', 'autrement', 'peuvent', 'trois', 'enfin', 'oh', 'dessous', 'aie', 'vôtres', 'auquel', 'olé', 'ta', 'deuxièmement', 'merci', 'chacune', 'soixante', 'ai', 'particulier', 'fais', "c'", 'chut', 'assez', 'semblaient', 'clac', 'mon', 'chères', 'attendu', 'restent', 'je', 'hep', 'cela', 'très', 'possessif', 'ê

In [4]:
# text = "Ceci est un exemple de texte destiné à tester les différentes librairies Python et à préparer une démonstration. Ce texte a été préparé par Gabriel pour LinkyStat."
# text = 'European authorities fined Google a record $5.1 billion on Wednesday for abusing its power in the mobile phone market and ordered the company to alter its practices'
# text = "The engine coughs and shakes its head. The smoke, a plume of red and white, Waves madly in the face of night. And now the grave incurious stars Gleam on the groaning hurrying cars. Against the kind and awful reign Of darkness, this our angry train, A noisy little rebel, pouts Its brief defiance, flames and shouts— And passes on, and leaves no trace. For darkness holds its ancient place, Serene and absolute, the king Unchanged, of every living thing. The houses lie obscure and still In Rutherford and Carlton Hill. Our lamps intensify the dark Of slumbering Passaic Park. And quiet holds the weary feet That daily tramp through Prospect Street. What though we clang and clank and roar Through all Passaic's streets? No door Will open, not an eye will see Who this loud vagabond may be. Upon my crimson cushioned seat, In manufactured light and heat, I feel unnatural and mean. Outside the towns are cool and clean; Curtained awhile from sound and sight They take God's gracious gift of night. The stars are watchful over them. On Clifton as on Bethlehem The angels, leaning down the sky, Shed peace and gentle dreams. And I— I ride, I blasphemously ride Through all the silent countryside. The engine's shriek, the headlight s glare, Pollute the still nocturnal air. The cottages of Lake View sigh And sleeping, frown as we pass by. Why, even strident Paterson Rests quietly as any nun. Her foolish warring children keep The grateful armistice of sleep. For what tremendous errand's sake Are we so blatantly awake? What precious secret is our freight? What king must be abroad so late? Perhaps Death roams the hills to-night And we rush forth to give him fight. Or else, perhaps, we speed his way To some remote unthinking prey. Perhaps a woman writhes in pain And listens—listens for the train! The train, that like an angel sings, The train, with healing on its wings. Now \"Hawthorne!\" the conductor cries. My neighbor starts and rubs his eyes. He hurries yawning through the car And steps out where the houses are. This is the reason of our quest! Not wantonly we break the rest Of town and village, nor do we Lightly profane night's sanctity. What Love commands the train fulfills, And beautiful upon the hills Are these our feet of burnished steel. Subtly and certainly I feel That Glen Rock welcomes us to her And silent Ridgewood seems to stir And smile, because she knows the train Has brought her children back again. We carry people home—and so God speeds us, wheresoe'er we go. Hohokus, Waldwick, Allendale Lift sleepy heads to give us hail. In Ramsey, Mahwah, Suffern stand Houses that wistfully demand A father—son—some human thing That this, the midnight train, may bring. The trains that travel in the day They hurry folks to work or play. The midnight train is slow and old But of it let this thing be told, To its high honor be it said It carries people home to bed. My cottage lamp shines white and clear. God bless the train that brought me here."
text = "Ce jour-là, 25 mars dernier, Pétersbourg fut le théâtre d’une aventure des plus étranges. Le barbier Ivan Yakovlévitch, domicilié avenue de l’Ascension (son nom de famille est perdu et son enseigne ne porte que l’inscription : On pratique aussi les saignées, au-dessous d’un monsieur à la joue barbouillée de savon), le barbier Ivan Yakovlévitch se réveilla d’assez bonne heure et perçut une odeur de pain chaud. S’étant mis sur son séant, il vit que son épouse – personne plutôt respectable et qui prisait fort le café – défournait des pains tout frais cuits. « Aujourd’hui, Prascovie Ossipovna, je ne prendrai pas de café, déclara Ivan Yakovlévitch ; je préfère grignoter un bon pain chaud avec de la ciboule. » À la vérité, Ivan Yakovlévitch aurait bien voulu et pain et café, mais il jugeait impossible de demander les deux choses à la fois, Prascovie Ossipovna ne tolérant pas de semblables caprices. « Tant mieux, se dit la respectable épouse en jetant un pain sur la table. Que mon nigaud s’empiffre de pain ! Il me restera davantage de café. » Respectueux des convenances, Ivan Yakovlévitch passa son habit par-dessus sa chemise et se mit en devoir de déjeuner. Il posa devant lui une pincée de sel, nettoya deux oignons, prit son couteau et, la mine grave, coupa son pain en deux. Il aperçut alors, à sa grande surprise, un objet blanchâtre au beau milieu ; il le tâta précautionneusement du couteau, le palpa du doigt… « Qu’est-ce que cela peut bien être ? » se dit-il en éprouvant de la résistance. Il fourra alors ses doigts dans le pain et en retira… un nez ! Les bras lui en tombèrent."


In [5]:
print(text)

Ce jour-là, 25 mars dernier, Pétersbourg fut le théâtre d’une aventure des plus étranges. Le barbier Ivan Yakovlévitch, domicilié avenue de l’Ascension (son nom de famille est perdu et son enseigne ne porte que l’inscription : On pratique aussi les saignées, au-dessous d’un monsieur à la joue barbouillée de savon), le barbier Ivan Yakovlévitch se réveilla d’assez bonne heure et perçut une odeur de pain chaud. S’étant mis sur son séant, il vit que son épouse – personne plutôt respectable et qui prisait fort le café – défournait des pains tout frais cuits. « Aujourd’hui, Prascovie Ossipovna, je ne prendrai pas de café, déclara Ivan Yakovlévitch ; je préfère grignoter un bon pain chaud avec de la ciboule. » À la vérité, Ivan Yakovlévitch aurait bien voulu et pain et café, mais il jugeait impossible de demander les deux choses à la fois, Prascovie Ossipovna ne tolérant pas de semblables caprices. « Tant mieux, se dit la respectable épouse en jetant un pain sur la table. Que mon nigaud s’em

In [27]:
# Tokenization
doc = nlp(text)
tokens = [token for token in doc if not token.text in stopwords]

In [28]:
print(tokens)

[Ce, jour, -, ,, 25, mars, ,, Pétersbourg, fut, théâtre, aventure, étranges, ., Le, barbier, Ivan, Yakovlévitch, ,, domicilié, avenue, Ascension, (, nom, famille, perdu, enseigne, porte, inscription, :, On, pratique, saignées, ,, -, monsieur, joue, barbouillée, savon, ), ,, barbier, Ivan, Yakovlévitch, réveilla, bonne, heure, perçut, odeur, pain, chaud, ., S’, mis, séant, ,, vit, épouse, –, respectable, prisait, fort, café, –, défournait, pains, frais, cuits, ., «, Aujourd’hui, ,, Prascovie, Ossipovna, ,, prendrai, café, ,, déclara, Ivan, Yakovlévitch, ;, préfère, grignoter, bon, pain, chaud, ciboule, ., », À, vérité, ,, Ivan, Yakovlévitch, voulu, pain, café, ,, jugeait, impossible, demander, choses, fois, ,, Prascovie, Ossipovna, tolérant, semblables, caprices, ., «, Tant, mieux, ,, respectable, épouse, jetant, pain, table, ., Que, nigaud, empiffre, pain, !, Il, restera, davantage, café, ., », Respectueux, convenances, ,, Ivan, Yakovlévitch, passa, habit, -, chemise, mit, devoir, déje

In [30]:
# Lemmatization
for token in tokens:
    print('Original : %s, New: %s' % (token.text, token.lemma_))

Original : Ce, New: ce
Original : jour, New: jour
Original : -, New: -
Original : ,, New: ,
Original : 25, New: 25
Original : mars, New: mars
Original : ,, New: ,
Original : Pétersbourg, New: Pétersbourg
Original : fut, New: être
Original : théâtre, New: théâtre
Original : aventure, New: aventure
Original : étranges, New: étrange
Original : ., New: .
Original : Le, New: le
Original : barbier, New: barbier
Original : Ivan, New: Ivan
Original : Yakovlévitch, New: Yakovlévitch
Original : ,, New: ,
Original : domicilié, New: domicilier
Original : avenue, New: avenue
Original : Ascension, New: ascension
Original : (, New: (
Original : nom, New: nom
Original : famille, New: famille
Original : perdu, New: perdre
Original : enseigne, New: enseigne
Original : porte, New: porte
Original : inscription, New: inscription
Original : :, New: :
Original : On, New: on
Original : pratique, New: pratique
Original : saignées, New: saignée
Original : ,, New: ,
Original : -, New: -
Original : monsieur, New:

In [31]:
# POS tags

# NP: noun phrase
# DT: determiner
# JJ: adjective
# JJS: adjective, superlative
# NN: noun
# NNP: proper noun, singular
# NNS: noun, plural
# IN: preposition or subordinating conjunction
# VBD: verb, past tense
# VBZ: verb, 3rd person singular present

for token in tokens:
    print('Word: %s, POS: %s' % (token.text, token.tag_))

Word: Ce, POS: DET__Gender=Masc|Number=Sing|PronType=Dem
Word: jour, POS: NOUN__Gender=Masc|Number=Sing
Word: -, POS: PUNCT___
Word: ,, POS: PUNCT___
Word: 25, POS: NUM__NumType=Card
Word: mars, POS: NOUN__Gender=Masc|Number=Sing
Word: ,, POS: PUNCT___
Word: Pétersbourg, POS: PROPN__Gender=Masc|Number=Sing
Word: fut, POS: AUX__Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
Word: théâtre, POS: NOUN__Gender=Masc|Number=Sing
Word: aventure, POS: NOUN__Gender=Fem|Number=Sing
Word: étranges, POS: ADJ__Gender=Masc|Number=Plur
Word: ., POS: PUNCT___
Word: Le, POS: DET__Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Word: barbier, POS: NOUN__Gender=Masc|Number=Sing
Word: Ivan, POS: PROPN__Gender=Masc|Number=Sing
Word: Yakovlévitch, POS: PROPN___
Word: ,, POS: PUNCT___
Word: domicilié, POS: VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part
Word: avenue, POS: VERB__Gender=Fem|Number=Sing|Tense=Past|VerbForm=Part
Word: Ascension, POS: NOUN__Gender=Fem|Number=Sing
Word: (, POS: PUNC

In [10]:
# Lemmatization and POS tags
[(token.orth_,token.pos_, token.lemma_) for token in
 [y for y in doc if not y.is_stop and y.pos_ != 'PUNCT']]

[('jour', 'NOUN', 'jour'),
 ('25', 'NUM', '25'),
 ('mars', 'NOUN', 'mars'),
 ('Pétersbourg', 'PROPN', 'Pétersbourg'),
 ('fut', 'AUX', 'être'),
 ('théâtre', 'NOUN', 'théâtre'),
 ('aventure', 'NOUN', 'aventure'),
 ('étranges', 'ADJ', 'étrange'),
 ('barbier', 'NOUN', 'barbier'),
 ('Ivan', 'PROPN', 'Ivan'),
 ('Yakovlévitch', 'PROPN', 'Yakovlévitch'),
 ('domicilié', 'VERB', 'domicilier'),
 ('avenue', 'VERB', 'avenue'),
 ('Ascension', 'NOUN', 'ascension'),
 ('nom', 'NOUN', 'nom'),
 ('famille', 'NOUN', 'famille'),
 ('perdu', 'VERB', 'perdre'),
 ('enseigne', 'NOUN', 'enseigne'),
 ('porte', 'VERB', 'porte'),
 ('inscription', 'NOUN', 'inscription'),
 ('pratique', 'NOUN', 'pratique'),
 ('saignées', 'NOUN', 'saignée'),
 ('monsieur', 'NOUN', 'Monsieur'),
 ('joue', 'NOUN', 'joue'),
 ('barbouillée', 'VERB', 'barbouiller'),
 ('savon', 'NOUN', 'savon'),
 ('barbier', 'NOUN', 'barbier'),
 ('Ivan', 'PROPN', 'Ivan'),
 ('Yakovlévitch', 'PROPN', 'Yakovlévitch'),
 ('réveilla', 'VERB', 'réveiller'),
 ('bonne',

In [33]:
# Stemming
import nltk
from nltk.stem.porter import *
stemmer = PorterStemmer()
for token in tokens:
    print('Original : %s, Root form: %s' % (token.text, stemmer.stem(token.text)))

Original : Ce, Root form: Ce
Original : jour, Root form: jour
Original : -, Root form: -
Original : ,, Root form: ,
Original : 25, Root form: 25
Original : mars, Root form: mar
Original : ,, Root form: ,
Original : Pétersbourg, Root form: pétersbourg
Original : fut, Root form: fut
Original : théâtre, Root form: théâtre
Original : aventure, Root form: aventur
Original : étranges, Root form: étrang
Original : ., Root form: .
Original : Le, Root form: Le
Original : barbier, Root form: barbier
Original : Ivan, Root form: ivan
Original : Yakovlévitch, Root form: yakovlévitch
Original : ,, Root form: ,
Original : domicilié, Root form: domicilié
Original : avenue, Root form: avenu
Original : Ascension, Root form: ascens
Original : (, Root form: (
Original : nom, Root form: nom
Original : famille, Root form: famil
Original : perdu, Root form: perdu
Original : enseigne, Root form: enseign
Original : porte, Root form: port
Original : inscription, Root form: inscript
Original : :, Root form: :
Or

In [14]:
# Name-Entity Recognition (NER)

for entity in doc.ents:
    print(entity.text + ' - ' + entity.label_ + ' - ' + str(spacy.explain(entity.label_)))

Pétersbourg - LOC - Non-GPE locations, mountain ranges, bodies of water
Ivan Yakovlévitch - PER - Named person or family.
Ivan Yakovlévitch - PER - Named person or family.
Prascovie Ossipovna - PER - Named person or family.
Ivan Yakovlévitch - PER - Named person or family.
Ivan Yakovlévitch - PER - Named person or family.
Prascovie Ossipovna - PER - Named person or family.
» Respectueux des convenances - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
Ivan Yakovlévitch - PER - Named person or family.


In [35]:
# Detecting nouns

for noun in doc.noun_chunks:
    print(noun.text)

Ce jour-là, 25 mars dernier, Pétersbourg fut le théâtre d’une aventure des plus étranges.
Le barbier Ivan Yakovlévitch, domicilié avenue de l’Ascension (
son nom de famille
et son enseigne
On
les saignées
à la joue barbouillée de savon
le barbier Ivan Yakovlévitch
une odeur de pain chaud
il
son épouse – personne plutôt respectable et qui prisait fort le café –
des pains
tout frais cuits
je ne prendrai pas de café, déclara Ivan Yakovlévitch
je
un bon pain chaud avec de la ciboule
Ivan Yakovlévitch
et pain et café
il
les deux choses
Prascovie Ossipovna
de semblables caprices
la respectable épouse en jetant un pain sur la table
mon nigaud
de pain
Il
me
davantage de café
» Respectueux des convenances
Ivan Yakovlévitch
son habit
Il
une pincée de sel
deux oignons
son couteau et, la mine grave
son pain
Il
un objet blanchâtre au beau milieu
il
du couteau
le palpa
du doigt
-ce
cela
il en éprouvant de la résistance
Il
ses doigts
un nez
Les bras lui


In [36]:
# Begin: first token of a multi-token entity
# In: inner token of a multi-token entity
# Last: last token of a multi-token entity
# Unit: single-token entity
# Out: non-entity token

print([(token, token.ent_iob_, token.ent_type_) for token in doc])

[(Ce, 'O', ''), (jour, 'O', ''), (-, 'O', ''), (,, 'O', ''), (25, 'O', ''), (mars, 'O', ''), (,, 'O', ''), (Pétersbourg, 'B', 'LOC'), (fut, 'O', ''), (théâtre, 'O', ''), (aventure, 'O', ''), (étranges, 'O', ''), (., 'O', ''), (Le, 'O', ''), (barbier, 'O', ''), (Ivan, 'B', 'PER'), (Yakovlévitch, 'I', 'PER'), (,, 'O', ''), (domicilié, 'O', ''), (avenue, 'O', ''), (Ascension, 'O', ''), ((, 'O', ''), (nom, 'O', ''), (famille, 'O', ''), (perdu, 'O', ''), (enseigne, 'O', ''), (porte, 'O', ''), (inscription, 'O', ''), (:, 'O', ''), (On, 'O', ''), (pratique, 'O', ''), (saignées, 'O', ''), (,, 'O', ''), (-, 'O', ''), (monsieur, 'O', ''), (joue, 'O', ''), (barbouillée, 'O', ''), (savon, 'O', ''), (), 'O', ''), (,, 'O', ''), (barbier, 'O', ''), (Ivan, 'B', 'PER'), (Yakovlévitch, 'I', 'PER'), (réveilla, 'O', ''), (bonne, 'O', ''), (heure, 'O', ''), (perçut, 'O', ''), (odeur, 'O', ''), (pain, 'O', ''), (chaud, 'O', ''), (., 'O', ''), (S’, 'O', ''), (mis, 'O', ''), (séant, 'O', ''), (,, 'O', ''), (v

In [17]:
displacy.render(nlp(str(text)), jupyter=True, style='ent')

In [18]:
displacy.render(nlp(str(text)), style='dep', jupyter = True, options = {'distance': 120})