# NLP YNOV CAMPUS 
## M2

# Les bases de spaCy

**spaCy** (https://spacy.io/) est une bibliothèque Python à code source ouvert qui analyse et "comprend" de grands volumes de texte. Des modèles distincts sont disponibles pour des langues spécifiques (anglais, français, allemand, etc.).

Dans cette section, nous allons installer et configurer spaCy pour qu'il fonctionne avec Python, puis nous introduirons quelques concepts liés au traitement du langage naturel.

# Installation and Setup

L'installation se fait en deux étapes. Tout d'abord, installez spaCy en utilisant conda ou pip. Ensuite, téléchargez le modèle spécifique que vous souhaitez, en fonction de la langue.<br> Pour plus d'informations, visitez https://spacy.io/usage/

### 1. A partir de la ligne de commande ou du terminal :
> `conda install -c conda-forge spacy`
> <br>*or*<br>
> `pip install -U spacy`

> ### Vous pouvez également créer un environnement virtuel :
> `conda create -n spacyenv python=3 spacy=2`

### 2. Ensuite, également à partir de la ligne de commande (vous devez l'exécuter en tant qu'administrateur ou utiliser sudo) :

> `python -m spacy download en`

> ### En cas de succès, vous devriez voir apparaître un message du type :

> **`Linking successful`**<br>
> `    C:\Anaconda3\envs\spacyenv\lib\site-packages\en_core_web_sm -->`<br>
> `    C:\Anaconda3\envs\spacyenv\lib\site-packages\spacy\data\en`<br>
> ` `<br>
> `    You can now load the model via spacy.load('en')`


# Travailler avec spaCy en Python

Ceci est un ensemble typique d'instructions pour importer et travailler avec spaCy. Ne soyez pas surpris si cela prend du temps - spaCy a une bibliothèque assez importante à charger :

In [3]:
# Import spaCy and load the language library
import spacy
nlp = spacy.load('en_core_web_sm')

# Create a Doc object
doc = nlp(u'Tesla is looking at buying U.S. startup for $6 million')

# Print each token separately
for token in doc:
    print(token.text, token.pos_, token.dep_)

Tesla PROPN nsubj
is AUX aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.S. PROPN compound
startup NOUN dobj
for ADP prep
$ SYM quantmod
6 NUM compound
million NUM pobj


Cela n'a pas l'air très convivial, mais nous voyons tout de suite des choses intéressantes se produire :
1. Tesla est reconnu comme un nom propre, et non comme un simple mot en début de phrase.
2. Les États-Unis sont considérés comme une seule entité (nous appelons cela un "token").

Au fur et à mesure que nous avancerons dans spaCy, nous verrons la signification de chacune de ces abréviations et la façon dont elles sont dérivées. Nous verrons également comment spaCy peut interpréter les trois derniers jetons combinés `$6 million` comme faisant référence à ***l'argent***.

___
# Objets de spaCy

Après avoir importé le module spacy dans la cellule ci-dessus, nous avons chargé un **modèle** et l'avons nommé `nlp`.<br>Ensuite, nous avons créé un objet **Doc** en appliquant le modèle à notre texte, et nous l'avons nommé `doc`.<br>spaCy construit également un objet **Vocab** que nous aborderons dans les sections suivantes.<br>L'objet **Doc** qui contient le texte traité est notre objectif ici.

___
# Pipeline
Lorsque nous lançons `nlp`, notre texte entre dans un *pipeline de traitement* qui décompose d'abord le texte et effectue ensuite une série d'opérations pour étiqueter, analyser et décrire les données.   Source de l'image : https://spacy.io/usage/spacy-101#pipelines

<img src="../pipeline1.png" width="600">

Nous pouvons vérifier quels sont les composants actuellement présents dans le pipeline. Dans les sections suivantes, nous apprendrons à désactiver des composants et à en ajouter de nouveaux si nécessaire.

In [2]:
nlp.pipeline

[('tagger', <spacy.pipeline.Tagger at 0x1be37f9a288>),
 ('parser', <spacy.pipeline.DependencyParser at 0x1be37f97108>),
 ('ner', <spacy.pipeline.EntityRecognizer at 0x1be37f976a8>)]

In [3]:
nlp.pipe_names

['tagger', 'parser', 'ner']

## Tokenisation
La première étape du traitement du texte consiste à diviser tous les éléments constitutifs (mots et ponctuation) en "tokens". Ces jetons sont annotés à l'intérieur de l'objet Doc pour contenir des informations descriptives. Nous reviendrons plus en détail sur la tokenisation dans un prochain cours. Pour l'instant, examinons un autre exemple :

In [2]:
doc2 = nlp(u"Tesla isn't   looking into startups anymore.")

for token in doc2:
    print(token.text, token.pos_, token.dep_)

Tesla PROPN nsubj
is VERB aux
n't ADV neg
   SPACE 
looking VERB ROOT
into ADP prep
startups NOUN pobj
anymore ADV advmod
. PUNCT punct


Remarquez que `isn't` a été divisé en deux tokens. spaCy reconnaît à la fois le verbe racine `is` et la négation qui lui est attachée. Remarquez également que l'espace blanc étendu et le point à la fin de la phrase sont assignés à leurs propres jetons.

Il est important de noter que même si `doc2` contient des informations traitées sur chaque token, il conserve également le texte original :

In [5]:
doc2

Tesla isn't   looking into startups anymore.

In [3]:
doc2[2]

n't

In [7]:
type(doc2)

spacy.tokens.doc.Doc

___
## Part-of-Speech Tagging (POS)

L'étape suivante, après avoir divisé le texte en tokens, consiste à attribuer des parties du discours. Dans l'exemple ci-dessus, `Tesla` a été reconnu comme un ***nom propre***. Ici, une modélisation statistique est nécessaire. Par exemple, les mots qui suivent "the" sont généralement des noms.

Pour obtenir une liste complète des balises POS, consultez le site https://spacy.io/api/annotation#pos-tagging.

In [8]:
doc2[0].pos_

'PROPN'

___
## Dependencies
Nous avons également examiné les dépendances syntaxiques attribuées à chaque token. `Tesla` est identifié comme un `nsubj` ou le ***sujet nominal*** de la phrase.

Pour une liste complète des dépendances syntaxiques, voir https://spacy.io/api/annotation#dependency-parsing
<br>Une bonne explication des dépendances typées est disponible à l'adresse suivante [here](https://nlp.stanford.edu/software/dependencies_manual.pdf)

In [9]:
doc2[0].dep_

'nsubj'

Pour voir le nom complet d'un tag, utilisez `spacy.explain(tag)`

In [12]:
spacy.explain('PROPN')

'proper noun'

In [13]:
spacy.explain('nsubj')

'nominal subject'


## Attributs supplémentaires du token
Nous reviendrons sur ces éléments dans les prochains tp. Pour l'instant, nous voulons simplement illustrer certaines des autres informations que spaCy attribue aux tokens :

|Tag|Description|doc2[0].tag|
|:------|:------:|:------|
|`.text`|The original word text<!-- .element: style="text-align:left;" -->|`Tesla`|
|`.lemma_`|The base form of the word|`tesla`|
|`.pos_`|The simple part-of-speech tag|`PROPN`/`proper noun`|
|`.tag_`|The detailed part-of-speech tag|`NNP`/`noun, proper singular`|
|`.shape_`|The word shape – capitalization, punctuation, digits|`Xxxxx`|
|`.is_alpha`|Is the token an alpha character?|`True`|
|`.is_stop`|Is the token part of a stop list, i.e. the most common words of the language?|`False`|

In [14]:
# Lemmas (the base form of the word):
print(doc2[4].text)
print(doc2[4].lemma_)

looking
look


In [15]:
# Simple Parts-of-Speech & Detailed Tags:
print(doc2[4].pos_)
print(doc2[4].tag_ + ' / ' + spacy.explain(doc2[4].tag_))

VERB
VBG / verb, gerund or present participle


In [16]:
# Word Shapes:
print(doc2[0].text+': '+doc2[0].shape_)
print(doc[5].text+' : '+doc[5].shape_)

Tesla: Xxxxx
U.S. : X.X.


In [17]:
# Boolean Values:
print(doc2[0].is_alpha)
print(doc2[0].is_stop)

True
False


___
## Spans
Il est parfois difficile de travailler avec des objets Doc de grande taille. Un **span** est un slice d'objet Doc de la forme `Doc[start:stop]`.

In [18]:
doc3 = nlp(u'Although commmonly attributed to John Lennon from his song "Beautiful Boy", \
the phrase "Life is what happens to us while we are making other plans" was written by \
cartoonist Allen Saunders and published in Reader\'s Digest in 1957, when Lennon was 17.')

In [19]:
life_quote = doc3[16:30]
print(life_quote)

"Life is what happens to us while we are making other plans"


In [20]:
type(life_quote)

spacy.tokens.span.Span

Dans les prochains cours, nous verrons comment créer des objets Span en utilisant `Span()`. Cela nous permettra d'assigner des informations supplémentaires à l'objet Span.

___
## Sentences
Certains tokens à l'intérieur d'un objet Doc peuvent également recevoir un tag "début de phrase". Bien que cela ne construise pas immédiatement une liste de phrases, ces balises permettent de générer des segments de phrases grâce à `Doc.sents`. Plus tard, nous écrirons nos propres règles de segmentation.

In [21]:
doc4 = nlp(u'This is the first sentence. This is another sentence. This is the last sentence.')

In [22]:
for sent in doc4.sents:
    print(sent)

This is the first sentence.
This is another sentence.
This is the last sentence.


In [23]:
doc4[6].is_sent_start

True

## A suivre : La tokenisation