# spaCy
## Tuto@Mate – 19 mai 2022

### Clément Plancq (MSH Val de Loire – CITERES)

1. **Introduction**
2. Étapes de la chaîne de traitement
3. Extraction d'information
4. Adaptation du modèle

# spaCy quésaco ?

https://spacy.io/

- ~~logiciel~~
- ~~application~~
- ~~service web~~
- bibliothèque logicielle (*library*, *lib*),
- écrite en Python (et Cython),
- pour le TAL (*NLP*)
- sous licence libre

# spaCy quésaco ?

- Produit de la société [explosion.ai](https://explosion.ai/)  
fondée par : Matthew Honnibal ([@honnibal](https://twitter.com/honnibal)) et Ines Montani ([@_inesmontani](https://twitter.com/_inesmontani))
- Licence MIT (Open Source) pour le code
    - Licences ouvertes diverses pour les modèles
- Projet démarré en 2015, v1.0.0 en octobre 2016, v3.3.0 ([github](https://github.com/explosion/spaCy))
- Outil destiné à être utilisé en production : rapide, stable (tests, documentation, packaging)
- **MAIS** pas de choix de la méthode ou de l'algorithme utilisé

# spaCy quésaco ?

- Chaîne de traitements de TAL
    - tokenisation (*tokenizer*)
    - étiquetage POS (*tagger*)
    - analyse syntaxique (*parser*)
    - détection d'entités nommées (*ner*)
    - lemmatisation
    - (catégorisation de texte
    - word embedding)
- Usage de modèles statistiques (méthodes neuronales)
- Intégration possible de modèles tiers (PyTorch ou TensorFlow)


# Pourquoi spaCy ?

- C'est du Python 🥳  
<small>Il existe un wrapper R, voir [ici](https://spacyr.quanteda.io/)</small>
- Plutôt simple à prendre en main
- Très bien documenté ([doc](https://spacy.io/usage), [api](https://spacy.io/api)) <small>D'ailleurs plutôt que ce notebook, suivez l'excellent tutoriel d'Ines Montani : [https://course.spacy.io/](https://course.spacy.io/)</small>
- Cyle de développement/release régulier, suivi de la communauté sur GitHub (discussions, issues)
- Ressources construites avec spaCy : https://spacy.io/universe


- Fournit les méthodes et les moyens d'adapter le traitement et/ou le modèle à des besoins particuliers
- **MAIS** ce n'est pas forcément l'outil qui donne les meilleurs résultats pour le français dans toutes les tâches de TAL

# spaCy et les autres

spaCy est *un* des frameworks de TAL disponibles

- [NLTK](http://www.nltk.org/) : python, orienté pédagogie, choix des méthodes et algos à utiliser
- [CoreNLP](https://stanfordnlp.github.io/CoreNLP/) : java, framework de Stanford, orienté recherche, chaîne de TAL très complète pour l'anglais en particulier
- [Stanza](https://stanfordnlp.github.io/stanza/) : python, framework de Stanford, modèles neuronaux entraînés sur les données d'Universal Dependancies <small>[https://github.com/explosion/spacy-stanza](https://github.com/explosion/spacy-stanza) permet d'utiliser les modèles de Stanford avec Spacy</small>
- [TextBlob](https://textblob.readthedocs.io/en/dev/) : python
- [DKPro](https://dkpro.github.io) : java
- [flair](https://github.com/zalandoresearch/flair) : python, le framework de Zalando, très bonnes performances en reconnaissance d'entités nommées

# Les modèles de spaCy

- Spacy utilise des [modèles statistiques](https://spacy.io/models) qui permettent de prédire des annotations linguistiques
- 21 langues : allemand, anglais, catalan, chinois, coréen, danois, espagnol, finnois, français, italien, japonais, lituanien, macédonien, néerlandais, grec, norvégien, polonais, portugais, roumain, russe, suédois + modèle multi langues


- Tous ces modèles, quelque soient leur type ou leur langue, s'utilisent de la même façon, avec la même API
- La justesse des annotations dépendra en grande partie de la proximité entre le texte soumis et les textes du corpus d'entraînement

# Les modèles pour le français

- 4 modèles pour le français
    - [fr_core_news_sm](https://spacy.io/models/fr#fr_core_news_sm) (tagger, morphologizer, lemmatizer, parser, ner) 15 Mo 
    - [fr_core_news_md](https://spacy.io/models/fr#fr_core_news_md) (tagger, morphologizer, lemmatizer, parser, ner, vectors) 43 Mo
    - [fr_core_news_lg](https://spacy.io/models/fr#fr_core_news_lg) (tagger, morphologizer, lemmatizer, parser, ner, vectors) 545 Mo
    - [fr_dep_news_trf](https://spacy.io/models/fr#fr_dep_news_trf) (tagger, morphologizer, lemmatizer, parser) 382 Mo
- modèles `fr` appris sur les corpus [Sequoia](https://deep-sequoia.inria.fr/fr/) et [WikiNer](https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500)
- sauf le modèle `trf` qui est issu de camembert-base distribué par [Hugging Face](https://huggingface.co/camembert-base), entraîné sur [Oscar](https://oscar-corpus.com/)

1. Introduction
2. **Étapes de la chaîne de traitement**
3. Extraction d'information
4. Adaptation du modèle

## Tokénisation

In [2]:
import spacy

nlp = spacy.load('fr_core_news_md')

In [40]:
doc = nlp("Et tu recherches dans le vague une ombre, un sourire qui soulage.")
for tok in doc:
    print(tok)

Et
tu
recherches
dans
le
vague
une
ombre
,
un
sourire
qui
soulage
.


La tokénisation est non destructive. On peut découper un texte en tokens et le restituer dans sa forme originale

In [43]:
doc = nlp("""Le dictionnaire de mes souvenirs
N'a qu'une page, une seule rubrique
Qui commence par ton absence
Et dans l'ordre alphabétique
Se termine par l'état d'amnésie
Tes états d'âme sont un leurre
Et tes larmes sont les armes dont tu te sers
Mais ce piège ne tromperait qu'un amateur
Ton âme sœur est une meilleure adversaire""")

for tok in doc:
    print(tok.text_with_ws, end="")

Le dictionnaire de mes souvenirs
N'a qu'une page, une seule rubrique
Qui commence par ton absence
Et dans l'ordre alphabétique
Se termine par l'état d'amnésie
Tes états d'âme sont un leurre
Et tes larmes sont les armes dont tu te sers
Mais ce piège ne tromperait qu'un amateur
Ton âme sœur est une meilleure adversaire

Un objet de la classe [`Doc`](https://spacy.io/api/doc) contient aussi le produit du découpage en phrases

In [18]:
doc = nlp("La musique était mon sourire, les vieux succès mes souvenirs. On \
sort tous son dernier soupir lorsqu'on va mourir. Mais un souffle j'avais gardé \
car on ne peut pas trépasser chacun le sait sans voir un disque jockey. \
Et tu chantes, danses jusqu'au bout de la nuit tes flashes en musique funky. \
Y’a la basse qui frappe, et la guitare qui choque, et y’a le batteur qui s'éclate, et toi qui tiens le choc.")

for sent in doc.sents:
    print(sent, "\n")

La musique était mon sourire, les vieux succès mes souvenirs. 

On sort tous son dernier soupir lorsqu'on va mourir. 

Mais un souffle j'avais gardé car on ne peut pas trépasser chacun le sait sans voir un disque jockey. 

Et tu chantes, danses jusqu'au bout de la nuit tes flashes en musique funky. 

Y’a la basse qui frappe, et la guitare qui choque, et y’a le batteur qui s'éclate, et toi qui tiens le choc. 



## Étiquetage (*tagging*)

In [45]:
doc = nlp("Tous mes beaux châteaux d'Équateur s'écroulent.")

for tok in doc:
    print(tok, tok.pos_)

Tous ADJ
mes DET
beaux ADJ
châteaux NOUN
d' ADP
Équateur PROPN
s' PRON
écroulent VERB
. PUNCT


Les annotations portant sur les tokens sont accessibles via les attributs des objets de type `token` : [https://spacy.io/api/token#attributes](https://spacy.io/api/token#attributes)  
  - `pos_` contient l'étiquette de partie du discours de [universal dependancies](https://universaldependencies.org/docs/u/pos/)
  - `tag_` contient l'étiquette du corpus original, parfois plus détaillée
  - `lemma_` pour le lemme
  - `morph` pour l'analyse morphologique

In [47]:
for token in doc:
    print(token, token.lemma_, token.pos_, token.morph)

Tous tout ADJ Gender=Masc|Number=Plur
mes mon DET Number=Plur|Poss=Yes
beaux beal ADJ Gender=Masc|Number=Plur
châteaux château NOUN Gender=Masc|Number=Plur
d' de ADP 
Équateur Équateur PROPN 
s' se PRON Person=3|Reflex=Yes
écroulent écrouler VERB Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
. . PUNCT 


## Détection d'entités nommées (*ner*)

In [49]:
doc = nlp("Le bandit s'appelle Mister Kali Jones \
avec l'ami Bill Ballantine, \
sauvé de justesse des crocodiles, \
stop au trafic des Caraïbes.")

for ent in doc.ents:
    print(ent, ent.label_)

Mister Kali Jones PER
Bill Ballantine PER
Caraïbes LOC


In [32]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True) 

In [33]:
doc = nlp("À l’heure où le président russe, Vladimir Poutine, prononçait sur la place Rouge son discours annuel \
sur la guerre de 1941-1945, cette année presque entièrement consacrée au conflit en Ukraine, \
son homologue ukrainien, Volodymyr Zelensky, diffusait une vidéo de lui-même marchant seul \
sur l’avenue Khrechtchatyk de Kiev, là où ont lieu, d’habitude, les cérémonies nationales dans son pays.")

displacy.render(doc, style="ent", jupyter=True)

## Analyse syntaxique (*parsing*)

 - L'analyse syntaxique ou *parsing* de Spacy est une analyse en dépendance.

- Dans l'analyse en dépendance produite par Spacy, chaque mot d'une phrase a un gouverneur unique (*head*), la relation de dépendance entre le mot et son gouverneur est typée (*nsubj*, *obj*, …).  
Pour la tête de la phrase on utilise la relation *ROOT*.

- La structure produite par l'analyse syntaxique est un arbre, un graphe acyclique et connexe.  
Les tokens sont les nœuds, les arcs sont les dépendances, le type de la relation est l'étiquette de l'arc.

In [29]:
doc = nlp("Il te refile en stéréo la chanson des sirènes.")
for token in doc:
    print(token, token.dep_, token.head)

Il expl:subj refile
te iobj refile
refile ROOT refile
en case stéréo
stéréo obl:arg refile
la det chanson
chanson obj refile
des case sirènes
sirènes nmod chanson
. punct refile


In [52]:
from spacy import displacy

doc = nlp("Il te refile en stéréo la chanson des sirènes.")
displacy.render(doc, style="dep", jupyter=True, options={'distance':90})

In [28]:
import explacy
# https://spacy.io/universe/project/explacy

explacy.print_parse_info(nlp, "Il te refile en stéréo la chanson des sirènes.")


Dep tree   Token   Dep type  Lemma   Part of Sp
────────── ─────── ───────── ─────── ──────────
      ┌──► Il      expl:subj il      PRON      
      │┌─► te      iobj      te      PRON      
┌┬──┬─┴┴── refile  ROOT      refile  VERB      
││  │  ┌─► en      case      en      ADP       
││  └─►└── stéréo  obl:arg   stéréo  NOUN      
││     ┌─► la      det       le      DET       
│└─►┌──┴── chanson obj       chanson NOUN      
│   │  ┌─► des     case      de      ADP       
│   └─►└── sirènes nmod      sirène  NOUN      
└────────► .       punct     .       PUNCT     


Les attributs de token suivant peuvent être utilisés pour parcourir l'arbre de dépendance : 
- `children` les tokens dépendants du token
- `subtree` tous les descendants du token
- `ancestors` tous les parents du token
- `rights` les enfants à droite du token
- `lefts` les enfants à gauche du token

In [61]:
root = [token for token in doc if token.head == token][0]
subjects = [tok for tok in root.lefts if "subj" in tok.dep_]
subject = subjects[0]
objs = [tok for tok in root.rights if tok.dep_ == "obj"]
obj = objs[0]
print(f"sujet : {subject}, prédicat : {root}, objet : {obj}")

sujet : Il, prédicat : refile, objet : chanson


1. Introduction
2. Étapes de la chaîne de traitement
3. **Extraction d'information**
4. Adaptation du modèle