# Outils-corpus 5
## [Spacy](https://spacy.io)

- Biblioth√®que logicielle de TAL √©crite en Python (et Cython)
- √âtiquetage POS, lemmatisation, analyse syntaxique, entit√©s nomm√©es, word embedding
- Usage de mod√®les neuronaux
- Int√©gration ais√©e de biblioth√®ques de deep learning
- v2.2.3 ([github](https://github.com/explosion/spaCy))
- Licence MIT (Open Source) pour le code
    - Licences ouvertes diverses pour les mod√®les
- Produit de la soci√©t√© [explosion.ai](https://explosion.ai/). Fond√© par :¬†Matthew Honnibal ([@honnibal](https://twitter.com/honnibal)) et Ines Montani ([@_inesmontani](https://twitter.com/_inesmontani))

## Pourquoi Spacy ?

- C'est du Python üôå üéâ
- Plut√¥t simple √† prendre en main
- Tr√®s bien document√©, √† notre avis. D'ailleurs plut√¥t que ce notebook, suivez l'excellent tutorial d'Ines Montani : [https://course.spacy.io/](https://course.spacy.io/)
- Couvre les traitements d'une cha√Æne de TAL typique
- Pas mal utilis√© dans l'industrie
- MAIS ce n'est pas forc√©ment l'outil qui donne les meilleurs r√©sultats pour le fran√ßais


## Spacy et les autres

Spacy est *un* des frameworks de TAL disponibles

- [NLTK](http://www.nltk.org/) :¬†python, orient√© p√©dagogie, pas de mod√®les neuronaux inclus mais se combine bien avec TensorFlow, PyTorch ou AlleNLP
- [Stanford Core¬†NLP](https://stanfordnlp.github.io/stanfordnlp/) :¬†java, mod√®les pour 53 langues (UD), r√©solution de la cor√©ference.
    <small>[https://github.com/explosion/spacy-stanfordnlp](https://github.com/explosion/spacy-stanfordnlp) permet d'utiliser les mod√®les de CoreNLP avec Spacy</small>
- [Stanza](https://stanfordnlp.github.io/stanza/) :¬†python, nouveau framework de Stanford, mod√®les neuronaux entra√Æn√©s sur donn√©es UD
- [TextBlob](https://textblob.readthedocs.io/en/dev/)
- [DKPro](https://dkpro.github.io/)
- [flair](https://github.com/zalandoresearch/flair) : le framework de Zalando, tr√®s bonnes performances en reconnaissance d'entit√©s nomm√©es

## installation

dans un terminal
```bash
python3 -m pip install --user spacy 
#ou pip install --user spacy
```
- installation du mod√®le fran√ßais
```bash
python3 -m spacy download fr_core_news_sm
#ou python3 -m spacy download fr_core_news_md
```
- v√©rification
```bash
python3 -m spacy validate
```


## mod√®les

- 10 langues :¬†anglais, allemand, fran√ßais, espagnol, portugais, italien, n√©erlandais, grec, norv√©gien, lituanien + mod√®le multi langues
- 2 mod√®les pour le fran√ßais
    - fr_core_news_sm (tagger, parser, ner) 14 Mo
    - fr_core_news_md (tagger, parser, ner, vectors) 84 Mo
- mod√®les `fr` appris sur les corpus [Sequoia](https://deep-sequoia.inria.fr/fr/) et [WikiNer](https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500)


## usage

- *si vous voulez utiliser Spacy prenez le temps de lire la [documentation](https://spacy.io/usage), ici ce ne sera qu'un coup d'≈ìil incomplet*
- un mod√®le est une instance de la classe `Language`, il est adapt√© √† une langue en particulier
- un mod√®le incorpore un vocabulaire, des poids, des vecteurs de mots, une configuration

In [None]:
import spacy
nlp = spacy.load('fr_core_news_sm')

In [None]:
type(nlp)

## usage

- le traitement fonctionne avec un [*pipeline*](https://spacy.io/usage/spacy-101#pipelines) pour convertir un texte en objet `Doc` (texte annot√©)
- par d√©faut `tokenizer` > `tagger` > `parser` > `ner` > `‚Ä¶`
- l'utilisateur peut ajouter des √©tapes ou en retrancher

In [None]:
nlp = spacy.load('fr_core_news_sm', disable=["parser", "ner"])
nlp.pipeline

Retour au pipeline par d√©faut

In [None]:
nlp = spacy.load('fr_core_news_sm')
nlp.pipeline

## usage

 - Un objet `Doc` est une s√©quence d'objets `Token` (voir l'[API](https://spacy.io/api/token))
 - Le texte d'origine est d√©coup√© en phrases, tokeniz√©, annot√© en POS, lemme, syntaxe (d√©pendance) et en entit√©s nomm√©es (NER)

## usage ‚Äì tokenization

La tokenization de Spacy est non-destructive. Vous pouvez d√©couper un texte en tokens et le restituer dans sa forme originale.

In [None]:
doc = nlp("L‚ÄôOrganisation des Nations unies (ONU) a lanc√© mardi un appel d‚Äôurgence pour lever des dizaines de millions de dollars afin de prot√©ger les r√©fugi√©s vuln√©rables face √† la propagation du nouveau coronavirus.")
for tok in doc:
    print(tok)

In [None]:
for tok in doc:
    print(tok.text_with_ws, end="")

## usage ‚Äì √©tiquetage

In [None]:
doc = nlp("Dans les derniers jours de mai 1793, un des bataillons parisiens amen√©s en Bretagne par Santerre fouillait le redoutable bois de la Saudraie en Astill√©. On n'√©tait pas plus de trois cents, car le bataillon √©tait d√©cim√© par cette rude guerre.")
for token in doc:
    print(token.text, token.tag_, token.lemma_, token.ent_type_)

Pour traiter plusieurs textes, vous pouvez utiliser [nlp.pipe](https://spacy.io/api/language#pipe)


```python
docs = list(nlp.pipe(texts))
```

## usage ‚Äì NER

Acc√®s direct aux entit√©s de l'objet `Doc`

In [None]:
for ent in doc.ents:
    print(ent.text, ent.label_)

In [None]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

In [None]:
doc = nlp('Le pr√©sident Xi Jinping a affirm√© que la propagation du coronavirus √©tait ¬´‚ÄØpratiquement jugul√©e‚ÄØ¬ª. Il s‚Äôest d‚Äôailleurs rendu pour la premi√®re fois √† Wuhan, la capitale de la province du Hubei, le berceau du Covid-19.')
displacy.render(doc, style="ent", jupyter=True)

## usage ‚Äì analyse syntaxique

In [None]:
displacy.render(doc, style="dep", jupyter=True, options={'distance':80})

`noun_chunks` permet de r√©cup√©rer les syntagmes nominaux d'un document

In [None]:
doc = nlp(" Et lorsque les Am√©ricains de PBS, les Chinois de Tencent et FranceT√©l√©visions se joignent au projet, le r√©sultat final est, logiquement, √† la hauteur des esp√©rances. Gr√¢ce √† la pr√©cision des images, des centaines de satellites √©quip√©s de capteurs surpuissants et de cam√©ras tournant en orbite autour de notre plan√®te, ce documentaire ne se contente pas d‚Äôoffrir des images √† couper le souffle.")
for chunk in doc.noun_chunks:
    print(f"{chunk.text} ({chunk.root.text})")

On peut aussi r√©cup√©rer la t√™te syntaxique et ses d√©pendants

In [None]:
root = [token for token in doc if token.head == token][0]
subjects = [tok for tok in root.lefts if tok.dep_ == "nsubj"]
subject = subjects[0]
subjects

In [None]:
for subject in subjects:
    for descendant in subject.subtree:
        print(descendant.text)
    print()

## √Ä¬†vous

1. Trouver et afficher l'objet de la phrase :¬†¬´ Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle. ¬ª

2. Afficher les entit√©s nomm√©es et leur cat√©gorie de cette m√™me phrase. Y-a-t'il des erreurs selon vous ?

In [None]:
doc = nlp("Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
#displacy.render(doc, style="dep", jupyter=True)
root = [token for token in doc if token.head == token][0]
objs = [tok for tok in root.rights if tok.dep_ in ("obl", "obj", "iobj")]
#objs
for obj in objs:
    for descendant in obj.subtree:
        print(descendant.text_with_ws, end="")
    print(" ", end="")

In [None]:
for ent in doc.ents:
    print(ent.text, ent.label_)

## Adapter les traitements de Spacy

## 1. re-tokenisation

- voir [https://spacy.io/usage/linguistic-features#retokenization](https://spacy.io/usage/linguistic-features#retokenization)

Dans l'exemple qui suit ¬´ quer-cra ¬ª sera tokeniz√© √† tort.

In [None]:
doc = nlp("Pour les bons bails √ßa va grave quer-cra")
print([(tok.text, tok.lemma_)for tok in doc])

In [None]:
with doc.retokenize() as retokenizer:
    retokenizer.merge(doc[7:], attrs={"LEMMA": "quer-cra", "POS": "NOUN"})
print([(tok.text, tok.pos_) for tok in doc])

Attention ici c‚Äôest l‚Äôobjet doc qui est modifi√©, le r√©sultat mais pas le traitement. Nous allons voir comment faire pour modifier le traitement.

## 2. Modification de la tokenisation

In [None]:
from spacy.symbols import ORTH, LEMMA, POS, TAG

special_case = [{ORTH: "quer-cra", LEMMA: "quer-cra", POS: "VERB"}]
nlp.tokenizer.add_special_case("quer-cra", special_case)
doc = nlp("Pour les bons bails √ßa va grave quer-cra")
print([(tok.text, tok.pos_, tok.lemma_) for tok in doc])

On a bien modifi√© la tokenisation dans le mod√®le `nlp`. Cela n'affecte pas par contre l'√©tiquetage en POS.

## 3. Matching par r√®gle

Spacy a une classe `Matcher` qui permet de rep√©rer des tokens ou des suites de tokens √† l'aide de patrons (*pattern*). Ces patrons peuvent porter sur la forme des tokens ou leurs attributs (pos, ent).  
On peut aussi utiliser des cat√©gories comme `IS_ALPHA` ou `IS_NUM`, voir la [doc](https://spacy.io/usage/rule-based-matching#adding-patterns-attributes)

In [None]:
from spacy.matcher import Matcher

matcher = Matcher(nlp.vocab)
pattern = [{"LOWER": "en"}, {"LOWER": "taille"}, {"IS_ALPHA": True, "IS_UPPER": True}]
# en taille + lettres en maj
matcher.add("tailles", None, pattern)

doc = nlp("Ce mod√®le est aussi disponible en taille M")
matches = matcher(doc)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(match_id, string_id, start, end, span.text)

√áa fonctionne pour les s√©quences comme ¬´ en taille M ¬ª ou ¬´ en taille XL ¬ª mais pas pour ¬´ vous l'avez en XL ? ¬ª

In [None]:
doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(match_id, string_id, start, end, span.text)

On peut essayer d'am√©liorer les r√®gles :

In [None]:
matcher = Matcher(nlp.vocab)
pattern_1 = [{"LOWER": "en"}, {"LOWER": "taille"}, {"IS_ALPHA": True, "IS_UPPER": True}]
pattern_2 = [{"LOWER": "en"}, {"IS_ALPHA": True, "IS_UPPER": True}]
matcher.add("tailles", None, pattern_1, pattern_2)
# r√®gle avec deux patterns

doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(match_id, string_id, start, end, span.text)

Ou encore :

In [None]:
matcher = Matcher(nlp.vocab)
sizes = ['XS', 'S', 'M', 'L', 'XL']
pattern_1 = [{"LOWER": "en"}, {"LOWER": "taille"}, {"TEXT": {"IN": sizes}}]
pattern_2 = [{"LOWER": "en"}, {"TEXT": {"IN": sizes}}]
matcher.add("tailles", None, pattern_1, pattern_2)
# r√®gle avec deux patterns

doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(match_id, string_id, start, end, span.text)

√Ä vous : 
√âcrivez un ou des patrons pour rep√©rer les tournures du type ¬´ j‚Äôveux du L ¬ª, ¬´ j‚Äôprends le V ¬ª dans les phrases :

 - ¬´ J‚Äôveux du L, j‚Äôveux du V, j‚Äôveux du G, pour d√©ssaper ta racli ¬ª
 - ¬´ J‚Äôme repose sur les faits, ouais bient√¥t j‚Äôme refais, j‚Äôte laisse L, j‚Äôprends le V, l‚Äôenfer m‚Äôest r√©serv√©‚ÄØ¬ª


## 4. Entit√©s nomm√©es :¬†traitement par r√®gles
 - Voir [https://spacy.io/usage/rule-based-matching#entityruler](https://spacy.io/usage/rule-based-matching#entityruler)
 
Spacy offre aussi un m√©canisme de traitement par r√®gle pour les entit√©s nomm√©es

In [None]:
from spacy.pipeline import EntityRuler
nlp = spacy.load('fr_core_news_sm')
doc = nlp("Depuis que machin a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
print("Avant : ", [(ent.text, ent.label_) for ent in doc.ents])

ruler = EntityRuler(nlp, overwrite_ents=True)
patterns = [{"label": "ORG", "pattern": "Chrome"},
            {"label":"ORG", "pattern":"machin"},
    {"label":"ORG", "pattern":"Criteo"},
    {"label":"ORG","pattern":"LiveRamp"}]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)

doc = nlp("Depuis que machin a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
print("Apr√®s : ", [(ent.text, ent.label_) for ent in doc.ents])

## 5. Entit√©s nomm√©es ¬†: adaptation du mod√®le

Spacy permet aussi d'adapter un mod√®le, de le mettre √† jour avec un entra√Ænement partiel.  
C'est particuli√®rement int√©ressant puisque cela permet d'adapter un mod√®le g√©n√©rique √† un domaine particulier. Avec un volume de donn√©es limit√©es, sans devoir repartir √† z√©ro. C'est ce qu'on appelle le *transfert learning*.

Bien √©videmment il faut constituer un petit corpus d'apprentissage. Soit √† la main, soit en s'aidant d'un `Matcher`, d'un `Phrase Matcher` ou d'un `Entity Ruler`. De combiner donc le traitement par r√®gle et l'apprentissage.

[Explosion.ai](https://explosion.ai/), la soci√©t√© qui √©dite Spacy, propose un outil commercial nomm√© [Prodigy](https://prodi.gy/) pour constituer ais√©ment un corpus d'apprentissage et lancer les processus de *transfert learning*. 

Ici nous allons utiliser un jeu de donn√©es beaucoup tr√®s limit√©. Pour √™tre r√©aliste il en faudrait beaucoup plus.

In [None]:
# training data
TRAIN_DATA = [
    ("Criteo fonctionne gr√¢ce √† des data centers", {"entities": [(0, 6, "ORG")]}),
    ("LiveRamp a rachet√© Criteo", {"entities": [(0, 8, "ORG"), (18, 25, "ORG")]}),
]

Dans le code qui suit, repris de la doc [ici](https://spacy.io/usage/examples#training-ner), nous allons utiliser la m√©thode `nlp.update` un certain nombre de fois (ici 100). √Ä¬†chaque it√©ration la fonction calcule une perte (p√©nalit√© li√©e aux mauvaises pr√©dictions), on garde le mod√®le qui a la plus faible perte.

Vous trouverez √©galement ci-dessus les m√©thodes pour enregistrer un mod√®le et le charger en m√©moire.

In [54]:
from spacy.util import minibatch, compounding
from pathlib import Path
import random

nlp = spacy.load('fr_core_news_sm')
print("Original model :")
for text, _ in TRAIN_DATA:
    doc = nlp(text)
    print("Entities", [(ent.text, ent.label_) for ent in doc.ents])

ner = nlp.get_pipe("ner")
# add labels
for _, annotations in TRAIN_DATA:
    for ent in annotations.get("entities"):
        ner.add_label(ent[2])

# get names of other pipes to disable them during training
other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]
with nlp.disable_pipes(*other_pipes):  # only train NER
    for itn in range(100):
        random.shuffle(TRAIN_DATA)
        losses = {}
        # batch up the examples using spaCy's minibatch
        batches = minibatch(TRAIN_DATA, size=compounding(4.0, 32.0, 1.001))
        for batch in batches:
            texts, annotations = zip(*batch)
            nlp.update(
                texts,  # batch of texts
                annotations,  # batch of annotations
                drop=0.5,  # dropout - make it harder to memorise data
                losses=losses,
            )
        print("Losses", losses)

# test the trained model
print("Testing model : ")
for text, _ in TRAIN_DATA:
    doc = nlp(text)
    print("Entities", [(ent.text, ent.label_) for ent in doc.ents])

# save model to output directory
output_dir = Path("./")
nlp.to_disk(output_dir)
print("Saved model to", output_dir)

# test the saved model
print("Loading from", output_dir)
nlp2 = spacy.load(output_dir)
for text, _ in TRAIN_DATA:
    doc = nlp2(text)
    print("Entities", [(ent.text, ent.label_) for ent in doc.ents])


Original model :
Entities [('Criteo', 'MISC')]
Entities [('LiveRamp', 'MISC'), ('Criteo', 'MISC')]
Losses {'ner': 3.1428039306629216}
Losses {'ner': 1.9436554685493608}
Losses {'ner': 2.0977062570183413}
Losses {'ner': 1.5694014945547679}
Losses {'ner': 4.264512949044257}
Losses {'ner': 1.9725959087372757}
Losses {'ner': 2.356550514016505}
Losses {'ner': 1.3981396627777507}
Losses {'ner': 0.059147988826914855}
Losses {'ner': 0.5513820468881363}
Losses {'ner': 0.13139400188854405}
Losses {'ner': 0.27305141493796126}
Losses {'ner': 0.1426036087373319}
Losses {'ner': 0.04276248905330249}
Losses {'ner': 0.00011435651585289808}
Losses {'ner': 0.1366490641949916}
Losses {'ner': 0.0007795512978328589}
Losses {'ner': 3.82194560798188e-06}
Losses {'ner': 0.0007613747879391263}
Losses {'ner': 0.01826789357083669}
Losses {'ner': 9.907136099073152e-06}
Losses {'ner': 2.1407109930902523e-10}
Losses {'ner': 8.311232454616402e-05}
Losses {'ner': 0.000668206892865623}
Losses {'ner': 0.0056022221200354

In [55]:
doc = nlp2("Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
for ent in doc.ents:
    print(ent, ent.label_)

Google ORG
Chrome ORG
Criteo ORG
LiveRamp ORG
Index Exchange ORG
