# Cours TAL
## Master Humanit√©s Num√©riques ‚Äì PSL

## [Spacy](https://spacy.io)

- Biblioth√®que logicielle de TAL √©crite en Python (et Cython)
- √âtiquetage POS, lemmatisation, analyse syntaxique, entit√©s nomm√©es, word embedding
- Usage de mod√®les neuronaux
- Int√©gration ais√©e de biblioth√®ques de deep learning
- v2.2.3 ([github](https://github.com/explosion/spaCy))
- Licence MIT (Open Source) pour le code
    - Licences ouvertes diverses pour les mod√®les
- Produit de la soci√©t√© [explosion.ai](https://explosion.ai/). Fond√© par :¬†Matthew Honnibal ([@honnibal](https://twitter.com/honnibal)) et Ines Montani ([@_inesmontani](https://twitter.com/_inesmontani))

## Pourquoi Spacy ?

- C'est du Python üôå üéâ
- Plut√¥t simple √† prendre en main
- Tr√®s bien document√©, √† notre avis. D'ailleurs plut√¥t que ce notebook, suivez l'excellent tutorial d'Ines Montani : [https://course.spacy.io/](https://course.spacy.io/)
- Couvre les traitements d'une cha√Æne de TAL typique
- Pas mal utilis√© dans l'industrie
- MAIS ce n'est pas forc√©ment l'outil qui donne les meilleurs r√©sultats pour le fran√ßais


## Spacy et les autres

Spacy est *un* des frameworks de TAL disponibles

- [NLTK](http://www.nltk.org/) :¬†python, orient√© p√©dagogie, pas de mod√®les neuronaux inclus mais se combine bien avec TensorFlow, PyTorch ou AlleNLP
- [Stanford Core¬†NLP](https://stanfordnlp.github.io/stanfordnlp/) :¬†java, mod√®les pour 53 langues (UD), r√©solution de la cor√©ference.
    <small>[https://github.com/explosion/spacy-stanfordnlp](https://github.com/explosion/spacy-stanfordnlp) permet d'utiliser les mod√®les de CoreNLP avec Spacy</small>
- [TextBlob](https://textblob.readthedocs.io/en/dev/)
- [DKPro](https://dkpro.github.io/)
- [flair](https://github.com/zalandoresearch/flair)

## installation

dans un terminal
```bash
python3 -m pip install --user spacy 
#ou pip install --user spacy
```
- installation du mod√®le fran√ßais
```bash
python3 -m spacy download fr_core_news_sm
#ou python3 -m spacy download fr_core_news_md
```
- v√©rification
```bash
python3 -m spacy validate
```


## mod√®les

- 10 langues :¬†anglais, allemand, fran√ßais, espagnol, portugais, italien, n√©erlandais, grec, norv√©gien, lituanien + mod√®le multi langues
- 2 mod√®les pour le fran√ßais
    - fr_core_news_sm (tagger, parser, ner) 14 Mo
    - fr_core_news_md (tagger, parser, ner, vectors) 84 Mo
- mod√®les `fr` appris sur les corpus [Sequoia](https://deep-sequoia.inria.fr/fr/) et [WikiNer](https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500)


## usage

- *si vous voulez utiliser Spacy prenez le temps de lire la [documentation](https://spacy.io/usage), ici ce ne sera qu'un coup d'≈ìil incomplet*
- un mod√®le est une instance de la classe `Language`, il est adapt√© √† une langue en particulier
- un mod√®le incorpore un vocabulaire, des poids, des vecteurs de mots, une configuration

In [None]:
import spacy
nlp = spacy.load('fr_core_news_sm')

In [None]:
nlp

## usage

- le traitement fonctionne avec un [*pipeline*](https://spacy.io/usage/spacy-101#pipelines) pour convertir un texte en objet `Doc` (texte annot√©)
- par d√©faut `tokenizer` > `tagger` > `parser` > `ner` > `‚Ä¶`
- l'utilisateur peut ajouter des √©tapes ou en retrancher

In [None]:
nlp = spacy.load('fr_core_news_sm', disable=["parser", "ner"])

## usage

 - Un objet `Doc` est une s√©quence d'objets `Token` (voir l'[API](https://spacy.io/api/token))
 - Le texte d'origine est d√©coup√© en phrases, tokeniz√©, annot√© en POS, lemme, syntaxe (d√©pendance) et en entit√©s nomm√©es (NER)

## usage ‚Äì tokenization

La tokenization de Spacy est non-destructive. Vous pouvez d√©couper un texte en tokens et le restituer dans sa forme originale.

In [None]:
doc = nlp("L‚ÄôOrganisation des Nations unies (ONU) a lanc√© mardi un appel d‚Äôurgence pour lever des dizaines de millions de dollars afin de prot√©ger les r√©fugi√©s vuln√©rables face √† la propagation du nouveau coronavirus.")
for tok in doc:
    print(tok)

In [None]:
for tok in doc:
    print(tok.text_with_ws, end="")

## usage ‚Äì √©tiquetage

In [None]:
doc = nlp("Dans les derniers jours de mai 1793, un des bataillons parisiens amen√©s en Bretagne par Santerre fouillait le redoutable bois de la Saudraie en Astill√©. On n'√©tait pas plus de trois cents, car le bataillon √©tait d√©cim√© par cette rude guerre.")
for token in doc:
    print(token.text, token.tag_, token.lemma_, token.ent_type_)

Pour traiter plusieurs textes, vous pouvez utiliser [nlp.pipe](https://spacy.io/api/language#pipe)


```python
docs = list(nlp.pipe(texts))
```

## usage ‚Äì NER

Acc√®s direct aux entit√©s de l'objet `Doc`

In [None]:
for ent in doc.ents:
    print(ent.text, ent.label_)

In [None]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

In [None]:
doc = nlp('Le pr√©sident Xi Jinping a affirm√© que la propagation du coronavirus √©tait ¬´ pratiquement jugul√©e ¬ª. Il s‚Äôest d‚Äôailleurs rendu pour la premi√®re fois √† Wuhan, la capitale de la province du Hubei, le berceau du Covid-19.')
displacy.render(doc, style="ent", jupyter=True)

## usage ‚Äì analyse syntaxique

In [None]:
displacy.render(doc, style="dep", jupyter=True, options={'distance':70})

`noun_chunks` permet de r√©cup√©rer les syntagmes nominaux d'un document

In [None]:
for chunk in doc.noun_chunks:
    print(f"{chunk.text} ({chunk.root.text})")

On peut aussi r√©cup√©rer la t√™te syntaxique et ses d√©pendants

In [None]:
root = [token for token in doc if token.head == token][0]
subjects = [tok for tok in root.lefts if tok.dep_ == "nsubj"]
subject = subjects[0]

In [None]:
for descendant in subject.subtree:
    print(descendant.text)

## √Ä¬†vous

1. Trouver et afficher l'objet de la phrase :¬†¬´ Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.¬ª

2. Afficher les entit√©s nomm√©es et leur cat√©gorie de cette m√™me phrase. Y-a-t'il des erreurs selon vous ?

## Adapter les traitements de Spacy

## 1. re-tokenisation

- voir [https://spacy.io/usage/linguistic-features#retokenization](https://spacy.io/usage/linguistic-features#retokenization)

In [None]:
doc = nlp("Pour les bons bails √ßa va grave quer-cra")
print([tok.text for tok in doc])

In [None]:
with doc.retokenize() as retokenizer:
    retokenizer.merge(doc[7:], attrs={"LEMMA": "quer-cra"})
print([tok.text for tok in doc])

## 2. Entit√©s nomm√©es :¬†traitement par r√®gles
 - Voir [https://spacy.io/usage/rule-based-matching#entityruler](https://spacy.io/usage/rule-based-matching#entityruler)

In [None]:
from spacy.pipeline import EntityRuler
nlp = spacy.load('fr_core_news_sm')
doc = nlp("Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
print("Avant : ", [(ent.text, ent.label_) for ent in doc.ents])
# ('Moutain View', MISC), ('Stadia', LOC)
ruler = EntityRuler(nlp, overwrite_ents=True)
patterns = [{"label": "ORG", "pattern": "Chrome"},
    {"label":"ORG", "pattern":"Criteo"},
    {"label":"ORG","pattern":"LiveRamp"}]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)
doc = nlp("Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
print("Apr√®s : ", [(ent.text, ent.label_) for ent in doc.ents])

## 3. Entit√©s nomm√©es ¬†: adaptation du mod√®le

In [None]:
from spacy.util import minibatch, compounding
from pathlib import Path
import random
# training data
TRAIN_DATA = [
    ("Criteo fonctionne gr√¢ce √† des data centers", {"entities": [(0, 6, "ORG")]}),
    ("LiveRamp a rachet√© Criteo", {"entities": [(0, 8, "ORG"), (18, 25, "ORG")]}),
]

nlp = spacy.load('fr_core_news_sm')
print("Original model :")
for text, _ in TRAIN_DATA:
    doc = nlp(text)
    print("Entities", [(ent.text, ent.label_) for ent in doc.ents])


ner = nlp.get_pipe("ner")
# add labels
for _, annotations in TRAIN_DATA:
    for ent in annotations.get("entities"):
        ner.add_label(ent[2])

# get names of other pipes to disable them during training
other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]
with nlp.disable_pipes(*other_pipes):  # only train NER
    for itn in range(100):
        random.shuffle(TRAIN_DATA)
        losses = {}
        # batch up the examples using spaCy's minibatch
        batches = minibatch(TRAIN_DATA, size=compounding(4.0, 32.0, 1.001))
        for batch in batches:
            texts, annotations = zip(*batch)
            nlp.update(
                texts,  # batch of texts
                annotations,  # batch of annotations
                drop=0.5,  # dropout - make it harder to memorise data
                losses=losses,
            )
        print("Losses", losses)

# test the trained model
print("Testing model : ")
for text, _ in TRAIN_DATA:
    doc = nlp(text)
    print("Entities", [(ent.text, ent.label_) for ent in doc.ents])

# save model to output directory
output_dir = Path("./")
nlp.to_disk(output_dir)
print("Saved model to", output_dir)

# test the saved model
print("Loading from", output_dir)
nlp2 = spacy.load(output_dir)
for text, _ in TRAIN_DATA:
    doc = nlp2(text)
    print("Entities", [(ent.text, ent.label_) for ent in doc.ents])
