# spaCy

[Tuto@Mate – 19 mai 2022 - Clément Plancq (MSH Val de Loire – CITERES)](https://www.youtube.com/watch?v=Z58g33GglR0)

1. **Introduction**
2. Étapes de la chaîne de traitement
3. Extraction d'information
4. Adaptation du modèle

# spaCy quésaco ?

https://spacy.io/

- ~~logiciel~~
- ~~application~~
- ~~service web~~
- bibliothèque logicielle (*library*, *lib*),
- écrite en Python (et Cython),
- pour le TAL (*NLP*)
- sous licence libre

# spaCy quésaco ?

- Produit de la société [explosion.ai](https://explosion.ai/)  
fondée par : Matthew Honnibal ([@honnibal](https://twitter.com/honnibal)) et Ines Montani ([@_inesmontani](https://twitter.com/_inesmontani))
- Licence MIT (Open Source) pour le code
    - Licences ouvertes diverses pour les modèles
- Projet démarré en 2015, v1.0.0 en octobre 2016, v3.3.0 ([github](https://github.com/explosion/spaCy))

# spaCy quésaco ?

- Outil destiné à être utilisé en production : 
    - rapide
    - stable
    - qualité du code (tests, documentation, packaging)
    
- **MAIS** pas de choix de la méthode ou de l'algorithme utilisé

# spaCy quésaco ?

- Chaîne de traitements de TAL
    - tokenisation (*tokenizer*)
    - étiquetage POS (*tagger*)
    - analyse syntaxique (*parser*)
    - détection d'entités nommées (*ner*)
    - lemmatisation
    - (catégorisation de texte
    - word embedding)
- Usage de modèles statistiques (méthodes neuronales)
- Intégration possible de modèles tiers (PyTorch ou TensorFlow)


# Pourquoi spaCy ?

- C'est du Python 🥳  
<small>Il existe un wrapper R, voir [ici](https://spacyr.quanteda.io/)</small>
- Plutôt simple à prendre en main
- Très bien documenté ([doc](https://spacy.io/usage), [api](https://spacy.io/api)) <small>D'ailleurs plutôt que ce notebook, suivez l'excellent tutoriel d'Ines Montani : [https://course.spacy.io/](https://course.spacy.io/)</small>
- Cyle de développement/release régulier, suivi de la communauté sur GitHub (discussions, issues)
- Ressources construites avec spaCy : https://spacy.io/universe


- Fournit les méthodes et les moyens d'adapter le traitement et/ou le modèle à des besoins particuliers
- **MAIS** ce n'est pas forcément l'outil qui donne les meilleurs résultats pour le français dans toutes les tâches de TAL

# spaCy et les autres

spaCy est *un* des frameworks de TAL disponibles

- [NLTK](http://www.nltk.org/) : python, orienté pédagogie, choix des méthodes et algos à utiliser
- [CoreNLP](https://stanfordnlp.github.io/CoreNLP/) : java, framework de Stanford, orienté recherche, chaîne de TAL très complète pour l'anglais en particulier
- [Stanza](https://stanfordnlp.github.io/stanza/) : python, framework de Stanford, modèles neuronaux entraînés sur les données d'Universal Dependancies <small>[https://github.com/explosion/spacy-stanza](https://github.com/explosion/spacy-stanza) permet d'utiliser les modèles de Stanford avec Spacy</small>
- [TextBlob](https://textblob.readthedocs.io/en/dev/) : python
- [DKPro](https://dkpro.github.io) : java
- [flair](https://github.com/zalandoresearch/flair) : python, le framework de Zalando, très bonnes performances en reconnaissance d'entités nommées

# Les modèles de spaCy

- Spacy utilise des [modèles statistiques](https://spacy.io/models) qui permettent de prédire des annotations linguistiques
- 21 langues : allemand, anglais, catalan, chinois, coréen, danois, espagnol, finnois, français, italien, japonais, lituanien, macédonien, néerlandais, grec, norvégien, polonais, portugais, roumain, russe, suédois + modèle multi langues


- Tous ces modèles, quelque soient leur type ou leur langue, s'utilisent de la même façon, avec la même API
- La justesse des annotations dépendra en grande partie de la proximité entre le texte soumis et les textes du corpus d'entraînement

# Les modèles pour le français

- 4 modèles pour le français
    - [fr_core_news_sm](https://spacy.io/models/fr#fr_core_news_sm) (tagger, morphologizer, lemmatizer, parser, ner) 15 Mo 
    - [fr_core_news_md](https://spacy.io/models/fr#fr_core_news_md) (tagger, morphologizer, lemmatizer, parser, ner, vectors) 43 Mo
    - [fr_core_news_lg](https://spacy.io/models/fr#fr_core_news_lg) (tagger, morphologizer, lemmatizer, parser, ner, vectors) 545 Mo
    - [fr_dep_news_trf](https://spacy.io/models/fr#fr_dep_news_trf) (tagger, morphologizer, lemmatizer, parser) 382 Mo
- modèles `fr` appris sur les corpus [Sequoia](https://deep-sequoia.inria.fr/fr/) et [WikiNer](https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500)
- sauf le modèle `trf` qui est issu de camembert-base distribué par [Hugging Face](https://huggingface.co/camembert-base), entraîné sur [Oscar](https://oscar-corpus.com/)

1. Introduction
2. **Étapes de la chaîne de traitement**
3. Extraction d'information
4. Adaptation du modèle

## Installation

```sh
conda create -n nlp python=3.10
conda activate nlp
conda install pytorch torchvision -c pytorch
conda install -c conda-forge jupyterlab
conda install ipykernel
ipython kernel install --user --name=nlp
conda install spacy
python -m spacy download fr_dep_news_trf
```

## Test installation

In [1]:
import torch
x = torch.rand(5, 3)
print(x)

tensor([[0.3756, 0.2839, 0.5497],
        [0.2422, 0.9713, 0.0489],
        [0.5721, 0.2401, 0.9111],
        [0.9373, 0.6879, 0.2090],
        [0.2563, 0.5584, 0.1588]])


In [3]:
import spacy
nlp = spacy.load("fr_dep_news_trf")
doc = nlp("C'est une phrase.")
print([(w.text, w.pos_) for w in doc])

[("C'", 'PRON'), ('est', 'AUX'), ('une', 'DET'), ('phrase', 'NOUN'), ('.', 'PUNCT')]


[Accelerated PyTorch training on Mac](https://developer.apple.com/metal/pytorch/)

In [101]:
import torch
if torch.backends.mps.is_available():
    mps_device = torch.device("mps")
    x = torch.ones(1, device=mps_device)
    print (x)
else:
    print ("MPS device not found.")

tensor([1.], device='mps:0')


## Tokénisation

In [4]:
import spacy

nlp = spacy.load('fr_dep_news_trf')

In [6]:
doc = nlp("Et tu recherches dans le vague une ombre, un sourire qui soulage.")
for token in doc:
    print(token)

Et
tu
recherches
dans
le
vague
une
ombre
,
un
sourire
qui
soulage
.


La tokénisation est non destructive. On peut découper un texte en tokens et le restituer dans sa forme originale

In [11]:
doc = nlp("""Le dictionnaire de mes souvenirs
N'a qu'une page, une seule rubrique
Qui commence par ton absence
Et dans l'ordre alphabétique
Se termine par l'état d'amnésie
Tes états d'âme sont un leurre
Et tes larmes sont les armes dont tu te sers
Mais ce piège ne tromperait qu'un amateur
Ton âme sœur est une meilleure adversaire""")


# All tokens in spacy keep their context around so all text can be recreated without any loss of data.
# Since the attribute text_with_ws has the token with its corresponding whitespace character if it exists.
text = ''.join([token.text_with_ws for token in doc])
print(text)

Le dictionnaire de mes souvenirs
N'a qu'une page, une seule rubrique
Qui commence par ton absence
Et dans l'ordre alphabétique
Se termine par l'état d'amnésie
Tes états d'âme sont un leurre
Et tes larmes sont les armes dont tu te sers
Mais ce piège ne tromperait qu'un amateur
Ton âme sœur est une meilleure adversaire


Un objet de la classe [`Doc`](https://spacy.io/api/doc) contient aussi le produit du découpage en phrases

In [12]:
doc = nlp("C’était pas l'année dernière. C'était pas à Marienbad. \
Comment voulez-vous que je m'en rappelle, à force de l'attendre, \
je ne savais plus qui l'attendait. Le temps est un traître de cape et d'épée \
qui vous glisse sa poudre d'oubli dans votre coca. Faudrait pouvoir choisir son film. \
J'n'avais plus qu'à me barricader dans la p'tite maison près du lac \
avec le canoë rose, à deux places qui flotterait, comme ça pour personne")

for sent in doc.sents:
    print(sent, "\n")

C’était pas l'année dernière. 

C'était pas à Marienbad. 

Comment voulez-vous que je m'en rappelle, à force de l'attendre, je ne savais plus qui l'attendait. 

Le temps est un traître de cape et d'épée qui vous glisse sa poudre d'oubli dans votre coca. 

Faudrait pouvoir choisir son film. 

J'n'avais plus qu'à me barricader dans la p'tite maison près du lac avec le canoë rose, à deux places qui flotterait, comme ça pour personne 



## Étiquetage (*tagging*)

[Part-of-speech tagging](https://spacy.io/usage/linguistic-features#pos-tagging)

In [14]:
doc = nlp("Tous mes beaux châteaux d'Équateur s'écroulent.")

for token in doc:
    print(token, tok.pos_)

Tous PUNCT
mes PUNCT
beaux PUNCT
châteaux PUNCT
d' PUNCT
Équateur PUNCT
s' PUNCT
écroulent PUNCT
. PUNCT


Les annotations portant sur les tokens sont accessibles via les attributs des objets de type `token` : [https://spacy.io/api/token#attributes](https://spacy.io/api/token#attributes)  
  - `pos_` contient l'étiquette de partie du discours de [universal dependancies](https://universaldependencies.org/docs/u/pos/)
  - `tag_` contient l'étiquette du corpus original, parfois plus détaillée
  - `lemma_` pour le lemme
  - `morph` pour l'analyse morphologique

In [15]:
for token in doc:
    print(token, token.lemma_, token.pos_, token.morph)

Tous tout ADJ Gender=Masc|Number=Plur
mes mon DET Number=Plur|Poss=Yes
beaux beal ADJ Gender=Masc|Number=Plur
châteaux château NOUN Gender=Masc|Number=Plur
d' de ADP 
Équateur Équateur PROPN Gender=Masc|Number=Sing
s' se PRON Person=3|Reflex=Yes
écroulent écrouler VERB Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
. . PUNCT 


In [26]:
import pandas as pd

tags = ['Text', 'Lemma', 'POS', 'Tag', 'Dep', 'Shape', 'alpha', 'stop']
d = {tag:[] for tag in tags}

doc = nlp("Tous mes beaux châteaux d'Équateur s'écroulent.")

for token in doc:
    d['Text'].append(token.text)
    d['Lemma'].append(token.lemma_)
    d['POS'].append(token.pos_)
    d['Tag'].append(token.tag_)
    d['Dep'].append(token.dep_)
    d['Shape'].append(token.shape_)
    d['alpha'].append(token.is_alpha)
    d['stop'].append(token.is_stop)

df = pd.DataFrame(data=d)
df


Unnamed: 0,Text,Lemma,POS,Tag,Dep,Shape,alpha,stop
0,Tous,tout,ADJ,ADJ,amod,Xxxx,True,True
1,mes,mon,DET,DET,det,xxx,True,True
2,beaux,beal,ADJ,ADJ,amod,xxxx,True,False
3,châteaux,château,NOUN,NOUN,nsubj,xxxx,True,False
4,d',de,ADP,ADP,case,x',False,True
5,Équateur,Équateur,PROPN,PROPN,nmod,Xxxxx,True,False
6,s',se,PRON,PRON,expl:comp,x',False,True
7,écroulent,écrouler,VERB,VERB,ROOT,xxxx,True,False
8,.,.,PUNCT,PUNCT,punct,.,False,False


    Text: The original word text.
    Lemma: The base form of the word.
    POS: The simple UPOS part-of-speech tag.
    Tag: The detailed part-of-speech tag.
    Dep: Syntactic dependency, i.e. the relation between tokens.
    Shape: The word shape – capitalization, punctuation, digits.
    is alpha: Is the token an alpha character?
    is stop: Is the token part of a stop list, i.e. the most common words of the language?

## Détection d'entités nommées (*ner : Named Entity Recognition*)

In [28]:
# Avec fr_dep_news_trf
#UserWarning: [W006] No entities to visualize found in Doc object.
# If this is surprising to you, make sure the Doc was processed using a model that supports named entity recognition,
#and check the `doc.ents` property manually if necessary.

nlp = spacy.load('fr_core_news_lg')
doc = nlp("Le bandit s'appelle Mister Kali Jones \
avec l'ami Bill Ballantine, \
sauvé de justesse des crocodiles, \
stop au trafic des Caraïbes.")

for ent in doc.ents:
    print(ent, ent.label_)

Mister Kali Jones PER
Bill Ballantine PER
Caraïbes LOC


In [29]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

In [30]:
doc = nlp("À l’heure où le président russe, Vladimir Poutine, prononçait sur la place Rouge son discours annuel \
sur la guerre de 1941-1945, cette année presque entièrement consacrée au conflit en Ukraine, \
son homologue ukrainien, Volodymyr Zelensky, diffusait une vidéo de lui-même marchant seul \
sur l'avenue Khrechtchatyk de Kiev, là où ont lieu, d’habitude, les cérémonies nationales dans son pays.")

displacy.render(doc, style="ent", jupyter=True)

## Analyse syntaxique (*parsing*)

 - L'analyse syntaxique ou *parsing* de Spacy est une analyse en dépendance.

- Dans l'analyse en dépendance produite par Spacy, chaque mot d'une phrase a un gouverneur unique (*head*), la relation de dépendance entre le mot et son gouverneur est typée (*nsubj*, *obj*, …).  
Pour la tête de la phrase on utilise la relation *ROOT*.

- La structure produite par l'analyse syntaxique est un arbre, un graphe acyclique et connexe.  
Les tokens sont les nœuds, les arcs sont les dépendances, le type de la relation est l'étiquette de l'arc.

In [31]:
doc = nlp("Il te refile en stéréo la chanson des sirènes.")
for token in doc:
    print(token, token.dep_, token.head)

Il expl:subj refile
te iobj refile
refile ROOT refile
en case chanson
stéréo fixed en
la det chanson
chanson obl:arg refile
des case sirènes
sirènes nmod chanson
. punct refile


In [32]:
from spacy import displacy

doc = nlp("Il te refile en stéréo la chanson des sirènes.")
displacy.render(doc, style="dep", jupyter=True, options={'distance':110})

In [34]:
import explacy
# https://spacy.io/universe/project/explacy

explacy.print_parse_info(nlp, "Il te refile en stéréo la chanson des sirènes.")

Dep tree   Token   Dep type  Lemma   Part of Sp
────────── ─────── ───────── ─────── ──────────
      ┌──► Il      expl:subj il      PRON      
      │┌─► te      iobj      te      PRON      
┌┬────┴┴── refile  ROOT      refiler VERB      
││  ┌─►┌── en      case      en      ADP       
││  │  └─► stéréo  fixed     stéréo  ADJ       
││  │  ┌─► la      det       le      DET       
│└─►├──┴── chanson obl:arg   chanson NOUN      
│   │  ┌─► des     case      de      ADP       
│   └─►└── sirènes nmod      sirène  NOUN      
└────────► .       punct     .       PUNCT     


Les attributs de token suivants peuvent être utilisés pour parcourir l'arbre de dépendance : 
- `children` les tokens dépendants du token
- `subtree` tous les descendants du token
- `ancestors` tous les parents du token
- `rights` les enfants à droite du token
- `lefts` les enfants à gauche du token

In [41]:
for token in doc:
    print(token.text, token.dep_, token.head.text, token.head.pos_,
            [child for child in token.children])

Il expl:subj refile VERB []
te iobj refile VERB []
refile ROOT refile VERB [Il, te, chanson, .]
en case chanson NOUN [stéréo]
stéréo fixed en ADP []
la det chanson NOUN []
chanson obl:arg refile VERB [en, la, sirènes]
des case sirènes NOUN []
sirènes nmod chanson NOUN [des]
. punct refile VERB []


In [36]:
root = [token for token in doc if token.head == token][0]
root

refile

In [42]:
print([token.text for token in root.lefts])  # ['bright', 'red']
print([token.text for token in root.rights])  # ['on']
print(doc[2].n_lefts)  # 2
print(doc[2].n_rights)  # 1

['Il', 'te']
['chanson', '.']
2
2


1. Introduction
2. Étapes de la chaîne de traitement
3. **Extraction d'information**
4. Adaptation du modèle

## règles sur les tokens

- Spacy a une classe `Matcher` qui permet de repérer des tokens ou des séquences de tokens à l'aide de patrons (*pattern*).

- Ces patrons peuvent porter sur la forme des tokens ou leurs attributs (pos, ent, …).  

- On peut aussi utiliser des catégories comme `IS_ALPHA` ou `IS_NUM`, voir la [doc](https://spacy.io/usage/rule-based-matching#adding-patterns-attributes)

- (Il existe une [démo](https://explosion.ai/demos/matcher) avec interface graphique mais pas pour le français 🙁)

In [62]:
from spacy.matcher import Matcher

doc = nlp("Ce modèle est aussi disponible en taille XL ; je vous le conseille.")

matcher = Matcher(nlp.vocab)
pattern = [{"LOWER": "en"}, {"LOWER": "taille"}, {"IS_ALPHA": True, "IS_UPPER": True}]
# 'en' 'taille' + lettres en maj
matcher.add("tailles", [pattern])

matches = matcher(doc)
for x, start, end in matches:
    span = doc[start:end]  # The matched span
    print(f"doc[{start}, {end}] = \"{span.text}\"")

doc[5, 8] = "en taille XL"


Ça fonctionne pour les séquences comme « en taille M » ou « en taille XL » mais pas pour « vous l'avez en XL ? »

In [63]:
doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for _, start, end in matches:
    span = doc[start:end]  # The matched span
    print(f"doc[{start}, {end}] = \"{span.text}\"")

On peut essayer d'améliorer les règles :

In [64]:
matcher = Matcher(nlp.vocab)
pattern_1 = [{"LOWER": "en"}, {"LOWER": "taille"}, {"IS_ALPHA": True, "IS_UPPER": True}]
pattern_2 = [{"LOWER": "en"}, {"IS_ALPHA": True, "IS_UPPER": True}]
matcher.add("tailles", [pattern_1, pattern_2])
# règle avec deux patterns

doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for _, start, end in matches:
    span = doc[start:end]  # The matched span
    print(f"doc[{start}, {end}] = \"{span.text}\"")

doc[3, 5] = "en XL"


Ou encore :

In [65]:
matcher = Matcher(nlp.vocab)
sizes = ['XS', 'S', 'M', 'L', 'XL']
pattern_1 = [{"LOWER": "en"}, {"LOWER": "taille"}, {"TEXT": {"IN": sizes}}]
pattern_2 = [{"LOWER": "en"}, {"TEXT": {"IN": sizes}}]
matcher.add("tailles", [pattern_1, pattern_2])
# règle avec deux patterns

doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for _, start, end in matches:
    span = doc[start:end]  # The matched span
    print(f"doc[{start}, {end}] = \"{span.text}\"")

doc[3, 5] = "en XL"


## Entités nommées : traitement par règles

Voir [https://spacy.io/usage/rule-based-matching#entityruler](https://spacy.io/usage/rule-based-matching#entityruler)
 


In [66]:
histoire_da = """Valérie s'ennuyait
Dans les bras de Nicolas 
Mais Nicolas, celui-là 
Ne le savait pas 
Isabelle a attendu, attendu 
Mais Patrick n'est jamais reparu 

Les histoires d'A 
Les histoires d'amour 
Les histoires d'amour finissent mal 
Les histoires d'amour finissent mal en général 

Michel aimait Gérard 
Et Gérard le lui rendait si bien 
Qu'à la fin ça ne rendait rien 
Evelyne toute sa vie attendit 
Que le monsieur en gris lui sourit 

Gilbert partit en voyage 
Juste au moment de son mariage 
Hector est mort en faisant une fugue 
Il allait retrouver Gertrude 
Simone et Tom s'engueulaient 
Dès que vingt et une heures sonnaient 

Les histoires d'amour finissent mal en général 
Les histoires d'amour finissent mal en général 
Les histoires d'amour finissent mal en général """

In [67]:
doc = nlp(histoire_da)
displacy.render(doc, style="ent", jupyter=True)

In [91]:
from spacy.pipeline import EntityRuler
nlp = spacy.load('fr_core_news_lg', disable = ['ner'])

first_names = ["Valérie", "Nicolas", "Isabelle", "Patrick", "Michel", "Gérard",\
           "Evelyne", "Gilbert", "Hector", "Gertrude", "Simone", "Tom"]

ruler = nlp.add_pipe("entity_ruler")
patterns = [{"label": "PER", "pattern":[{"TEXT": {"IN": first_names}}]}]
#for f in first_names:
#    ruler.add_patterns([{"label": "PER", "pattern": f}])
    
ruler.add_patterns(patterns)

doc = nlp(histoire_da)
print([(ent.text, ent.label_) for ent in doc.ents])

displacy.render(doc, style="ent", jupyter=True)

[('Valérie', 'PER'), ('Nicolas', 'PER'), ('Nicolas', 'PER'), ('Isabelle', 'PER'), ('Patrick', 'PER'), ('Michel', 'PER'), ('Gérard', 'PER'), ('Gérard', 'PER'), ('Evelyne', 'PER'), ('Gilbert', 'PER'), ('Hector', 'PER'), ('Gertrude', 'PER'), ('Simone', 'PER'), ('Tom', 'PER')]


## Dependency Matcher : extraction de patrons

- Depuis la v3, Spacy a ajouté un *Dependancy Matcher* qui permet de faire de l'extraction de patrons syntaxiques

- Il est maintenant possible de faire porter des requêtes sur l'arbre syntaxique et non plus seulement sur la séquence des tokens.  

- Ce dispositif utilise [Semgrex](https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/semgraph/semgrex/SemgrexPattern.html), la syntaxe utilisée dans Tgrep et Tregex, les outils de requête sur Treebank de Stanford.

- Voir la [documentation](https://spacy.io/usage/rule-based-matching#dependencymatcher)

In [93]:
ventre_short = ""
with open('Le_Ventre_de_Paris-short.txt') as input_f:
    ventre_short = input_f.read()
doc = nlp(ventre_short)

In [94]:
from spacy.matcher import DependencyMatcher

matcher = DependencyMatcher(nlp.vocab)
pattern = [
  {
    "RIGHT_ID": "vendre",    
    "RIGHT_ATTRS": {"LEMMA": "vendre"}
  }
]
matcher.add("VENDRE", [pattern])
matches = matcher(doc)
for match_id, token_ids in matches:
    for token_id in token_ids:
        print(doc[token_id])


vend
vendant
vendait
vends
vendait
vendaient
vendaient
vend
vendu
vendu
vendre
vendait
vendu
vendais
vendu
vendrait


In [52]:
from spacy.matcher import DependencyMatcher

matcher = DependencyMatcher(nlp.vocab)
pattern = [
    {
        "RIGHT_ID": "vendre",    
        "RIGHT_ATTRS": {"LEMMA": {"IN": ["vendre", "acheter"]}}
    },
    {
        "LEFT_ID": "vendre",
        "REL_OP": ">",
        "RIGHT_ID": "sujet",
        "RIGHT_ATTRS": {"DEP": "nsubj"},  
    },
    {
        "LEFT_ID": "vendre",
        "REL_OP": ">",
        "RIGHT_ID": "objet",
        "RIGHT_ATTRS": {"DEP": {"IN": ["obj", "iobj", "obl"]}},  
    }
]

# {lemma:/vendre|acheter/} > {dep:nsubj} : {lemma:vendre|acheter} > {dep:/obj|iobj|obl/} 
matcher.add("VENDRE", [pattern])
matches = matcher(doc)
for m_id, t_ids in matches:
    print("verbe, sujet, objet : ", " -> ".join([doc[t_id].text for t_id in t_ids]))
    print("objet complet : ", " ".join([t.text for t in doc[t_ids[2]].subtree]))
    print("Phrase compléte : ", doc[t_ids[0]].sent)
    print()

verbe, sujet, objet :  acheta -> il -> derniers
objet complet :  ses deux derniers sous de pain
Phrase compléte :  Mais, à Vernon, il acheta ses deux derniers sous de pain.

verbe, sujet, objet :  achetait -> elle -> navets
objet complet :  ses navets à mon père
Phrase compléte :  J’étais gamine, qu’elle achetait déjà ses navets à mon père.

verbe, sujet, objet :  vendaient -> qui -> bottes
objet complet :  des bottes de fougère et des paquets de feuilles de vigne , bien réguliers , attachés par quarterons
Phrase compléte :  Ils s’arrêtèrent curieusement devant des femmes qui vendaient des bottes de fougère et des paquets de feuilles de vigne, bien réguliers, attachés par quarterons.

verbe, sujet, objet :  vend -> Lui -> volaille
objet complet :  toute la volaille qu’ il veut
Phrase compléte :  Lui, vend toute la volaille qu’il veut…

verbe, sujet, objet :  achetait -> il -> morceau
objet complet :  un morceau de dinde ou un morceau d’ oie de douze
Phrase compléte :  Quand Florent ren

1. Introduction
2. Étapes de la chaîne de traitement
3. Extraction d'information
4. **Adaptation du modèle**

## Entités nommées : entraînement

- La taille et la nature du corpus d'entraînement seront déterminantes
- Il est possible d'amender un modèle existant avec un jeu de données annotées de taille réduite

- Exemple sur les entités nommées mais la procédure d'entraînement fonctionne pour d'autres niveaux d'annotations (pos, dépendance)
- Voir la doc : https://spacy.io/usage/training

- Petit exemple avec des extraits de la page Wikipedia https://fr.wikipedia.org/wiki/Personnages_de_Mario  

- Nous conservons le tagset utilisés dans le français (LOC, MISC, ORG, PER)

Nous travaillerons sur 5 petits fichiers

In [102]:
!ls txt

luigi.txt mario.txt peach.txt toad.txt  yoshi.txt


In [103]:
!more txt/yoshi.txt

Yoshi est un dinosaure ami de Mario. Il peut attraper des objets éloignés grâce à sa longue langue et les avaler pour ensuite pondre des œufs. Comme Toad, son espèce existe en plusieurs couleurs : bleu clair, bleu foncé, rose, violet, vert, jaune, noir, blanc et rouge. On peut le remarquer également grâce à son gros nez. Il est apparu pour la première fois dans Super Mario World en 1990, et est le personnage principal de la série Yoshi's Island où il doit sauver Bébé Luigi, reprendre des fruits volés, récupérer des pelotes… 
[K[?1l>shi.txt (END)[m[K

In [110]:
nlp = spacy.load('fr_core_news_md')

with open('txt/yoshi.txt') as input:
    content = input.read()
    doc = nlp(content)
    displacy.render(doc, style="ent", jupyter=True)

- Ces fichiers doivent être tokenizés puis annotés au format BIO. Voir l'exemple https://github.com/explosion/spaCy/blob/master/extra/example_data/ner_example_data/ner-token-per-line.iob

- Puis les fichiers seront convertis à l'aide de la commande `convert` (https://spacy.io/api/cli#convert).  
Exemple :  
`python -m spacy convert dev_conll/yoshi.conll dev_dir/ --converter ner`

In [107]:
!head dev_conll/yoshi.conll

Yoshi	B-PER
est	O
un	O
dinosaure	O
ami	O
de	O
Mario	B-PER
.	O
Il	O
peut	O


In [121]:
!python -m spacy convert dev_conll/yoshi.conll dev_dir/ --converter ner

[38;5;4mℹ Auto-detected token-per-line NER format[0m
[38;5;3m⚠ No sentence boundaries found to use with option `-n 1`. Use `-s` to
automatically segment sentences or `-n 0` to disable.[0m
[38;5;3m⚠ No sentence boundaries found. Use `-s` to automatically segment
sentences.[0m
[38;5;3m⚠ No document delimiters found. Use `-n` to automatically group
sentences into documents.[0m
[38;5;2m✔ Generated output file (1 documents): dev_dir/yoshi.spacy[0m


In [122]:
!python -m spacy convert train_conll/all.conll train_dir/ --converter ner

[38;5;4mℹ Auto-detected token-per-line NER format[0m
[38;5;3m⚠ No sentence boundaries found to use with option `-n 1`. Use `-s` to
automatically segment sentences or `-n 0` to disable.[0m
[38;5;3m⚠ No sentence boundaries found. Use `-s` to automatically segment
sentences.[0m
[38;5;3m⚠ No document delimiters found. Use `-n` to automatically group
sentences into documents.[0m
[38;5;2m✔ Generated output file (1 documents): train_dir/all.spacy[0m


- Dans la version 3.0, Spacy utilise un fichier de configuration dont le format est défini dans Thinc (https://thinc.ai/docs/usage-config).  
Le plus simple est d'utiliser le widget de la doc pour définir les paramètres principaux : https://spacy.io/usage/training#quickstart
 
- La commande ci-dessous permet de générer votre fichier de configuration : 
 `python -m spacy init fill-config base_config.cfg config.cfg`
 
- Il y a quantité de paramètres à définir dans ce fichier de config évidemment. `init` utilise des valeurs par défaut qu'on peut modifier.  


In [114]:
!pip install spacy-transformers

Collecting spacy-transformers
  Downloading spacy_transformers-1.3.4-cp310-cp310-macosx_11_0_arm64.whl.metadata (7.0 kB)
Collecting transformers<4.37.0,>=3.4.0 (from spacy-transformers)
  Downloading transformers-4.36.2-py3-none-any.whl.metadata (126 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m126.8/126.8 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Collecting spacy-alignments<1.0.0,>=0.7.2 (from spacy-transformers)
  Downloading spacy_alignments-0.9.1-cp310-cp310-macosx_11_0_arm64.whl.metadata (2.7 kB)
Collecting huggingface-hub<1.0,>=0.19.3 (from transformers<4.37.0,>=3.4.0->spacy-transformers)
  Downloading huggingface_hub-0.20.3-py3-none-any.whl.metadata (12 kB)
Collecting tokenizers<0.19,>=0.14 (from transformers<4.37.0,>=3.4.0->spacy-transformers)
  Downloading tokenizers-0.15.1-cp310-cp310-macosx_11_0_arm64.whl.metadata (6.7 kB)
Collecting safetensors>=0.3.1 (from transformers<4.37.0,>=3.4.0->spacy-transformers)
  Downloading safetensors

In [123]:
!python -m spacy init fill-config base_config.cfg config.cfg

[38;5;2m✔ Auto-filled config with all values[0m
[38;5;2m✔ Saved config[0m
config.cfg
You can now add your data and train your pipeline:
python -m spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


- On peut choisir soit d'entraîner un modèle ou un des composants du modèle *from scratch*, soit de modifier les poids d'un modèle existant

From scratch : 
```
[components.ner]
factory = "ner"
```

Depuis un modèle : 
```
[components.ner]
source = "fr_core_news_md"    
```

L'entraînement à proprement parler se fait en ligne de commande :

In [124]:
!python -m spacy train config.cfg --output ./output --paths.train ./train_dir/all.spacy --paths.dev ./dev_dir/yoshi.spacy --gpu-id 0


[38;5;4mℹ Saving to output directory: output[0m
[38;5;4mℹ Using GPU: 0[0m
[1m
[38;5;2m✔ Initialized pipeline[0m
[1m
[38;5;4mℹ Pipeline: ['transformer', 'ner'][0m
[38;5;4mℹ Initial learn rate: 0.0[0m
E    #       LOSS TRANS...  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  -------------  --------  ------  ------  ------  ------
  0       0         368.82    545.69    5.17    2.73   50.00    0.05
200     200      152914.92  51512.13   42.86   37.50   50.00    0.43
400     400      108230.08   7134.02   57.14   50.00   66.67    0.57
600     600          34.20     28.12   57.14   50.00   66.67    0.57
800     800           3.58      0.67   57.14   50.00   66.67    0.57
1000    1000           0.02      0.01   57.14   50.00   66.67    0.57
1200    1200           0.01      0.00   57.14   50.00   66.67    0.57
1400    1400           0.00      0.00   57.14   50.00   66.67    0.57
1600    1600           0.00      0.00   57.14   50.00   66.67    0.57
1800    1800           0.0

Spacy propose également un outil d'évaluation qui vous permettra de comparer les performances des modèles que vous avez généré. Les métriques sont choisies en fonction du/des types d'annotations du modèle. Pour les entités nommées on a : Précision, Rappel, F-Mesure.
  
`python -m spacy evaluate model/model-best/ dev_corpus/yoshi.spacy`

`python -m spacy evaluate fr_core_news_md dev_corpus/yoshi.spacy`

In [126]:
!python -m spacy evaluate fr_core_news_md dev_dir/yoshi.spacy

[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m

TOK      -    
TAG      0.00 
POS      -    
MORPH    -    
LEMMA    -    
UAS      -    
LAS      -    
NER P    66.67
NER R    66.67
NER F    66.67
SENT P   0.00 
SENT R   0.00 
SENT F   0.00 
SPEED    3834 

[1m

            P        R       F
MISC    66.67   100.00   80.00
PER    100.00    50.00   66.67
ORG      0.00     0.00    0.00



In [127]:
!python -m spacy evaluate output/model-best dev_dir/yoshi.spacy

[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m

TOK     -    
NER P   50.00
NER R   66.67
NER F   57.14
SPEED   419  

[1m

            P       R       F
PER     42.86   75.00   54.55
MISC   100.00   50.00   66.67



In [132]:
import spacy_transformers
nlp = spacy.load('output/model-best')


  from .autonotebook import tqdm as notebook_tqdm


In [133]:
#nlp = spacy.load('output/model-best')

with open('txt/yoshi.txt') as input:
    content = input.read()
    doc = nlp(content)
    displacy.render(doc, style="ent", jupyter=True)

spaCy prévoit les mécanismes d'export et import des modèles et des données : https://spacy.io/usage/saving-loading

# Merci !

Dans l'ordre :
- Jeanne Mas, Toute première fois, 1984
- Luna Parker, Tes états d'âme… Éric, 1987
- Corynne Charby, Boule de flipper, 1987
- Viktor Lazlo, Canoë Rose, 1985
- Indochine, L'aventurier, 1982
- Philip Lavil, Il tape sur des bambous, 1986
- Rita Mistuko, Les histoires d'A, 1987