<img src="https://heig-vd.ch/docs/default-source/doc-global-newsletter/2020-slim.svg" alt="HEIG-VD Logo" width="100" align="right" /> 

# Cours TAL - Laboratoire 3<br/>*Depedency parser* pour le français dans spaCy

**Objectif**

Évaluer l'analyseur syntaxique en dépendances fourni par spaCy dans le modèle `fr_core_news_sm`, puis le comparer avec un analyseur entraîné par vous-mêmes.  Les données sont les mêmes qu'au Labo 2 et la démarche du labo est similaire aussi.

## 1. Prise en main de l'analyseur de spaCy

In [6]:
import spacy
nlp = spacy.load("fr_core_news_sm") # charge la pipeline

**1a.** Pour la pipeline `fr_core_news_sm`, veuillez afficher les traitements disponibles, puis désactiver tous les traitements sauf `tok2vec`, `morphologizer` et `parser`, puis vérifiez que la désactivation a bien fonctionné.

In [7]:
# Veuillez écrire votre code ici.
nlp.pipe_names
nlp.disable_pipe("attribute_ruler")
nlp.disable_pipe("lemmatizer")
nlp.disable_pipe("ner")
nlp.pipe_names

['tok2vec', 'morphologizer', 'parser']

In [8]:
from spacy.lang.fr.examples import sentences
s1 = sentences[2] # prenons la 3e phrase comme exemple

**1b.** Veuillez analyser `s1` avec la pipeline `nlp` puis afficher chaque token, son POS tag, et son étiquette indiquant la relation de dépendance (entre crochets, après le token).  Quelle information essentielle manque dans cette représentation ?

Note : le *morphologizer* fournit aussi les POS tags.  La liste des tags possibles est [fournie par spaCy](https://spacy.io/models/fr#fr_core_news_md-labels).  

In [9]:
# Veuillez écrire votre code et votre réponse ici.
doc = nlp(s1)
for token in doc:
    print(token.text + " [" + token.pos_ + "]" + " [" + token.dep_ + "]")

San [DET] [det]
Francisco [PROPN] [nsubj]
envisage [VERB] [ROOT]
d' [ADP] [case]
interdire [NOUN] [xcomp]
les [DET] [det]
robots [NOUN] [obj]
coursiers [ADJ] [amod]
sur [ADP] [case]
les [DET] [det]
trottoirs [NOUN] [obl:mod]


**1c.** Veuillez afficher tous les groupes de mots qui sont soit des `nsubj` soit des `obj` dans la phrase `s1` (c'est à dire les sujets et les objets du verbe).   Indication : le sous-arbre d'un token *t* est accessible comme `t.subtree`. 

In [10]:
# Veuillez écrire votre code ici.
for token in doc:
    if token.dep_ in ["nsubj","obj"]:
        print(token.text + " [" + token.pos_ + "]" + " [" + token.dep_ + "]")
        for subtoken in token.subtree:
            print("  - " + subtoken.text + " [" + subtoken.pos_ + "]" + " [" + subtoken.dep_ + "]")

Francisco [PROPN] [nsubj]
  - San [DET] [det]
  - Francisco [PROPN] [nsubj]
robots [NOUN] [obj]
  - les [DET] [det]
  - robots [NOUN] [obj]
  - coursiers [ADJ] [amod]


## 2. Évaluation quantitative de l'analyseur sur une phrase 

Les données sont les mêmes que celles du Labo 2.  Vous les avez déjà transformées au Labo 2 dans un format utilisable par spaCy, dans un dossier nommé `Labo2/spacy_data` que vous allez réutiliser.  Les trois fichiers contiennent des phrases en français annotées aussi avec les arbres de dépendance.  Le fichier `fr-ud-train.conllu` est destiné à l'entraînement, `fr-ud-dev.conllu` au réglage des paramètres, et `fr-ud-test.conllu` à l'évaluation finale.

**2a.** En inspectant un des fichiers d'origine avec un éditeur texte, veuillez indiquer dans quelles colonnes se trouvent les informations sur les relations de dépendance, et comment elles sont représentées.

In [11]:
# Veuillez écrire votre réponse dans cette cellule.
# Les informations sur les relations de dépendance se trouvent aux colonnes 8 et 9
# La colonne 8 contient la relations de dépendance universelle don la liste se trouve ici : https://universaldependencies.org/u/dep/index.html
# La colonne 9 contient un graphe de dépendance amélioré sous la forme d'une liste de paires.

In [12]:
from spacy.tokens import DocBin, Doc
test_data = DocBin().from_disk("./spacy_data/fr-ud-test.spacy")
# for doc in test_data.get_docs(nlp.vocab):  # exemple
#     for sent in doc.sents:
#         print(sent)

**2b**. On rapplle que les données des fichiers convertis peuvent être chargées dans un objet de type `DocBin`.  Ici, un tel objet contient un ensemble de documents, chacun contenant 10 phrases.  Chaque document est un objet de type `Doc`.  Le code donné ci-dessous vous permet de charger les données de test et vous montre comment les afficher.

* Veuillez stocker la *7e phrase du 2e document des données de test* dans une variable nommée `s2`.
* Veuillez afficher cette phrase (elle commence par "Trois ans").

In [13]:
# Veuillez écrire votre code ici.
second_doc = list(test_data.get_docs(nlp.vocab))[1]
s2 = list(second_doc.sents)[6]  

print(s2)

Trois ans plus tard, il tient un discours sur la crise.


**2c.** En utilisant `displaCy` comme expliqué [ici](https://spacy.io/usage/visualizers) veuillez afficher graphiquement l'arbre de dépendances de la phrase `s2` tel qu'il est fourni dans les données.  Pour être affichée, la phrase doit être transformée en objet `Doc`.

In [14]:
from spacy import displacy

In [15]:
# Veuillez écrire votre code ici.
f = open("fr-ud-dev_dep_graph.svg", "w")
svg = displacy.render(s2, style="dep",jupyter=False)
print(svg)
f.write(svg)
f.close()

<svg xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" xml:lang="fr" id="62197c55f01f4984a61b3b5e6e0d39b2-0" class="displacy" width="1975" height="399.5" direction="ltr" style="max-width: none; height: 399.5px; color: #000000; background: #ffffff; font-family: Arial; direction: ltr">
<text class="displacy-token" fill="currentColor" text-anchor="middle" y="309.5">
    <tspan class="displacy-word" fill="currentColor" x="50">Trois</tspan>
    <tspan class="displacy-tag" dy="2em" fill="currentColor" x="50">NUM</tspan>
</text>

<text class="displacy-token" fill="currentColor" text-anchor="middle" y="309.5">
    <tspan class="displacy-word" fill="currentColor" x="225">ans</tspan>
    <tspan class="displacy-tag" dy="2em" fill="currentColor" x="225">NOUN</tspan>
</text>

<text class="displacy-token" fill="currentColor" text-anchor="middle" y="309.5">
    <tspan class="displacy-word" fill="currentColor" x="400">plus</tspan>
    <tspan class="displacy-tag" dy="2em" fi

**2d.** En utilisant `displaCy`, veuillez également afficher l'arbre de dépendances calculé par la pipeline `nlp` pour cette même phrase `s2`.  Pour être analysée et affichée, la phrase doit être transformée en objet `Doc`.

In [16]:
# Veuillez écrire votre code ici.
doc = nlp(s2.text)
f = open("nlp_dep_graph.svg", "w")
svg = displacy.render(doc, style="dep",jupyter=False)
f.write(svg)
f.close()

**2e.** Veuillez comparer les deux arbres de dépendances et indiquer ici les différences.  Quel est le taux de correction de la pipeline `nlp` sur cette phrase ?

Suggestion : il peut être utile de sauvegarder les deux arbres dans des images SVG, en écrivant dans un fichier le résultat retourné par `displacy.render` avec l'option `jupyter = False`.

In [17]:
# Veuillez écrire votre réponse ici.
# On a 10 relations pour la phrase qui vient de fr-ud-dev
# On a 2 mots qui n'ont plus la même tête et toutes les autre dépendance ont le bon tag de dépendance
# UAS : 8/10 = 80%
# LAS 8/10 = 80%

**2f.**  Veuillez appliquer le `Scorer` de spaCy (voir Labo 2) et afficher les deux scores qu'il produit pour l'analyse en dépendances (avec trois décimales après la virgule).  Retrouvez-vous les scores de la question précédente ? Pourquoi ?

In [18]:
from spacy.scorer import Scorer
from spacy.training import Example

In [19]:
# Veuillez écrire votre code et votre réponse ici.
exemple = Example(s2.as_doc(),doc)
score = Scorer().score([exemple])
print("UAS : ", round(score.get("dep_uas"),ndigits=3))
print("LAS : ", round(score.get("dep_las"),ndigits=3))

# On a un score similaire mais pas exactement le même que calculer a la main

UAS :  0.818
LAS :  0.818


## 3. Évaluation du *dependency parser* de `fr_core_news_sm` sur l'ensemble des phrases test

**3a.** Veuillez calculer les deux scores qui caractérisent l'analyseur en dépendances de la pipeline `nlp` sur toutes les données de test présentes dans `test_data`.  Comment se comparent ces scores avec ceux mentionnés [dans la documentation de fr_core_news_sm](https://spacy.io/models/fr#fr_core_news_sm) ?

In [20]:
# Veuillez écrire votre code ici.
ref_docs = test_data.get_docs(nlp.vocab)
pred_docs = []
exemples = []
for doc in test_data.get_docs(nlp.vocab):
    pred_docs.append(nlp(doc))

for ref_doc, true_doc in zip(ref_docs, pred_docs):
    exemple = Example(true_doc,ref_doc)
    exemples.append(exemple)
    
score = Scorer().score(exemples)
print("UAS : ", round(score.get("dep_uas"),ndigits=3))
print("LAS : ", round(score.get("dep_las"),ndigits=3))

# On a un score un peu en dessous pour l'UAS et nettement inférieur pour le LAS

UAS :  0.814
LAS :  0.687


**3b.** Le *scorer* fournit également des scores détaillés pour chaque type de relation de dépendances.  Veuillez afficher ces valeurs dans un tableau proprement formaté, trié par score F1 décroissant, avec trois décimales.

In [104]:
# Veuillez écrire votre code ici.
# Notre score UAS est un peut plus bas que le score metionné dans la documentation qui est de 0.89.
# Notre score LAS est bien plus bas que le score mentionné dans la documentation qui est de 0.86.

# print each score decreasing order
from itertools import *
from tabulate import tabulate

sortedItems = sorted(score['dep_las_per_type'].items(), key=lambda x: x[1]['f'], reverse=True)

flat_list = []
for key in sortedItems:
    tmp = []
    tmp.append(key[0])
    for el in key[1]:
        tmp.append(round(key[1].get(el), ndigits=3))
    flat_list.append(tmp)

print(tabulate(flat_list, headers=["type", "precision", "recall", "f1 score"], tablefmt="pretty"))


+--------------+-----------+--------+----------+
|     type     | precision | recall | f1 score |
+--------------+-----------+--------+----------+
|     det      |   0.789   | 0.922  |   0.85   |
|     case     |   0.764   | 0.857  |  0.807   |
|      cc      |   0.782   | 0.779  |  0.781   |
|   aux:pass   |   0.925   | 0.645  |   0.76   |
|     mark     |   0.792   | 0.715  |  0.752   |
|     cop      |   0.748   | 0.727  |  0.738   |
|    nummod    |   0.679   |  0.76  |  0.717   |
|    nsubj     |   0.676   | 0.738  |  0.706   |
|     root     |   0.776   | 0.635  |  0.698   |
|  nsubj:pass  |   0.82    | 0.603  |  0.695   |
|    advmod    |    0.7    | 0.657  |  0.678   |
|     amod     |   0.728   |  0.6   |  0.658   |
|     obj      |   0.661   | 0.636  |  0.648   |
|  flat:name   |   0.579   | 0.617  |  0.597   |
|    xcomp     |   0.642   |  0.45  |  0.529   |
|     nmod     |   0.53    | 0.501  |  0.515   |
|  acl:relcl   |   0.52    | 0.459  |  0.488   |
|    ccomp     |   0

## 4. Entraîner puis évaluer un nouveau *parser* français dans spaCy

Le but de cette partie est d'entraîner une pipeline spaCy pour le français sur les données de `fr-ud-train.conllu`, puis de comparer le modèle obtenu avec le modèle prêt-à-l'emploi testé au point précédent (voir le Labo 2 et les [instructions de spaCy](https://spacy.io/usage/training#quickstart)).

**4a.** Paramétrage de l'entraînement :
* générez un fichier de départ grâce à [l'interface web](https://spacy.io/usage/training#quickstart), en indiquant que vous gardez seulement les composants `morphologizer` et `parser` dans la pipeline ;
* sauvegardez le code généré par spaCy dans un fichier local `base_config.cfg` ;
* générez un fichier `config.cfg` sur votre ordinateur en exécutant la ligne de commande suivante. 

In [22]:
!python -m spacy init fill-config base_config.cfg config.cfg

[38;5;2m✔ Auto-filled config with all values[0m
[38;5;2m✔ Saved config[0m
config.cfg
You can now add your data and train your pipeline:
python -m spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(


Veuillez effectuer l'entraînement avec la ligne de commande suivante.  Faites plusieurs essais, d'abord avec un petit nombre d'époques (*à indiquer dans config.cfg*), pour estimer le temps nécessaire et observer les messages affichés.  Augmentez progressivement le nombre d'époques, jusqu'à ce que les scores sur le jeu de validation n'augmentent plus (si vous avez le temps).  Pendant combien d'époques entraînez-vous au final ?

In [33]:
# Note : il vaut mieux exécuter cela directement dans une fenêtre de commande, pour voir les logs en temps réel.
!python -m spacy train config.cfg \
  --output ./myDEPparser1 \
  --paths.train ./spacy_data/fr-ud-train.spacy \
  --paths.dev ./spacy_data/fr-ud-dev.spacy \
  --verbose

[38;5;4mℹ Saving to output directory: myDEPparser1[0m
[38;5;4mℹ Using CPU[0m
[1m
[38;5;2m✔ Initialized pipeline[0m
[1m
[38;5;4mℹ Pipeline: ['tok2vec', 'morphologizer', 'parser'][0m
[38;5;4mℹ Initial learn rate: 0.001[0m
E    #       LOSS TOK2VEC  LOSS MORPH...  LOSS PARSER  POS_ACC  MORPH_ACC  DEP_UAS  DEP_LAS  SENTS_F  SCORE 
---  ------  ------------  -------------  -----------  -------  ---------  -------  -------  -------  ------
  0       0          0.00         224.53       504.38    47.23      44.49    12.55     6.00     0.00    0.28
  0     200       1653.11       10636.25     32623.23    92.43      91.53    78.10    72.35    76.18    0.84
  0     400       2175.49        5004.50     22669.73    92.98      92.63    80.29    74.95    74.58    0.85
  0     600       2223.24        4101.18     20069.21    93.29      92.87    81.83    77.07    89.98    0.86
  0     800       2502.86        4078.24     19968.86    93.52      93.08    83.04    78.66    91.60    0.87
  0  

  _torch_pytree._register_pytree_node(
[2024-03-28 20:43:00,400] [DEBUG] Config overrides from CLI: ['paths.train', 'paths.dev']
  _torch_pytree._register_pytree_node(
[2024-03-28 20:43:03,450] [INFO] Set up nlp object from config
[2024-03-28 20:43:03,463] [DEBUG] Loading corpus from path: spacy_data\fr-ud-dev.spacy
[2024-03-28 20:43:03,465] [DEBUG] Loading corpus from path: spacy_data\fr-ud-train.spacy
[2024-03-28 20:43:03,465] [INFO] Pipeline: ['tok2vec', 'morphologizer', 'parser']
[2024-03-28 20:43:03,468] [INFO] Created vocabulary
[2024-03-28 20:43:05,927] [INFO] Added vectors: fr_core_news_lg
[2024-03-28 20:43:05,927] [INFO] Finished initializing nlp object
[2024-03-28 20:43:28,429] [INFO] Initialized pipeline components: ['tok2vec', 'morphologizer', 'parser']
[2024-03-28 20:43:28,442] [DEBUG] Loading corpus from path: spacy_data\fr-ud-dev.spacy
[2024-03-28 20:43:28,443] [DEBUG] Loading corpus from path: spacy_data\fr-ud-train.spacy
[2024-03-28 20:43:28,503] [DEBUG] Removed existi

In [105]:
# Veuillez indiquer ici le nombre d'époques final.
# Nous avons  fait un entrainement avec le nombre d'epoch max a 0 et nous l'avons laissé tourner pendant 127 minutes.
# L'emtrainement a ete fait sur 10 epochs, mais on peut voir qu'apres 5 epochs nous avons un score de 0.90 qui ne s'ameliore plus les epchoch suivantes.
# Nous pouvons donc arreter l'entrainement a 5 epochs.


**4b.**  Veuillez charger le meilleur modèle (pipeline) dans la variable `nlp2` et afficher ses scores sur les données de test.  Comment se comparent les résultats avec les précédents ?

In [127]:
# Veuillez écrire votre code ici.

# Chagement du model
nlp2 = spacy.load("./myDEPparser1/model-best")

# Chargement du test data
test_data_path = "./spacy_data/fr-ud-test.spacy"
test_docs = list(DocBin().from_disk(test_data_path).get_docs(nlp2.vocab))

scorer2 = Scorer()
examples = []

# Prediction des tags pour chaque document
for doc in test_docs:
    doc_pred = nlp2(doc.text)
    example = Example(doc, doc_pred)
    examples.append(example)

score2 = scorer2.score(examples)
print("UAS : ", round(score2.get("dep_uas"),ndigits=3))
print("LAS : ", round(score2.get("dep_las"),ndigits=3))

# On vois que le score est meilleur que le score optenu precedament.


UAS :  0.878
LAS :  0.822


**4c.** Veuillez afficher les scores détaillés pour chaque type de relation de dépendances, dans un tableau formaté comme au 3b.

In [126]:
# Veuillez écrire votre code ici.
# precedent UAS :  0.814
# prededent LAS :  0.687

from itertools import *
from tabulate import tabulate

sortedItems2 = sorted(score2['dep_las_per_type'].items(), key=lambda x: x[1]['f'], reverse=True)

flat_list2 = []
for key in sortedItems2:
    tmp = []
    tmp.append(key[0])
    for el in key[1]:
        tmp.append(round(key[1].get(el), ndigits=3))
    flat_list2.append(tmp)


print(tabulate(flat_list2, headers=["type", "precision", "recall", "f1 score"], tablefmt="pretty"))


+------------+-----------+--------+----------+
|    type    | precision | recall | f1 score |
+------------+-----------+--------+----------+
|  aux:caus  |    1.0    |  1.0   |   1.0    |
|    case    |   0.951   | 0.927  |  0.939   |
|    aux     |   0.846   |  0.96  |   0.9    |
|    root    |   0.884   | 0.904  |  0.894   |
|     cc     |   0.883   | 0.883  |  0.883   |
|    det     |   0.808   | 0.972  |  0.882   |
|   nsubj    |   0.871   | 0.882  |  0.877   |
|    cop     |   0.892   | 0.861  |  0.876   |
|    mark    |   0.874   | 0.867  |  0.871   |
|    obj     |   0.922   | 0.821  |  0.868   |
|    amod    |   0.874   | 0.858  |  0.866   |
|   advmod   |   0.83    | 0.807  |  0.819   |
|   xcomp    |   0.792   |  0.84  |  0.816   |
| nsubj:pass |   0.92    | 0.719  |  0.807   |
| nsubj:caus |    0.8    |  0.8   |   0.8    |
|    nmod    |   0.824   | 0.753  |  0.787   |
|   nummod   |    0.8    | 0.772  |  0.786   |
|  aux:pass  |   0.925   | 0.671  |  0.778   |
| flat:name  

**4d.** Quels changements observez-vous en haut (3 premiers labels) et en bas du classement ?  Voyez-vous un label pour lequel les scores n'augmentent pas avec le parser entraîné ?

In [None]:
# On peut voir que pour la plus part des labels, les scores ont augmenté. 
# C'est le cas pour les 3 premiers labels qui ont un score de 1.0 pour le f1 score.  Mais les 3 derniers restent a 0.0.
# Il est a note qu'il ya aussi moin de labes avec un score de 0.0.
# On peut voir par example que le score des labels cjsubj, discourse, obl:agent n'ont pas augementé et sont reste a 0.0.

**Fin du Labo.** Veuillez nettoyer ce notebook en gardant seulement les résultats désirés, l'enregistrer, et le soumettre comme devoir sur Cyberlearn.