<img src="https://upload.wikimedia.org/wikipedia/commons/c/c7/HEIG-VD_Logo_96x29_RVB_ROUGE.png" alt="HEIG-VD Logo" width="250" /> 

# Cours TAL - Laboratoire 2
# Mise en œuvre et évaluation de *POS taggers* pour le français

**Objectif**

Appliquer des étiqueteurs morphosyntaxiques (POS taggers) disponibles dans NLTK et dans les outils Stanford NLP à des textes français, puis quantifier leurs performances.

**Instructions initiales**

* Télécharger l'archive `UD_French-GSD-withBlankLines.zip` fournie sur Cyberlearn.
* Placer les trois fichiers qu'elle contient dans le même dossier que le notebook.
* Ce sont des textes en français annotés avec les POS tags, provenant du projet ([Universal Dependencies](https://github.com/UniversalDependencies/UD_French-GSD)), et légèrement modifiés.
  - le fichier `fr-ud-train.conllu3` est destiné à l'entraînement
  - le fichier `fr-ud-dev.conllu3` est destiné aux tests préliminaires et aux réglages des paramètres
  - le fichier `fr-ud-test.conllu3` est destiné à l'évaluation finale.

**Questions préliminaires**

* En inspectant les fichiers, veuillez indiquer le numéro de la colonne où se trouvent les mots, et celui de la colonne où se trouvent leur étiquettes morpho-syntaxiques (*POS tags*).
* Veuillez chercher sur le Web la liste des *POS tags* du projet Universal Dependencies, avec leurs définitions, et indiquer l'URL ci-dessous.


In [1]:
# Veuillez écrire vos réponses dans cette cellule.
print("Les mots sont dans la colonne 0, et les POS tags dans la colonne 2.")
url = "https://universaldependencies.org/u/pos/"


Les mots sont dans la colonne 0, et les POS tags dans la colonne 2.


* Veuillez déterminer et afficher le nombre de tokens de chacun des trois fichiers.

In [2]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule
def tokens_number(filename):
    fd = open(filename, "r", encoding="utf-8")
    nb_tokens = len(list(filter(None, fd.read().splitlines())))
    fd.close()
    return nb_tokens

print("Token number of test : ", tokens_number("fr-ud-test.conllu3"))
print("Token number of dev : ", tokens_number("fr-ud-dev.conllu3"))
print("Token number of train : ", tokens_number("fr-ud-train.conllu3"))

Token number of test :  10298
Token number of dev :  36830
Token number of train :  366371


## Partie 1 : Évaluer le Stanford POS tagger avec les modèles fournis pour le français

L'Université de Stanford fournit un étiqueteur morpho-syntaxique (POS tagger) qui utilise l'apprentissage automatique (https://nlp.stanford.edu/software/tagger.html) appelé Maxent Tagger.  Le tagger et ses modèles multilingues peuvent être téléchargés à l'URL ci-dessus (archive ZIP suivant le lien *Download > full Stanford Tagger version 3.9.2*, 130 MB environ).  

Pour simplifier, on vous propose de télécharger séparément le programme Java [stanford-postagger.jar](https://drive.switch.ch/index.php/s/hMY6yO7lmoQJuS3) et le modèle français [french-ud.tagger](https://drive.switch.ch/index.php/s/4HSqKRTTTkCgPfB) fournis par l'enseignant (mot de passe = reference).  Enregistrez ces deux fichiers dans le même dossier que ce notebook.

Le Maxent Tagger est en Java, et peut être exécuté depuis ce notebook avec un appel Java en ligne de commande.  Pour exécuter une commande système depuis le notebook, ajouter '!' devant (par exemple `! dir` ou `! ls`).  Utilisez la [documentation du Maxent Tagger](https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/tagger/maxent/MaxentTagger.html), et plus précisément la section *Tagging and Testing from the command line*, pour comprendre comment l'invoquer.  Java doit être installé sur votre système, et si nécessaire, exécuter :
```python
import os
java_path = 'C:/Program Files (x86)/Java/jdk1.8.0_20/bin/java.exe'  # votre chemin de java.exe
os.environ['JAVA_HOME'] = java_path   # attention aux slash (pas backslash sous Windows)
```
*Note* : il est également possible d'appeler ce tagger avec des commandes NLTK grâce au module [nltk.tag.stanford](https://www.nltk.org/_modules/nltk/tag/stanford.html) mais la gestion des *paths* entre Java, les classes et les modèles peut être compliquée.

**Question**

Appliquez le Maxent Tagger pour étiqueter le fichier `fr-ud-dev.conllu3` et demandez à Maxent Tagger de mesurer la qualité par comparaison à une l'annotation de référence fournie dans le fichier. Quels sont les scores obtenus ?  Quel est le nombre le plus important?  Indiquez ces réponses en commentaires du code.

In [3]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
! java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model french-ud.tagger -testFile "format=TSV,wordColumn=1,tagColumn=3,fr-ud-dev.conllu3" -verboseResults false
# Les scores sont : 87.9% sur les tags, 9.7% sur les phrases et 73.2% sur les mots inconnus

Loading default properties from tagger french-ud.tagger
Loading POS tagger from french-ud.tagger ... done [0.6 sec].
Tagged 36830 words at 14143,63 words per second.
Model french-ud.tagger has xSize=304855, ySize=18, and numFeatures=104853.
Results on 1478 sentences and 36830 words, of which 3049 were unknown.
Total sentences right: 144 (9,742896%); wrong: 1334 (90,257104%).
Total tags right: 32360 (87,863155%); wrong: 4470 (12,136845%).
Unknown words right: 2232 (73,204329%); wrong: 817 (26,795671%).


De même, appliquez le Maxent Tagger pour étiqueter le fichier `fr-ud-test.conllu3` et indiquez la précision du tagger en commentaires du code (#).

In [4]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
! java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model french-ud.tagger -testFile "format=TSV,wordColumn=1,tagColumn=3,fr-ud-test.conllu3" -verboseResults false
# précision de 87% sur les tags, 13% sur les phrases, 69.9% sur les mots inconnus

Loading default properties from tagger french-ud.tagger
Loading POS tagger from french-ud.tagger ... done [0.4 sec].
Tagged 10298 words at 10349,75 words per second.
Model french-ud.tagger has xSize=304855, ySize=18, and numFeatures=104853.
Results on 416 sentences and 10298 words, of which 697 were unknown.
Total sentences right: 54 (12,980769%); wrong: 362 (87,019231%).
Total tags right: 8960 (87,007186%); wrong: 1338 (12,992814%).
Unknown words right: 487 (69,870875%); wrong: 210 (30,129125%).


**Question subsidiare** : combien de phrases et de mots le tagger trouve-t-il dans les fichiers `fr-ud-dev.conllu3` et `fr-ud-test.conllu3` ?  Comparez avec votre propre estimation du nombre de mots.

In [5]:
# Veuillez écrire vos réponses ci-dessous, en commentaires.
# il trouve 36830 mots pour dev, soit la même chose que nous.
# il trouve 10298 mots pour test, soit la même chose que nous.

## Partie 2 : Entraîner le Stanford POS tagger pour obtenir de nouveaux modèles

Le but de cette partie est d'entraîner le Maxent Tagger sur les données UD en français (`fr-ud-train.conllu3`), puis de comparer le modèle obtenu avec les modèles fournis par Stanford pour le français, testés dans la partie 1A.  

Suivre la [documentation de Maxent Tagger](https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/tagger/maxent/MaxentTagger.html) pour l'entraîner sur le fichier `fr-ud-train.conllu3` et le tester sur `fr-ud-test.conllu3`.  Regardez la section *Training from the command line*. 

La configuration du système pour effectuer l'entraînement est donnée dans un fichier texte, qui peut être produit en suivant la documentation (option `-genprops` pour obtenir un template qui sera édité), soit en s'inspirant du fichier [french-ud.tagger.props](https://drive.switch.ch/index.php/s/gHlam9S74HG2Q4X) accompagnant le modèle `french-ud.tagger` que vous avez utilisé ci-dessus.  Pensez à donner un nouveau nom à votre fichier modèle.

**Questions**

* Créez un fichier `myFrench-ud.tagger.props` qui aboutit à un bon entraînement.  Vous pourrez expérimenter plusieurs fois et proposer le meilleur fichier.  Citez dans le notebook les paramètres sur lesquels vous avez agi.

* Lancez l'entraînement sur le fichier `fr-ud-train.conllu3` (s'il ne tient pas en mémoire, utilisez seulement `fr-ud-dev.conllu3`). Pendant l’entraînement (> 10 minutes, 500 itérations), regardez la suite du travail.

* Évaluez votre modèle comme ci-dessus (sur `dev` et sur `test`).  Quel modèle est meilleur, le vôtre ou celui fourni par Stanford ?  Formulez une hypothèse expliquant ce résultat. 

In [6]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
import os
propfile =! java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger  -genprops
filename = "myFrench-ud.tagger.props"
if(not(os.path.exists(filename))):
    fd = open(filename, 'a', encoding='utf-8')
    fd.write("\r\n".join(propfile))
    fd.close()


In [7]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
! java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger  -props myFrench-ud.tagger.props -trainFile "format=TSV,wordColumn=1,tagColumn=3,fr-ud-train.conllu3"

In [8]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
! java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model myFrench-ud.tagger -testFile "format=TSV,wordColumn=1,tagColumn=3,fr-ud-dev.conllu3" -verboseResults false
! java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model myFrench-ud.tagger -testFile "format=TSV,wordColumn=1,tagColumn=3,fr-ud-test.conllu3" -verboseResults false
# précision de 87% sur les tags, 13% sur les phrases, 69.9% sur les mots inconnus

Loading default properties from tagger myFrench-ud.tagger
Loading POS tagger from myFrench-ud.tagger ... done [0.5 sec].
Tagged 36830 words at 12656,36 words per second.
Model myFrench-ud.tagger has xSize=305182, ySize=19, and numFeatures=96503.
Results on 1478 sentences and 36830 words, of which 2701 were unknown.
Total sentences right: 797 (53,924222%); wrong: 681 (46,075778%).
Total tags right: 35674 (96,861254%); wrong: 1156 (3,138746%).
Unknown words right: 2398 (88,781933%); wrong: 303 (11,218067%).
Loading default properties from tagger myFrench-ud.tagger
Loading POS tagger from myFrench-ud.tagger ... done [0.4 sec].
Tagged 10298 words at 10267,20 words per second.
Model myFrench-ud.tagger has xSize=305182, ySize=19, and numFeatures=96503.
Results on 416 sentences and 10298 words, of which 601 were unknown.
Total sentences right: 203 (48,798077%); wrong: 213 (51,201923%).
Total tags right: 9899 (96,125461%); wrong: 399 (3,874539%).
Unknown words right: 517 (86,023295%); wrong: 8

## Partie 3 : entraîner un POS tagger pour le français dans NLTK

Le but de cette partie est d'utiliser le POS tagger *Averaged Perceptron* de NLTK, en l'entraînant pour le français sur les mêmes données que ci-dessus.  

Notez que pour l'anglais, des taggers pré-entraînés sont disponibles dans NLTK, comme expliqué au [Chapitre 5.1 du livre NLTK](http://www.nltk.org/book/ch05.html) : on peut écrire `nltk.pos_tag(sentence)` où *sentence* est une phrase tokenisée. L'étiquetage morpho-syntaxique produira des paires ('mot', 'TAG').

**Première étape**

Importer les textes annotés `fr-ud-XXXX.conllu3` grâce à des objets `ConllCorpusReader`.  Consultez le mode d'emploi de cette classe directement dans [son code source](https://www.nltk.org/_modules/nltk/corpus/reader/conll.html#ConllCorpusReader), pour déterminer comment lire un fichier en créant un objet `ConllCorpusReader`.  Chargez les trois fichiers, dans trois objets appelés `train_corpus`, `dev_corpus` et `test_corpus`.

In [9]:
from nltk.corpus.reader.conll import ConllCorpusReader

In [10]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
def make_corpus(filename):
    return ConllCorpusReader(".", filename, ('ignore', 'words', 'ignore', 'pos'), separator="\t")
train_corpus = make_corpus("fr-ud-train.conllu3")
dev_corpus = make_corpus("fr-ud-dev.conllu3")
test_corpus = make_corpus("fr-ud-test.conllu3")

Affichez le nombre de phrases et le nombre de mots de chaque corpus chargé. Cesc chiffres sont-ils identiques à ceux obtenus pour `dev`et pour `test` à la fin de la Partie 1 ?  On peut obtenir les listes de mots étiquetés avec `tagged_words()` et les listes de phrases avec mots étiquetés avec `tagged_sents()`.

In [11]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
print("Train_Corpus:", len(train_corpus.tagged_words()), len(train_corpus.tagged_sents()))
print("Dev_Corpus:", len(dev_corpus.tagged_words()), len(dev_corpus.tagged_sents()))
print("Test_Corpus:", len(test_corpus.tagged_words()), len(test_corpus.tagged_sents()))

Train_Corpus: 366371 14554
Dev_Corpus: 36830 1478
Test_Corpus: 10298 416


Affichez la 17e phrase du corpus de développement (avec les étiquettes POS), et les mots 1001 à 1050 du corpus de test (aussi avec leurs POS tags).

In [12]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
print("17eme phrase :", dev_corpus.tagged_sents()[16])
print("mots 1001 à 1050:", dev_corpus.tagged_words()[1000:1050])

17eme phrase : [('Comprenant', 'VERB'), ('six', 'NUM'), ('sommets', 'NOUN'), ('dont', 'PRON'), ('un', 'DET'), ('point', 'NOUN'), ('culminant', 'VERB'), ('à', 'ADP'), ('2 001', 'NUM'), ('mètres', 'NOUN'), ('et', 'CCONJ'), ('une', 'DET'), ('arrivée', 'NOUN'), ('en', 'ADP'), ('altitude', 'NOUN'), (',', 'PUNCT'), ("c'", 'PRON'), ('est', 'AUX'), ('une', 'DET'), ('étape', 'NOUN'), ('typique', 'ADJ'), ('de', 'ADP'), ('montagne', 'NOUN'), ('.', 'PUNCT')]
mots 1001 à 1050: [('le', 'DET'), ('nombre', 'NOUN'), ('de', 'ADP'), ('décès', 'NOUN'), ('enregistrés', 'VERB'), ('au', '_'), ('à', 'ADP'), ('le', 'DET'), ('cours', 'NOUN'), ("d'", 'ADP'), ('une', 'DET'), ('même', 'ADJ'), ('année', 'NOUN'), (',', 'PUNCT'), ('connaît', 'VERB'), ('une', 'DET'), ('forte', 'ADJ'), ('augmentation', 'NOUN'), (',', 'PUNCT'), ('puisque', 'SCONJ'), ('la', 'DET'), ('variation', 'NOUN'), ('annuelle', 'ADJ'), ('due', 'VERB'), ('au', '_'), ('à', 'ADP'), ('le', 'DET'), ('solde', 'NOUN'), ('naturel', 'ADJ'), ('passe', 'VERB'

**Seconde étape**

Vous allez maintenant entraîner (sur le corpus `train`) le POS tagger appelé *Averaged Perceptron* fourni par NLTK mais [implémenté par Mathew Honnibal de Explosion.AI](https://explosion.ai/blog/part-of-speech-pos-tagger-in-python).

Dans le [package de NLTK avec des taggers](http://www.nltk.org/api/nltk.tag.html), considérez le module `nltk.tag.perceptron`, pour lequel NLTK explique de façon précise l'entraînement (voir *train the model*) et le test.  Vous allez mettre en oeuvre ces étapes pour entraîner le tagger.  Notez que le modèle est enregistré dans un fichier qui doit finir par `.pickle`, et qui est écrasé à chaque entraînement si vous ne changez pas de nom.  Un modèle peut être également chargé dans un tagger.

In [13]:
# import os # si nécessaire
# import nltk # si nécessaire
# nltk.download('averaged_perceptron_tagger') # si nécessaire
import time
from nltk.tag.perceptron import PerceptronTagger

In [14]:
ptagger = PerceptronTagger(load=False)

Entraînez ici le tagger sur les données d'entraînement, avec les meilleurs paramètres possibles.

In [15]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
start = time.time()
ptagger.train(train_corpus.tagged_sents(), "./train_corpus.pickle", 2)
stop = time.time()
print(stop-start)

44.34821629524231


Combien de temps prend l'entraînement ?  Quelle est la taille du fichier modèle résultant ?

In [16]:
# Veuillez écrire vos réponses dans cette cellule (en commentaires).
# L'entrainement prend environ 44s
# le fichier résultat pèse 5Mo

Évaluez le tagger, d'abord sur les données `dev` puis sur les données `test`.

In [17]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
print("Accuracy on dev:" ,ptagger.accuracy(dev_corpus.tagged_sents()))
print("Accuracy on test:" ,ptagger.accuracy(test_corpus.tagged_sents()))


Accuracy on dev: 0.9631007330980179
Accuracy on test: 0.9548456010875899


Veuillez remplir le tableau suivant avec la synthèse des résultats.

| Corpus | MaxEnt | MaxEnt   | Avg Perceptron | 
|--------|--------|----------|---------------|
| -      | fourni | entraîné | entraîné |
| dev    |  88%   |   96%    |  96%  |
| test   |  87%   |   96%    |  95%  |

Comment se comparent les deux POS taggers sur le français ?  Écrivez vos conclusions dans cette cellule.
Après entrainement, les deux POS taggers ont une performance très proche. Pourtant, avec les options disponibles pour le tagger MaxEnt, on s'attendrait à ce qu'il ait une meilleure performance. Il se peut qu'il existe des paramètres parfaits permettant d'attendre une performance optimale, mais le temps de recherche de ces paramètres, et surtout le temps d'entrainement (10 minutes et plus) pour chaque essai, ne valent pas le peu de gain de performance. Au niveau du rapport perfomance/temps investi, le tagger Perceptron est de loin le meilleur (20X plus rapide pour la même performance!)

## Fin du laboratoire 2  

Merci de nettoyer votre feuille, exécuter une dernière fois toutes les instructions, sauvegarder le résultat, et le rendre via Cyberlearn.