<img src="https://upload.wikimedia.org/wikipedia/commons/c/c7/HEIG-VD_Logo_96x29_RVB_ROUGE.png" alt="HEIG-VD Logo" width="250" /> 

# Cours TAL - Laboratoire 2
# Mise en œuvre et évaluation de *POS taggers* pour le français

**Objectif**

Appliquer des étiqueteurs morphosyntaxiques (POS taggers) disponibles dans NLTK et dans les outils Stanford NLP à des textes français, puis quantifier leurs performances.

**Instructions initiales**

* Télécharger l'archive `UD_French-GSD-withBlankLines.zip` fournie sur Cyberlearn.
* Placer les trois fichiers qu'elle contient dans le même dossier que le notebook.
* Ce sont des textes en français annotés avec les POS tags, provenant du projet ([Universal Dependencies](https://github.com/UniversalDependencies/UD_French-GSD)), et légèrement modifiés.
  - le fichier `fr-ud-train.conllu3` est destiné à l'entraînement
  - le fichier `fr-ud-dev.conllu3` est destiné aux tests préliminaires et aux réglages des paramètres
  - le fichier `fr-ud-test.conllu3` est destiné à l'évaluation finale.

**Questions préliminaires**

* En inspectant les fichiers, veuillez indiquer le numéro de la colonne où se trouvent les mots, et celui de la colonne où se trouvent leur étiquettes morpho-syntaxiques (*POS tags*).
* Veuillez chercher sur le Web la liste des *POS tags* du projet Universal Dependencies, avec leurs définitions, et indiquer l'URL ci-dessous.


In [22]:
# Veuillez écrire vos réponses dans cette cellule.
cols = {'0': 'Index', '1': 'Token', '2': 'Lemma', '3': 'POS'}
url_pos = "https://universaldependencies.org/u/pos/"
url_format = "https://universaldependencies.org/format.html"

print("Contenu des colonnes :")

for key, value in cols.items():
    print("     Colonne", key, ":", value)

print("Liste des POS TAGS du projet Universal Dependencies:")
print(url_pos)

print("Format des fichiers du projet Universal Dependencies:")
print(url_format)


Contenu des colonnes :
     Colonne 0 : Index
     Colonne 1 : Token
     Colonne 2 : Lemma
     Colonne 3 : POS
Liste des POS TAGS du projet Universal Dependencies:
https://universaldependencies.org/u/pos/
Format des fichiers du projet Universal Dependencies:
https://universaldependencies.org/format.html


* Veuillez déterminer et afficher le nombre de tokens de chacun des trois fichiers.

In [34]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.
#!pip install pyconll
import pyconll

file_location = 'UD_French-GSD-withBlankLines'
file1 = 'fr-ud-dev.conllu3'
file2 = 'fr-ud-test.conllu3'
file3 = 'fr-ud-train.conllu3'

files = [
    f"{file_location}/{file1}",
    f"{file_location}/{file2}",
    f"{file_location}/{file3}",
]
tags_analysis = [pyconll.load_from_file(file) for file in files]

for i, analysis in enumerate(tags_analysis):

    print(f"Fichier : {files[i].split('/')[1]}")
    print("Nombre de tokens dans le corpus :",
          sum(len(sentence) for sentence in analysis))

Fichier : fr-ud-dev.conllu3
Nombre de tokens dans le corpus : 36830
Fichier : fr-ud-test.conllu3
Nombre de tokens dans le corpus : 10298
Fichier : fr-ud-train.conllu3
Nombre de tokens dans le corpus : 366371


## Partie 1 : Évaluer le Stanford POS tagger avec les modèles fournis pour le français

L'Université de Stanford fournit un étiqueteur morpho-syntaxique (POS tagger) qui utilise l'apprentissage automatique (https://nlp.stanford.edu/software/tagger.html) appelé Maxent Tagger.  Le tagger et ses modèles multilingues peuvent être téléchargés à l'URL ci-dessus (archive ZIP suivant le lien *Download > full Stanford Tagger version 3.9.2*, 130 MB environ).  

Pour simplifier, on vous propose de télécharger séparément le programme Java [stanford-postagger.jar](https://drive.switch.ch/index.php/s/hMY6yO7lmoQJuS3) et le modèle français [french-ud.tagger](https://drive.switch.ch/index.php/s/4HSqKRTTTkCgPfB) fournis par l'enseignant (mot de passe = reference).  Enregistrez ces deux fichiers dans le même dossier que ce notebook.

Le Maxent Tagger est en Java, et peut être exécuté depuis ce notebook avec un appel Java en ligne de commande.  Pour exécuter une commande système depuis le notebook, ajouter '!' devant (par exemple `! dir` ou `! ls`).  Utilisez la [documentation du Maxent Tagger](https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/tagger/maxent/MaxentTagger.html), et plus précisément la section *Tagging and Testing from the command line*, pour comprendre comment l'invoquer.  Java doit être installé sur votre système, et si nécessaire, exécuter :
```python
import os
java_path = 'C:/Program Files (x86)/Java/jdk1.8.0_20/bin/java.exe'  # votre chemin de java.exe
os.environ['JAVA_HOME'] = java_path   # attention aux slash (pas backslash sous Windows)
```
*Note* : il est également possible d'appeler ce tagger avec des commandes NLTK grâce au module [nltk.tag.stanford](https://www.nltk.org/_modules/nltk/tag/stanford.html) mais la gestion des *paths* entre Java, les classes et les modèles peut être compliquée.

**Question**

Appliquez le Maxent Tagger pour étiqueter le fichier `fr-ud-dev.conllu3` et demandez à Maxent Tagger de mesurer la qualité par comparaison à une l'annotation de référence fournie dans le fichier. Quels sont les scores obtenus ?  Quel est le nombre le plus important?  Indiquez ces réponses en commentaires du code.

In [95]:
from nltk.tag import StanfordPOSTagger
from nltk.corpus.reader import ConllCorpusReader
 
corpus = ConllCorpusReader(file_location, file1, columntypes=('ignore', 'words', 'ignore', 'pos'), separator='\t')

tokens = [word for word in corpus.words()]

In [97]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.

st = StanfordPOSTagger('french-ud.tagger', 'stanford-postagger.jar')

st.tag(tokens)

[('Aviator', 'PROPN'),
 (',', 'PUNCT'),
 ('un', 'DET'),
 ('film', 'NOUN'),
 ('sur', 'ADP'),
 ('la', 'DET'),
 ('vie', 'NOUN'),
 ('de', 'ADP'),
 ('Hughes', 'PROPN'),
 ('.', 'PUNCT'),
 ('Les', 'DET'),
 ('études', 'NOUN'),
 ('durent', 'VERB'),
 ('six', 'NUM'),
 ('ans', 'NOUN'),
 ('mais', 'CONJ'),
 ('leur', 'DET'),
 ('contenu', 'NOUN'),
 ('diffère', 'VERB'),
 ('donc', 'ADV'),
 ('selon', 'ADP'),
 ('les', 'DET'),
 ('Facultés', 'NOUN'),
 ('.', 'PUNCT'),
 ('Mais', 'CONJ'),
 ('comment', 'ADV'),
 ('faire', 'VERB'),
 ('dans', 'ADP'),
 ('un', 'DET'),
 ('contexte', 'NOUN'),
 ('structurellement', 'ADV'),
 ('raciste', 'ADJ'),
 ('?', 'PUNCT'),
 ("L'", 'DET'),
 ('«', 'PUNCT'),
 ('oasis', 'NOUN'),
 ('de', 'ADP'),
 ('vie', 'NOUN'),
 ('»', 'PUNCT'),
 (',', 'PUNCT'),
 ('dans', 'ADP'),
 ('un', 'DET'),
 ('milieu', 'NOUN'),
 ('où', 'PRON'),
 ('règne', 'VERB'),
 ("l'", 'DET'),
 ('obscurité', 'NOUN'),
 ('totale', 'ADJ'),
 ('et', 'CONJ'),
 ('une', 'DET'),
 ('pression', 'NOUN'),
 ('hydrostatique', 'ADJ'),
 ('impor

De même, appliquez le Maxent Tagger pour étiqueter le fichier `fr-ud-test.conllu3` et indiquez la précision du tagger en commentaires du code (#).

In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


**Question subsidiare** : combien de phrases et de mots le tagger trouve-t-il dans les fichiers `fr-ud-dev.conllu3` et `fr-ud-test.conllu3` ?  Comparez avec votre propre estimation du nombre de mots.

In [None]:
# Veuillez écrire vos réponses ci-dessous, en commentaires.


## Partie 2 : Entraîner le Stanford POS tagger pour obtenir de nouveaux modèles

Le but de cette partie est d'entraîner le Maxent Tagger sur les données UD en français (`fr-ud-train.conllu3`), puis de comparer le modèle obtenu avec les modèles fournis par Stanford pour le français, testés dans la partie 1A.  

Suivre la [documentation de Maxent Tagger](https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/tagger/maxent/MaxentTagger.html) pour l'entraîner sur le fichier `fr-ud-train.conllu3` et le tester sur `fr-ud-test.conllu3`.  Regardez la section *Training from the command line*. 

La configuration du système pour effectuer l'entraînement est donnée dans un fichier texte, qui peut être produit en suivant la documentation (option `-genprops` pour obtenir un template qui sera édité), soit en s'inspirant du fichier [french-ud.tagger.props](https://drive.switch.ch/index.php/s/gHlam9S74HG2Q4X) accompagnant le modèle `french-ud.tagger` que vous avez utilisé ci-dessus.  Pensez à donner un nouveau nom à votre fichier modèle.

**Questions**

* Créez un fichier `myFrench-ud.tagger.props` qui aboutit à un bon entraînement.  Vous pourrez expérimenter plusieurs fois et proposer le meilleur fichier.  Citez dans le notebook les paramètres sur lesquels vous avez agi.

* Lancez l'entraînement sur le fichier `fr-ud-train.conllu3` (s'il ne tient pas en mémoire, utilisez seulement `fr-ud-dev.conllu3`). Pendant l’entraînement (> 10 minutes, 500 itérations), regardez la suite du travail.

* Évaluez votre modèle comme ci-dessus (sur `dev` et sur `test`).  Quel modèle est meilleur, le vôtre ou celui fourni par Stanford ?  Formulez une hypothèse expliquant ce résultat. 

In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


## Partie 3 : entraîner un POS tagger pour le français dans NLTK

Le but de cette partie est d'utiliser le POS tagger *Averaged Perceptron* de NLTK, en l'entraînant pour le français sur les mêmes données que ci-dessus.  

Notez que pour l'anglais, des taggers pré-entraînés sont disponibles dans NLTK, comme expliqué au [Chapitre 5.1 du livre NLTK](http://www.nltk.org/book/ch05.html) : on peut écrire `nltk.pos_tag(sentence)` où *sentence* est une phrase tokenisée. L'étiquetage morpho-syntaxique produira des paires ('mot', 'TAG').

**Première étape**

Importer les textes annotés `fr-ud-XXXX.conllu3` grâce à des objets `ConllCorpusReader`.  Consultez le mode d'emploi de cette classe directement dans [son code source](https://www.nltk.org/_modules/nltk/corpus/reader/conll.html#ConllCorpusReader), pour déterminer comment lire un fichier en créant un objet `ConllCorpusReader`.  Chargez les trois fichiers, dans trois objets appelés `train_corpus`, `dev_corpus` et `test_corpus`.

In [None]:
from nltk.corpus.reader.conll import ConllCorpusReader

In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


Affichez le nombre de phrases et le nombre de mots de chaque corpus chargé. Cesc chiffres sont-ils identiques à ceux obtenus pour `dev`et pour `test` à la fin de la Partie 1 ?  On peut obtenir les listes de mots étiquetés avec `tagged_words()` et les listes de phrases avec mots étiquetés avec `tagged_sents()`.

In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


Affichez la 17e phrase du corpus de développement (avec les étiquettes POS), et les mots 1001 à 1050 du corpus de test (aussi avec leurs POS tags).

In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


**Seconde étape**

Vous allez maintenant entraîner (sur le corpus `train`) le POS tagger appelé *Averaged Perceptron* fourni par NLTK mais [implémenté par Mathew Honnibal de Explosion.AI](https://explosion.ai/blog/part-of-speech-pos-tagger-in-python).

Dans le [package de NLTK avec des taggers](http://www.nltk.org/api/nltk.tag.html), considérez le module `nltk.tag.perceptron`, pour lequel NLTK explique de façon précise l'entraînement (voir *train the model*) et le test.  Vous allez mettre en oeuvre ces étapes pour entraîner le tagger.  Notez que le modèle est enregistré dans un fichier qui doit finir par `.pickle`, et qui est écrasé à chaque entraînement si vous ne changez pas de nom.  Un modèle peut être également chargé dans un tagger.

In [None]:
# import os # si nécessaire
# import nltk # si nécessaire
# nltk.download('averaged_perceptron_tagger') # si nécessaire
from nltk.tag.perceptron import PerceptronTagger

In [None]:
ptagger = PerceptronTagger(load=False)

Entraînez ici le tagger sur les données d'entraînement, avec les meilleurs paramètres possibles.

In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


Combien de temps prend l'entraînement ?  Quelle est la taille du fichier modèle résultant ?

In [None]:
# Veuillez écrire vos réponses dans cette cellule (en commentaires).
# 
# 

Évaluez le tagger, d'abord sur les données `dev` puis sur les données `test`.

In [None]:
# Veuillez écrire votre code ci-dessous, puis exécuter cette cellule.


Veuillez remplir le tableau suivant avec la synthèse des résultats.

| Corpus | MaxEnt | MaxEnt   | Avg Perceptron | 
|--------|--------|----------|---------------|
| -      | fourni | entraîné | entraîné |
| dev    |   ..   |   ..     |  ..  |
| test   |   ..   |   ..     |  ..  |

Comment se comparent les deux POS taggers sur le français ?  Écrivez vos conclusions dans cette cellule.

## Fin du laboratoire 2  

Merci de nettoyer votre feuille, exécuter une dernière fois toutes les instructions, sauvegarder le résultat, et le rendre via Cyberlearn.