# Étiquetage morpho-syntaxique

## Définition

Opération par laquelle un programme associe automatiquement à un mot des étiquettes grammaticales, comme :
- le genre
- le nombre
- la partie du discours (catégorie)
- …

Elle intervient après celle de segmentation en mots et se positionne comme pré-requis pour l’analyse syntaxique de surface.

Le résultat est un couple (mot, étiquette) :
- *Le petit chat boit du lait.*
- *Le/DET petit/ADJ chat/N boit/V du/DET lait/N ./PONCT*

En Python, le résultat attendu d’un étiquetage morpho-syntaxique se conçoit sous la forme d’une liste de tuples :

In [None]:
tagged = [
    ('Le', 'DET'),
    ('petit', 'ADJ'),
    ('chat', 'N'),
    ('boit', 'V'),
    ('du', 'DET'),
    ('lait', 'N'),
    ('.', 'PONCT')
]

## L’étiqueteur de NLTK

NLTK fournit un étiqueteur pré-entraîné avec le *Penn Treebank* que l’on peut employer pour étiqueter un texte de langue anglaise. Il requiert uniquement, en entrée, une liste de mots.

In [None]:
from nltk import pos_tag, word_tokenize

on_the_sea_keats = """It keeps eternal whisperings around
Desolate shores, and with its mighty swell
Gluts twice ten thousand Caverns, till the spell
Of Hecate leaves them their old shadowy sound."""
words = word_tokenize(on_the_sea_keats)
tagged_words = pos_tag(words)

Un paramètre `tagset` permet d’adopter le jeu d’étiquettes en parties du discours universel plutôt que la nomenclature du *Penn Treebank*.

In [None]:
tagged_words = pos_tag(words, tagset="universal")

## Modèles de langue

NLTK fournit la classe `DefaultTagger` pour étiqueter automatiquement une liste de mots. En revanche, il convient d’entraîner au préalable le logiciel sur un corpus étiqueté de référence.

NLTK embarque justement plusieurs *treebanks* conçus pour l’anglais. Autrement, il faut apporter son propre corpus étiqueté !

Certains étiqueteurs déjà entraînés :
- *TreeTagger* (multilingue)
- *Stanford POS tagger* (multilingue)
- *MElt* (français, python 2.7)

## Entraîner un modèle de langue : les fondamentaux

Dans cet exemple basique, nous entraînons un étiqueteur pour unigrammes, issu de la classe `UnigramTagger`.

**Étape 1 :** importer l’étiqueteur pour unigrammes.

In [None]:
from nltk.tag import UnigramTagger

 **Étape 2 :** proposer un modèle de langues sous la forme d’une liste de phrases découpées en une liste de mots.

In [None]:
corpus = [[
    ('Le', 'DET'),
    ('petit', 'ADJ'),
    ('chat', 'N'),
    ('boit', 'V'),
    ('du', 'DET'),
    ('lait', 'N'),
    ('.', 'PONCT')
]]

**Étape 3 :** entraîner l’étiqueteur avec ce modèle.

In [None]:
tagger = UnigramTagger(corpus)

**Étape 4 :** effectuer l’étiquetage d’une liste de mots.

In [None]:
words = ['Le', 'petit', 'chien', 'boit', 'de', 'l', 'eau', '.']
tagger.tag(words)

**Remarque :** le modèle est très incomplet (étiquettes `None`).

Solution pour améliorer le modèle dans le contexte : appeler un étiqueteur par défaut (*Backoff tagger*).

In [None]:
from nltk.tag import DefaultTagger
backoff_tagger = DefaultTagger('N')
tagger = UnigramTagger(train=corpus, backoff=backoff_tagger)
tagger.tag(words)

Les étiquettes `None` sont remplacées par l’étiquette jugée la plus courante (`N`). Le mieux étant de disposer d’un corpus plus complet car plus volumineux est le corpus avec lequel on entraîne un étiqueteur, meilleur sera le résultat.