# De l’étiquetage avec *TreeTagger*

## Un étiqueteur pré-entraîné

*TreeTagger* est un étiqueteur morpho-syntaxique pré-entraîné pour de multiples langues (anglais, allemand, français, espagnol, italien…). Il est développé à [l’IMS de Stuttgart](https://www.ims.uni-stuttgart.de/) par Helmut Schmid.

Afin de le rendre accessible depuis les *notebooks*, vous aurez besoin de rajouter le chemin vers *TreeTagger* dans la variable d’environnement `PATH` :

In [None]:
import os

os.environ['PATH'] = f"{os.environ['PATH']}:{os.environ['HOME']}/7.pos-tagging/TreeTagger/cmd"
os.environ['PATH'] = f"{os.environ['PATH']}:{os.environ['HOME']}/7.pos-tagging/TreeTagger/bin"

Il s’utilise ensuite en ligne de commande :

In [None]:
!echo "A Lannister always pays his debts." | tree-tagger-english

**Important !** Installer *TreeTagger* sur un ordinateur. La procédure d’installation de l’utilitaire et de ses fichiers de paramètres est détaillée dans [la documentation en ligne](https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/).

## Interpréter une commande *shell* avec Python

Le langage Python permet d’exécuter des commandes *shell* directement grâce à différents modules, dont `subprocess` :

In [None]:
import subprocess

result = subprocess.run(
    "echo 'A Lannister always pays his debts.' | tree-tagger-english",
    shell=True,
    stdout=subprocess.PIPE).stdout

print(result)

L’opération renvoie un objet de type *bytes* qu’il faut décoder :

In [None]:
result = result.decode()

print(result)

## Interface *TreeTagger* et Python

Une meilleure solution consiste à utiliser un *wrapper*, une interface entre Python et l’instance de *TreeTagger* installée en local. Celle de [Mirko Otto](https://github.com/miotto/treetagger-python) offre des méthodes essentielles pour une configuration minimale.

Une fois l’interface installée, elle offre accès à une classe `TreeTagger` :

In [None]:
from TreeTagger.treetagger import TreeTagger

À ce stade, il faut connaître le chemin vers *TreeTagger* sur son ordinateur. **Attention !** Si *TreeTagger* n’est pas installé, l’interface renverra une erreur.

Pour connaître l’emplacement de *TreeTagger* sur son ordinateur, taper dans un terminal la commande ci-dessous et ne récupérer que la partie avant `/cmd/tree-tagger-english` :

```bash
which tree-tagger-english
```

En cas d’échec (notamment lorsque le chemin vers l’exécutable n’a pas été inclus à la variable d’environnement `PATH`), effectuer une recherche depuis la racine :

```bash
find / -type d -name TreeTagger 2>/dev/null
```

Sur le calepin électronique *Jupyter* :

In [None]:
path = !which tree-tagger-english

tt_path = path[0].replace("cmd/tree-tagger-english", "")

Une fois en possession du chemin vers le programme, paramétrer l’étiqueteur :

In [None]:
tagger = TreeTagger(path_to_treetagger=tt_path)

Puis lancer l’étiquetage avec la méthode `.tag()` :

In [None]:
tagger.tag('A Lannister always pays his debts.')

Pour effectuer un étiquetage dans une autre langue, s’assurer au préalable que les fichiers de paramétrage existent :

In [None]:
tagger.get_installed_lang()

Puis paramétrer l’étiqueteur pour la langue désirée avec le mot-clé `language` avant de lancer l’étiquetage :

In [None]:
tagger = TreeTagger(path_to_treetagger=tt_path, language='french')
tagger.tag('Le petit chat boit du lait.')