# Tokenisation avec les langages de programmation

Nous avons plus haut présenté des utilitaires comme outils de segmentation en les détournant de leurs usages habituels. Pour cette raison, certaines tâches se révéleront assez difficiles à réaliser, notamment pour les langues qui ne reposent pas sur des motifs de séparation réguliers. Pour celles-ci, il se révélera indispensable d’installer des outils spécifiques, parmi lesquelles nous pouvons citer *OpenCC*, *ZPar* ou encore *Stanford NLP Toolkit*.

Dans la pratique, il est plus courant de recourir à des langages de programmation pour lesquels il existe des bibliothèques qui prennent en charge les cas spécifiques.

## Perl

Perl est un langage de programmation qui s’inspire des langages de scripts comme `sed` et `awk` et qui prend en charge les expressions rationnelles, ce qui le rend très efficace pour manipuler des séquences de textes.

Un exemple de tokénisateur en Perl (*utf8-tokenize.perl*) est fourni avec la distribution de [*TreeTagger*](https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/) :

In [None]:
!echo "A Lannister always pays his debts." \
  | perl ./scripts/utf8-tokenize.perl

L’algorithme par défaut est prévu pour une segmentation sur l’espace. Des options permettent d’activer des comportements différenciés pour certaines langues :

- `-e` : pour l’anglais ;
- `-f` : pour le français ;
- `-i` : pour l’italien ;
- `-z` : pour le galicien.

In [None]:
!echo "C’est aujourd’hui ton rendez-vous chez l’ostéopathe ?" \
  | perl ./scripts/utf8-tokenize.perl -f

La commande considère correctement *aujourd’hui* comme un seul mot quand *rendez-vous* a été séparé en deux. Il est possible de lui transmettre un fichier pour gérer certaines spécificités du français avec l’option `-a` :

In [None]:
!echo "C’est aujourd’hui ton rendez-vous chez l’ostéopathe ?" \
  | perl ./scripts/utf8-tokenize.perl -f -a ./files/french-abbreviations

Le fichier *french-abbreviations*, consistant en une simple liste de mots, ne doit être constitué qu’en connaissance de cause, c’est-à-dire après analyse des erreurs résiduelles du tokénisateur.

## Python

Le langage le plus populaire actuellement dispose de nombreux outils développés pour le TAL :

- *Stanza* : Bibliothèque de traitement du langage naturel développée par Stanford, spécialisée dans l’analyse syntaxique et la reconnaissance d’entités nommées. Elle prend en charge plus de 70 langues, dont l’anglais, le français, l’espagnol, l’allemand, l’italien, le chinois, etc.
- *NLTK* : La bibliothèque de référence pour l’enseignement du TAL, elle propose des outils pour la tokenisation, l’étiquetage et l’analyse grammaticale. Prévue initialement pour l’anglais, elle supporte dans une moindre mesure des outils pour le français, l’espagnol et l’allemand. Pour l’employer avec d’autres langues, il sera nécessaire d’installer d’autres ressources.
- *spaCy* : Une bibliothèque performante pour le traitement rapide de grandes quantités de texte, avec des fonctionnalités avancées de traitement syntaxique et de modélisation de textes. Elle supporte une large gamme de langues, dont l’anglais, le français, l’allemand, l’espagnol, l’italien, le néerlandais, etc.

Pour des tâches de segmentation basées sur l’espace, n’importe laquelle de ces bibliothèques fera l’affaire, mais dès lors que l’on touche à des écritures sans espace, comme certaines langues asiatiques, *Stanza* devient le choix par défaut à moins d’installer d’autres ressources comme *jieba* pour le chinois ou *MeCab* pour le japonais.

### NLTK : un outil indispensable pour traiter les langues européennes

Soient les deux textes suivants :

In [None]:
en = "Little Joe sat down on the bank and prepared to enjoy his breakfast. He hadn't seen Buster Bear, and he didn't know that he or any one else was anywhere near."
fr = "Elvire, m’as-tu fait un rapport bien sincère ? Ne déguises-tu rien de ce qu’a dit mon père ?"

NLTK est une bibliothèque Python complète pour le traitement automatique du langage. Elle offre des outils de tokenisation, d’analyse syntaxique et de manipulation de corpus, ce qui la rend particulièrement adaptée aux langues européennes :

In [None]:
import nltk

# load english tokenizer
nltk.download("punkt")
nltk.download("punkt_tab")

tokens_en = nltk.word_tokenize(en)
tokens_fr = nltk.word_tokenize(fr, language='french')

print(tokens_en, tokens_fr, sep="\n")

### spaCy : des pipelines prêts à l’utilisation

spaCy propose des modèles pré-entraînés et des pipelines optimisés pour le traitement rapide et précis des textes. Idéal pour les projets industriels ou de prototypage, il facilite l’extraction d’entités, la lemmatisation et l’analyse syntaxique sans configuration complexe :

In [None]:
import spacy

nlp = spacy.blank("fr")
doc = nlp(fr)

for token in doc:
    print(token.text)

### Stanza : pour les langues asiatiques ou à morphologie complexe

Stanza, développé par Stanford, se distingue par sa capacité à gérer les langues à morphologie riche et les systèmes d’écriture asiatiques. Grâce à ses modèles linguistiques sophistiqués, il offre une analyse fine des structures grammaticales et des dépendances syntaxiques :

In [None]:
import stanza

# download model for chinese
stanza.download('zh')

# pipeline initialization
nlp = stanza.Pipeline('zh', processors='tokenize')

# process
text = "月光洒在湖面，如梦般轻柔。"
doc = nlp(text)

# print tokens
for sentence in doc.sentences:
    for word in sentence.words:
        print(word.text)
