# Les principes de la tokenisation de données textuelles

La tokenisation est le processus de segmentation d’un texte en unités significatives. Elle constitue souvent la première étape avant toute analyse de texte.

Si l’unité du token n’est pas formellement définie, on considère souvent le mot en traitement automatique du langage.

## Les critères de segmentation d’un texte en mots

Le cerveau humain résoud assez facilement la tâche de segmentation d’un texte en mots :

> « Unécureuilagilegrimpedessuslecharme. »

> « Un écureuil agile grimpe dessus le charme. »

La décision s’effectue naturellement en fonction critères :

- **Syntaxe :** La structure grammaticale attendue peut guider la segmentation.
- **Prosodie :** Un texte lu fournit des indices rythmiques ou intonatifs pour signaler une segmentation particulière.
- **Sens :** Les formes qui ne véhiculent pas de sens immédiat sont disqualifiés (« écureil » plutôt que « écu reuil ».
- **Orthographe :** En l’absence d’un contexte d’énonciation défini (textos, tweets, langage codé, familier), la rigueur orthographique constitue une aide supplémentaire au décodage (« Un écureil agile » plutôt que « Un écureil agi le »).
- **Fréquence d’usage :** Le mot « dessus » est bien plus fréquent que la séquence « des sus ».
- **Contexte sémantique :** Les connaissances du monde influencent également la segmentation, comme savoir qu’il est naturel pour un écureuil d’être sur un arbre.
- **Morphologie :** La reconnaissance des préfixes, suffixes et racines (« sus » étant archaïque) participe au choix de la segmentation la plus plausible.

## Des systèmes d’écriture continue

Sans parler de certaines langues anciennes comme le grec classique ou le latin avant la période médiévale qui étaient écrites en *scriptio continua*, l’utilisation de l’espace comme outil de segmentation entre mots n’est qu’une convention répandue dans de nombreuses langues modernes. Si l’on considère toutes les langues du monde, elle n’est ni universelle ni majoritaire. En effet, de nombreuses langues asiatiques ne délimitent pas les mots :

- **Le chinois :** Chaque caractère d’un texte peut représenter un mot ou une partie d’un mot comme dans « 我喜欢吃苹果 » pour je (我) aimer (喜欢) manger (吃) pomme (苹果).
- **Le japonais :** Mélange des kanjis (idéo-phonogrammes) et des kanas (syllabaires hiragana et katakana) sans séparation. La phrase « 私は毎朝コーヒーを飲みます » utilise :
  - les kanjis 私 (je), 飲 (boire) et 毎朝 (chaque matin) ;
  - les katakanas コーヒー (kōhī, café) ;
  - et les hiraganas は (du), を (objet direct d’une action) et みます pour la conjugaison du verbe sous une forme polie au présent.
- **Le thaï :** Bien que les phrases puissent être délimitées par des ponctuations, le texte est écrit en continu, comme dans « ฉันชอบกินแอปเปิ้ล » pour je (ฉัน) aime (ชอบ) manger (กิน) pomme (แอปเปิ้ล).
- **Le lao et le khmer :** Similaires au thaï, les mots ne sont pas séparés.

## Autres difficultés liées à la segmentation

Même dans les langues qui recourent aux espaces pour séparer les mots, plusieurs phénomènes rendent la tâche de tokenisation complexe.

### Le cas de l’apostrophe

L’apostrophe en français sert à marquer des contractions ou des élisions, qu’elles soient produites par des règles grammaticales ou par suppression d’une voyelle finale :

- « J’aime » pour *Je aime*
- « L’homme » pour *Le homme*

En anglais, l’apostrophe ne joue pas un rôle de segmentation en soi : elle est surtout employée pour des contractions ou pour marquer la possession :

- « Don't » pour *Do not*
- « John's book » pour exprimer la propriété de John sur l’objet

L’italien va lui aussi utiliser l’apostrophe pour marquer l’élision d’une voyelle comme dans « un’amica ».

### Les mots complexes

Certaines associations de mots existants par ailleurs représentent un seul et même concept, comme les français *rendez-vous*, *chou-fleur*, ou le portugais *guarda-chuva*. Les outils de TAL les traiteront comme un seul token. Citons aussi l’exception française *aujourd’hui* construite autour de l’ancien français *hoi*, *hui* « le jour où l’on est » (emprunté au latin *hodie*).

La question peut se poser aussi à propos de certaines expressions figées comme *pomme de terre* en français où les mots pris indépendamment renvoient à des réalités différentes de l’ensemble. Pour autant, en l’absence de signe de ponctuation pour les relier, ils seront considérés comme des tokens différents.

Les procédés agglutinants sont généralement traités comme une seule unité, qu’ils proviennent de l’ajout d’affixes ayant chacun une fonction grammaticale, comme dans le cas du turc *Muvaffakiyetsizleştiricileştiriveremeyebileceklerimizdenmişsinizcesinesiniz* (« Comme si vous faisiez partie de ceux qui ne peuvent pas être privés de leur pouvoir ») ou qu’ils soient formés d’une combinaison de plusieurs mots comme dans celui de l’allemand *Donaudampfschifffahrtsgesellschaftskapitän* (« Capitaine de la Compagnie de navigation à vapeur du Danube »).

## Une étape parmi d’autres

La tokenisation n’est ainsi qu’une étape technique incapable de représenter nettement la sémantique d’un texte. La seule présence des mots « pomme » et « terre » dans un énoncé ne signifie pas pour autant qu’il parle à coup sûr de pommes et de terre. Il pourrait tout aussi bien parler, comme nous l’avons vu, de « pommes de terre ».

Pour surmonter ces ambiguïtés, des traitements ultérieurs viendront affiner l’interprétation sémantique. Ces traitements peuvent inclure :

* L’utilisation de fenêtres contextuelles pour analyser les relations entre mots voisins et déterminer leur sens global ;
* la reconnaissance des expressions figées ou collocations fréquentes, permettant d’identifier les unités de sens comme un tout ;
* l’analyse syntaxique et morphologique pour mieux comprendre la structure grammaticale et les dépendances entre les mots ;
* les modèles de langage (comme ceux basés sur des réseaux neuronaux) capables de désambiguïser le sens en tenant compte du contexte global d’une phrase ou d’un texte.

Par conséquent, la tokenisation est certes essentielle mais elle reste limitée. Seul l’emploi de procédés complémentaires viendront révéler la richesse et la complexité du sens dans un texte.