# Tokenisation

La tokenisation est le processus de segmentation d’un texte en unités (tokens) significatives (phrases, mots, symboles…). Elle constitue souvent la première étape avant toute analyse de texte.

## Préparation

1. Importer NLTK
2. Installer le module `punkt` (si besoin)
3. Charger le tokenizer

In [None]:
# 1
import nltk

# 2 if needed
# nltk.download('punkt')

# 3
from nltk.tokenize import sent_tokenize, word_tokenize

## Segmentation en phrases

Méthode `.sent_tokenize()` pour segmenter un texte en phrases.

Exemple avec deux extraits issus pour le premier des *Adventures of Buster Bear* (Burgess, 1920) et pour le second du *Cid* (Corneille, 1637) :

In [None]:
en = "Little Joe sat down on the bank and prepared to enjoy his breakfast. He hadn't seen Buster Bear, and he didn't know that he or any one else was anywhere near."
fr = "Elvire, m’as-tu fait un rapport bien sincère ? Ne déguises-tu rien de ce qu’a dit mon père ?"

print(
    sent_tokenize(en),
    sent_tokenize(fr),
    sep="\n"
)

Pour plus d’efficacité avec des textes longs, charger directement le fichier *pickle* (outil pour sérialiser un objet en Python), et sélectionner celui qui convient à la langue de travail :

In [None]:
import nltk.data

tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle')

tokenizer.tokenize(fr)

## Segmentation en mots

Méthode `.word_tokenize()` :

In [None]:
print(word_tokenize(en))

print(word_tokenize(fr, language='french'))

**Remarques :**
- ponctuation conservée
- contractions séparées (en anglais)
- segmentation selon les espaces et la ponctuation.

Méthode `word_tokenize()` fait par défaut appel à une classe `TreebankWordTokenizer`.

D’autres *tokenizers* existent :
- `WhitespaceTokenizer`
- `SpaceTokenizer`
- `WordPunctTokenizer`

Comparons les différences :

In [None]:
from nltk.tokenize import WhitespaceTokenizer, SpaceTokenizer, WordPunctTokenizer

sentence = "He hadn't seen Buster Bear, and he didn't know that he or any one else was anywhere near."

tokenizers = [
    WhitespaceTokenizer(),
    SpaceTokenizer(),
    WordPunctTokenizer()
]

for tokenizer in tokenizers:
    print(tokenizer.tokenize(sentence))

Les contractions et la ponctuation sont gérées différemment :

| Tokenizer    | Contraction      | Ponctuation |
|--------------|:----------------:|:------------|
| TreebankWord | *had*, *n't*     | excluse     |
| Whitespace   | *hadn't*         | incluse     |
| Space        | *hadn't*         | incluse     |
| WordPunct    | *hadn*, *'*, *t* | excluse     |

Une autre classe de tokenizer permet de personnaliser son modèle de tokenisation : `RegexpTokenizer`. Elle est par exemple très utile pour supprimer toute ponctuation :

In [None]:
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer('\w+')

tokenizer.tokenize(fr)

Et pour inclure les contractions de l’anglais ?

In [None]:
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\w']+")

tokenizer.tokenize(en)

Par défaut, `RegexpTokenizer` travaille sur les tokens, mais on peut lui demander de travailler plutôt sur les espaces :

In [None]:
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\s]+", gaps=True)

tokenizer.tokenize(en)

Une autre opération courante consiste à ne conserver que les mots signifiants d’un texte.

NLTK fournit une liste de mots vides pour plusieurs langues :

In [None]:
from nltk.corpus import stopwords

# Sample of stopwords in French
stopwords.words('french')[:10]

Et pour filtrer grâce à cette liste :

In [None]:
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords

tokenizer = RegexpTokenizer("\w+")
fr_stopwords = stopwords.words('french')
words = tokenizer.tokenize(fr)

[
    word
    for word in words
    if word not in fr_stopwords
]

## Le module `string`

La librairie standard de Python définit [neuf constantes](https://docs.python.org/3/library/string.html) qui entrent dans des opérations très communes liées aux chaînes de caractères.

Ces constantes sont accessibles via le module `string` :

In [None]:
import string

Citons trois de ces constantes :
- `string.ascii_letters` : alphabet latin non accentué ;
- `string.digits` : dix signes numériques (0-9) ;
- `string.punctuation` : signes de ponctuation.

In [None]:
string.ascii_letters

Ces constantes peuvent par exemple servir à filtrer une liste de tokens :

In [None]:
# list of tokens minus punctuation
[
    w
    for w in word_tokenize(en)
    if w not in string.punctuation
]

Il est tentant de se fier à cette manipulation aussi pour le français :

In [None]:
[
    w
    for w in word_tokenize(fr)
    if w not in string.punctuation
]

**Attention !** La constante `punctuation` ne connaît pas toutes les variantes de guillemets du français !