# Tokenisation

La tokenisation consiste à découper un texte en *token*, le plus souvent des mots. Le notebook utilise un extrait d'un article du monde.

In [1]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

## Tokenizer

In [2]:
texte = """
Mardi 20 février, à la médiathèque des Mureaux (Yvelines), le chef de l’Etat a accompagné 
la locataire de la rue de Valois pour la remise officielle du rapport 
sur les bibliothèques, rédigé par leur ami commun, l’académicien 
Erik Orsenna, avec le concours de Noël Corbin, inspecteur général 
des affaires culturelles. L’occasion de présenter les premières 
mesures en faveur d’un « plan bibliothèques ».
"""

### nltk

La librairie la plus connue pour faire du traitement du langage naturel est [nltk](https://www.nltk.org/) (ou *Natural Language Toolkit*). 

In [3]:
from nltk.tokenize import word_tokenize
' - '.join(word_tokenize(texte))

'Mardi - 20 - février - , - à - la - médiathèque - des - Mureaux - ( - Yvelines - ) - , - le - chef - de - l - ’ - Etat - a - accompagné - la - locataire - de - la - rue - de - Valois - pour - la - remise - officielle - du - rapport - sur - les - bibliothèques - , - rédigé - par - leur - ami - commun - , - l - ’ - académicien - Erik - Orsenna - , - avec - le - concours - de - Noël - Corbin - , - inspecteur - général - des - affaires - culturelles - . - L - ’ - occasion - de - présenter - les - premières - mesures - en - faveur - d - ’ - un - « - plan - bibliothèques - » - .'

In [4]:
from nltk.tokenize import WordPunctTokenizer
to = WordPunctTokenizer()
' - '.join(to.tokenize(texte))

'Mardi - 20 - février - , - à - la - médiathèque - des - Mureaux - ( - Yvelines - ), - le - chef - de - l - ’ - Etat - a - accompagné - la - locataire - de - la - rue - de - Valois - pour - la - remise - officielle - du - rapport - sur - les - bibliothèques - , - rédigé - par - leur - ami - commun - , - l - ’ - académicien - Erik - Orsenna - , - avec - le - concours - de - Noël - Corbin - , - inspecteur - général - des - affaires - culturelles - . - L - ’ - occasion - de - présenter - les - premières - mesures - en - faveur - d - ’ - un - « - plan - bibliothèques - ».'

In [5]:
from difflib import context_diff, ndiff
print('\n'.join(context_diff(word_tokenize(texte),
                             to.tokenize(texte), 
                             fromfile='word_tokenize',
                             tofile='WordPunctTokenizer')))

*** word_tokenize

--- WordPunctTokenizer

***************

*** 9,16 ****

  Mureaux
  (
  Yvelines
! )
! ,
  le
  chef
  de
--- 9,15 ----

  Mureaux
  (
  Yvelines
! ),
  le
  chef
  de
***************

*** 77,81 ****

  «
  plan
  bibliothèques
! »
! .
--- 76,79 ----

  «
  plan
  bibliothèques
! ».


### gensim

La documentation de la librairie [nltk](https://www.nltk.org/) est assez longue et ce n'est pas la plus simple d'accès. [gensim](https://radimrehurek.com/gensim/) est une autre option plus récente.

In [6]:
from gensim.utils import tokenize
" - ".join(tokenize(texte, deacc=True, lower=True))

'mardi - fevrier - a - la - mediatheque - des - mureaux - yvelines - le - chef - de - l - etat - a - accompagne - la - locataire - de - la - rue - de - valois - pour - la - remise - officielle - du - rapport - sur - les - bibliotheques - redige - par - leur - ami - commun - l - academicien - erik - orsenna - avec - le - concours - de - noel - corbin - inspecteur - general - des - affaires - culturelles - l - occasion - de - presenter - les - premieres - mesures - en - faveur - d - un - plan - bibliotheques'

In [7]:
from gensim.utils import tokenize
" - ".join(tokenize("chiffres 20 ch20", deacc=True, lower=True))

'chiffres - ch'

### spacy

Un dernier module a vu le jour [spacy](https://spacy.io/). On suit l'exemple présenté dans [spacy-101](https://spacy.io/usage/spacy-101). Il faut télécharger un paquet de ressource depuis [spacy-models](https://spacy.io/usage/models#available). **Note :** sous Windows, il faut faudra ruser et installer le module [fr_core_news_sm](https://spacy.io/models/fr#section-fr_core_news_sm) vous même (et bidouiller le fichier setup.py).

In [8]:
import spacy
nlp = spacy.load('fr_core_news_sm')

In [9]:
doc = nlp(texte)

In [10]:
' - '.join(t.text for t in doc)

'\n - Mardi - 20 - février - , - à - la - médiathèque - des - Mureaux - ( - Yvelines - ) - , - le - chef - de - l’ - Etat - a - accompagné - \n - la - locataire - de - la - rue - de - Valois - pour - la - remise - officielle - du - rapport - \n - sur - les - bibliothèques - , - rédigé - par - leur - ami - commun - , - l’ - académicien - \n - Erik - Orsenna - , - avec - le - concours - de - Noël - Corbin - , - inspecteur - général - \n - des - affaires - culturelles - . - L’ - occasion - de - présenter - les - premières - \n - mesures - en - faveur - d’ - un - « - plan - bibliothèques - » - . - \n'

In [11]:
' - '.join(t.text for t in doc if t.is_alpha)

'Mardi - février - à - la - médiathèque - des - Mureaux - Yvelines - le - chef - de - Etat - a - accompagné - la - locataire - de - la - rue - de - Valois - pour - la - remise - officielle - du - rapport - sur - les - bibliothèques - rédigé - par - leur - ami - commun - académicien - Erik - Orsenna - avec - le - concours - de - Noël - Corbin - inspecteur - général - des - affaires - culturelles - occasion - de - présenter - les - premières - mesures - en - faveur - un - plan - bibliothèques'

On voit que la tokenisation des apostrophes est différente et qu'on a plus d'information sur chaque token.

In [12]:
el = doc[1]

In [13]:
el.text, el.is_alpha

('Mardi', True)

## Supprimer les stopwords

### nltk

Le module [nltk](https://www.nltk.org/) fournit une liste de stopwords. Il suffit de supprimer tous les mots dans cette liste.

In [14]:
from nltk.corpus import stopwords
' - '.join(stopwords.words('english'))

"i - me - my - myself - we - our - ours - ourselves - you - you're - you've - you'll - you'd - your - yours - yourself - yourselves - he - him - his - himself - she - she's - her - hers - herself - it - it's - its - itself - they - them - their - theirs - themselves - what - which - who - whom - this - that - that'll - these - those - am - is - are - was - were - be - been - being - have - has - had - having - do - does - did - doing - a - an - the - and - but - if - or - because - as - until - while - of - at - by - for - with - about - against - between - into - through - during - before - after - above - below - to - from - up - down - in - out - on - off - over - under - again - further - then - once - here - there - when - where - why - how - all - any - both - each - few - more - most - other - some - such - no - nor - not - only - own - same - so - than - too - very - s - t - can - will - just - don - don't - should - should've - now - d - ll - m - o - re - ve - y - ain - aren -

In [15]:
' - '.join(stopwords.words('french'))

'au - aux - avec - ce - ces - dans - de - des - du - elle - en - et - eux - il - je - la - le - leur - lui - ma - mais - me - même - mes - moi - mon - ne - nos - notre - nous - on - ou - par - pas - pour - qu - que - qui - sa - se - ses - son - sur - ta - te - tes - toi - ton - tu - un - une - vos - votre - vous - c - d - j - l - à - m - n - s - t - y - été - étée - étées - étés - étant - étante - étants - étantes - suis - es - est - sommes - êtes - sont - serai - seras - sera - serons - serez - seront - serais - serait - serions - seriez - seraient - étais - était - étions - étiez - étaient - fus - fut - fûmes - fûtes - furent - sois - soit - soyons - soyez - soient - fusse - fusses - fût - fussions - fussiez - fussent - ayant - ayante - ayantes - ayants - eu - eue - eues - eus - ai - as - avons - avez - ont - aurai - auras - aura - aurons - aurez - auront - aurais - aurait - aurions - auriez - auraient - avais - avait - avions - aviez - avaient - eut - eûmes - eûtes - eurent - aie - 

In [16]:
st = set(stopwords.words('french'))
' - '.join(w for w in word_tokenize(texte) if w not in st)

'Mardi - 20 - février - , - médiathèque - Mureaux - ( - Yvelines - ) - , - chef - ’ - Etat - a - accompagné - locataire - rue - Valois - remise - officielle - rapport - les - bibliothèques - , - rédigé - ami - commun - , - ’ - académicien - Erik - Orsenna - , - concours - Noël - Corbin - , - inspecteur - général - affaires - culturelles - . - L - ’ - occasion - présenter - les - premières - mesures - faveur - ’ - « - plan - bibliothèques - » - .'

### gensim

In [17]:
from gensim.parsing.preprocessing import STOPWORDS
" - ".join(STOPWORDS)

'rather - am - throughout - hereafter - whereby - how - last - full - thereby - as - they - make - the - nowhere - only - please - once - was - since - nobody - sometime - who - else - whom - five - forty - find - will - above - serious - beyond - latterly - fill - should - we - eg - anyway - before - latter - get - then - hasnt - hundred - though - ltd - of - sincere - that - such - bottom - quite - while - not - nevertheless - whence - computer - somewhere - seemed - either - down - amoungst - go - herein - therefore - interest - doing - twelve - first - couldnt - our - regarding - hereupon - whole - seems - nothing - you - no - empty - did - can - about - re - themselves - wherein - another - whatever - thus - someone - in - wherever - but - its - further - more - himself - below - keep - own - he - so - mine - mostly - six - sometimes - between - now - have - these - due - does - could - off - being - becomes - over - i - thence - cry - everywhere - become - some - besides - almost

### spacy

Encore plus simple avec [spacy](https://spacy.io/) où chaque token contient l'information souhaitée.

In [18]:
doc = nlp(texte)
' - '.join(t.text for t in doc if t.is_stop)

'à - la - des - le - de - l’ - a - la - de - la - de - pour - la - du - sur - les - par - leur - l’ - avec - le - de - des - de - les - en - d’ - un'

In [19]:
' - '.join(t.text for t in doc if not t.is_stop)

'\n - Mardi - 20 - février - , - médiathèque - Mureaux - ( - Yvelines - ) - , - chef - Etat - accompagné - \n - locataire - rue - Valois - remise - officielle - rapport - \n - bibliothèques - , - rédigé - ami - commun - , - académicien - \n - Erik - Orsenna - , - concours - Noël - Corbin - , - inspecteur - général - \n - affaires - culturelles - . - L’ - occasion - présenter - premières - \n - mesures - faveur - « - plan - bibliothèques - » - . - \n'

## Autres modules

* [textblob](https://textblob.readthedocs.io/en/dev/), [textblob-fr](https://pypi.python.org/pypi/textblob-fr/0.2.0) : Simplified Text Processing
* [corpora](http://pythonhosted.org/Corpora/), [pycorpora](https://github.com/aparrish/pycorpora) : corpus de texte
* [regex4dummies](https://pypi.python.org/pypi/regex4dummies/) : expression régulière pour extraire des informations dans un texte

Il existe une quantité de modules différentes. Lorsque les sources sont connues et très utilisées comme [wikipedia](https://dumps.wikimedia.org/backup-index.html).

## n-grams

Petit intermède : après un découpage en mots, on ne considère plus l'ordre avec une approche *bag-of-words*. Si l'information contenu par l'ordre des mots s'avère importante, il faut considérer un découpage en couple de mots (bi-grammes), triplets de mots (3-grammes)...

In [20]:
from nltk.util import ngrams
generated_ngrams = ngrams(word_tokenize(texte), 4, pad_left=True, pad_right=True)
list(generated_ngrams)[:7]

[(None, None, None, 'Mardi'),
 (None, None, 'Mardi', '20'),
 (None, 'Mardi', '20', 'février'),
 ('Mardi', '20', 'février', ','),
 ('20', 'février', ',', 'à'),
 ('février', ',', 'à', 'la'),
 (',', 'à', 'la', 'médiathèque')]

## Versions utilisées pour ce notebook

[spacy](https://spacy.io/) s'est montré quelque peu fantasques cette année avec quelques erreurs notamment celle-ci :
[ValueError: cymem.cymem.Pool has the wrong size, try recompiling](https://github.com/explosion/spaCy/issues/2852). Voici les versions utilisées...

In [21]:
def version(module):
    try:
        ver = getattr(module, '__version__', None)
        if ver is None:
            ver = [_ for _ in os.listdir(os.path.join(module.__file__, '..', '..')) \
                   if module.__name__ in _][-1]
        return ver
    except Exception as e:
        return str(e)

In [22]:
import os
import thinc
print("thinc", version(thinc))
import preshed
print("preshed", version(preshed))
import cymem
print("cymem", version(cymem))
import murmurhash
print("murmurhash", version(murmurhash))
import plac
print("plac", plac.__version__)
import spacy
print("spacy", spacy.__version__)

thinc thinc-6.12.1.dist-info
preshed preshed-2.0.1.dist-info
cymem cymem-2.0.2.dist-info
murmurhash murmurhash-1.0.1.dist-info
plac 0.9.6
spacy 2.0.18
