# Text processing

## Tokenization

Several tokenizers are available. As you will see bellow, spaCy is much faster than the other implementations (Moses, NLTK) and often return better results. 

In [1]:
from nautilus_nlp.preprocessing.tokenizer import tokenize, untokenize

[nltk_data] Downloading package punkt to /Users/hugo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
fr_txt = "Ceci est un texte français, j'adore 1 !"
eng_txt = "Let's play together!"

In [3]:
str_ = """Les moteurs de recherche tels Google, Exalead ou Yahoo! sont des applications très connues de fouille de textes sur de grandes masses de données. Cependant, les moteurs de recherche ne se basent pas uniquement sur le texte pour l'indexer, mais également sur la façon dont les pages sont mises en valeur les unes par rapport aux autres. L'algorithme utilisé par Google est PageRank, et il est courant de voir HITS dans le milieu académique"""

### French spaCy

In [4]:
%%time
tokenized_fr_txt = tokenize(str_, lang_module="fr_spacy")

CPU times: user 8.94 ms, sys: 1.24 ms, total: 10.2 ms
Wall time: 9.3 ms


In [5]:
print(tokenized_fr_txt[:10])

['Les', 'moteurs', 'de', 'recherche', 'tels', 'Google', ',', 'Exalead', 'ou', 'Yahoo']


### French Moses

In [7]:
%%time
tokenized_fr_txt = tokenize(str_, lang_module="fr_moses")

CPU times: user 18.2 s, sys: 82.5 ms, total: 18.3 s
Wall time: 18.5 s


In [8]:
print(tokenized_fr_txt[:10])

['Les', 'moteurs', 'de', 'recherche', 'tels', 'Google', ',', 'Exalead', 'ou', 'Yahoo']


### English spaCy

In [9]:
%%time
tokenized_eng_txt = tokenize(eng_txt, lang_module="en_spacy")

CPU times: user 1.24 ms, sys: 2 µs, total: 1.24 ms
Wall time: 1.25 ms


In [22]:
tokenized_eng_txt

['Let', "'s", 'play', 'together', '!']

### English NLTK 

In [10]:
%%time
tokenized_eng_txt = tokenize(eng_txt, lang_module="en_nltk")
tokenized_eng_txt

CPU times: user 11.2 ms, sys: 3.35 ms, total: 14.5 ms
Wall time: 16 ms


## Un-tokenization

In [13]:
%%time
untokenize(tokenized_eng_txt,lang='en')

CPU times: user 235 µs, sys: 1e+03 ns, total: 236 µs
Wall time: 243 µs


"Let's play together!"

In [14]:
%%time
untokenize(tokenized_fr_txt,lang='fr')

CPU times: user 4.07 ms, sys: 181 µs, total: 4.25 ms
Wall time: 4.19 ms


"Les moteurs de recherche tels Google, Exalead ou Yahoo ! sont des applications très connues de fouille de textes sur de grandes masses de données. Cependant, les moteurs de recherche ne se basent pas uniquement sur le texte pour l' indexer, mais également sur la façon dont les pages sont mises en valeur les unes par rapport aux autres. L' algorithme utilisé par Google est PageRank, et il est courant de voir HITS dans le milieu académique"

# Stemming 

In [17]:
from nautilus_nlp.preprocessing.stemming import stem_tokens

In [23]:
stem_tokens(['I','survived','these', 'dogs'], lang='english')

['i', 'surviv', 'these', 'dog']

In [26]:
stem_tokens(['je', 'mangerai', 'dans', 'les', 'cuisines', 'du', 'château'],lang='french')

['je', 'mang', 'dan', 'le', 'cuisin', 'du', 'château']

# Lemmatization

## French 

In [27]:
from nautilus_nlp.preprocessing.lemmatization import lemmatize_french_tokens

[nltk_data] Downloading package wordnet to /Users/hugo/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [28]:
txt_to_tokenize=['Ceci', 'est', 'un', 'texte', 'français', ',', "j'", 'adore', 'tes', 'frites', 'bien', 'grasses', 'YOLO', '!']
print(txt_to_tokenize)

['Ceci', 'est', 'un', 'texte', 'français', ',', "j'", 'adore', 'tes', 'frites', 'bien', 'grasses', 'YOLO', '!']


In [30]:
%%time
lemmatized_tokens = lemmatize_french_tokens(txt_to_tokenize, module='spacy')

CPU times: user 20.3 ms, sys: 2.47 ms, total: 22.7 ms
Wall time: 20.6 ms


In [31]:
print(lemmatized_tokens)

['ceci', 'être', 'un', 'texte', 'français', ',', 'j', "'", 'adorer', 'ton', 'frit', 'bien', 'gras', 'yolo', '!']


## English

In [34]:
from nautilus_nlp.preprocessing.lemmatization import lemmatize_english_tokens

In [35]:
to_lemmatize = ['The', 'striped', 'bats', 'are', 'hanging', 'on', 'their', 'feet', 'for', 'best']

In [37]:
%%time
lemmatize_english_tokens(to_lemmatize, module='spacy')

CPU times: user 16.9 ms, sys: 3.03 ms, total: 19.9 ms
Wall time: 16.8 ms


['the', 'strip', 'bat', 'be', 'hang', 'on', '-PRON-', 'foot', 'for', 'good']

In [41]:
%%time
lemmatize_english_tokens(to_lemmatize, module='nltk')

CPU times: user 2.58 s, sys: 141 ms, total: 2.72 s
Wall time: 2.73 s


['The', 'strip', 'bat', 'be', 'hang', 'on', 'their', 'foot', 'for', 'best']

# Remove stop words

In [42]:
from nautilus_nlp.preprocessing.preprocess import remove_stopwords
from nautilus_nlp.preprocessing.preprocess import get_stopwords

In [43]:
FRENCH_SW = get_stopwords('fr')

In [44]:
text = "J'ai un beau cheval"

In [45]:
remove_stopwords(text, FRENCH_SW)

["J'ai", 'cheval']

In [46]:
remove_stopwords(tokenize(text, lang_module="fr_spacy"),FRENCH_SW)

["J'", 'cheval']