# Common text processing operations

# Tokenization

## Tokenizing French and English texts

In [5]:
from nautilus_nlp.utils.tokenizer import tokenize, untokenize

In [6]:
fr_txt = "Ceci est un texte français, j'adore 1 !"
eng_txt = "Let's play together!"

In [11]:
str_ = """Les moteurs de recherche tels Google, Exalead ou Yahoo! sont des applications très connues de fouille de textes sur de grandes masses de données. Cependant, les moteurs de recherche ne se basent pas uniquement sur le texte pour l'indexer, mais également sur la façon dont les pages sont mises en valeur les unes par rapport aux autres. L'algorithme utilisé par Google est PageRank, et il est courant de voir HITS dans le milieu académique"""

In [15]:
%%time
tokenize(str_, lang_module="fr_spacy")

CPU times: user 4.76 ms, sys: 31 µs, total: 4.79 ms
Wall time: 4.42 ms


['Les',
 'moteurs',
 'de',
 'recherche',
 'tels',
 'Google',
 ',',
 'Exalead',
 'ou',
 'Yahoo',
 '!',
 'sont',
 'des',
 'applications',
 'très',
 'connues',
 'de',
 'fouille',
 'de',
 'textes',
 'sur',
 'de',
 'grandes',
 'masses',
 'de',
 'données',
 '.',
 'Cependant',
 ',',
 'les',
 'moteurs',
 'de',
 'recherche',
 'ne',
 'se',
 'basent',
 'pas',
 'uniquement',
 'sur',
 'le',
 'texte',
 'pour',
 "l'",
 'indexer',
 ',',
 'mais',
 'également',
 'sur',
 'la',
 'façon',
 'dont',
 'les',
 'pages',
 'sont',
 'mises',
 'en',
 'valeur',
 'les',
 'unes',
 'par',
 'rapport',
 'aux',
 'autres',
 '.',
 "L'",
 'algorithme',
 'utilisé',
 'par',
 'Google',
 'est',
 'PageRank',
 ',',
 'et',
 'il',
 'est',
 'courant',
 'de',
 'voir',
 'HITS',
 'dans',
 'le',
 'milieu',
 'académique']

In [14]:
%%time
tokenized_fr_txt = tokenize(str_, lang_module="fr_moses")

CPU times: user 6.22 ms, sys: 94 µs, total: 6.31 ms
Wall time: 4.27 ms


In [13]:
tokenize(str_, lang_module="fr_moses")

['Les',
 'moteurs',
 'de',
 'recherche',
 'tels',
 'Google',
 ',',
 'Exalead',
 'ou',
 'Yahoo',
 '!',
 'sont',
 'des',
 'applications',
 'très',
 'connues',
 'de',
 'fouille',
 'de',
 'textes',
 'sur',
 'de',
 'grandes',
 'masses',
 'de',
 'données',
 '.',
 'Cependant',
 ',',
 'les',
 'moteurs',
 'de',
 'recherche',
 'ne',
 'se',
 'basent',
 'pas',
 'uniquement',
 'sur',
 'le',
 'texte',
 'pour',
 "l'",
 'indexer',
 ',',
 'mais',
 'également',
 'sur',
 'la',
 'façon',
 'dont',
 'les',
 'pages',
 'sont',
 'mises',
 'en',
 'valeur',
 'les',
 'unes',
 'par',
 'rapport',
 'aux',
 'autres',
 '.',
 "L'",
 'algorithme',
 'utilisé',
 'par',
 'Google',
 'est',
 'PageRank',
 ',',
 'et',
 'il',
 'est',
 'courant',
 'de',
 'voir',
 'HITS',
 'dans',
 'le',
 'milieu',
 'académique']

In [5]:
%%time
tokenized_eng_txt = tokenize(eng_txt, lang_module="en_spacy")
tokenized_eng_txt

CPU times: user 24.3 ms, sys: 3.99 ms, total: 28.3 ms
Wall time: 26.2 ms


In [6]:
%%time
tokenized_eng_txt = tokenize(eng_txt, lang_module="en_nltk")
tokenized_eng_txt

CPU times: user 17.3 ms, sys: 3.71 ms, total: 21 ms
Wall time: 26.9 ms


## You can also untokenize your text

In [13]:
untokenize(tokenized_eng_txt,lang='en')

"Let's play together!"

In [15]:
# Here the "J'adore" is not handled in the right way
untokenize(tokenized_fr_txt,lang='fr')

"Ceci est un texte français, j' adore !"

# Stemming 

In [124]:
from nautilus_nlp.utils.stemmer import stem_tokens

In [125]:
stem_tokens(['I','survived','these', 'dogs'], lang='english')

['i', 'surviv', 'these', 'dog']

In [128]:
stem_tokens(tokenize("je mangerai dans les cuisines du château"),lang='french')

['je', 'mang', 'dan', 'le', 'cuisin', 'du', 'château']

# Lemmatization

## French 

In [28]:
from nautilus_nlp.utils.lemmatizer import lemmatize_french_tokens

In [29]:
txt_to_tokenize=['Ceci', 'est', 'un', 'texte', 'français', ',', "j'", 'adore', 'tes', 'frites', 'bien', 'grasses', 'YOLO', '!']
print(txt_to_tokenize)

['Ceci', 'est', 'un', 'texte', 'français', ',', "j'", 'adore', 'tes', 'frites', 'bien', 'grasses', 'YOLO', '!']


In [32]:
%%time
lemmatize_french_tokens(txt_to_tokenize, module='spacy')

CPU times: user 37.9 ms, sys: 51.9 ms, total: 89.8 ms
Wall time: 65.3 ms


['ceci',
 'être',
 'un',
 'texte',
 'français',
 ',',
 'j',
 "'",
 'adorer',
 't',
 'frite',
 'bien',
 'gras',
 'yolo',
 '!']

## English

In [1]:
from nautilus_nlp.utils.lemmatizer import lemmatize_english_tokens

[nltk_data] Downloading package wordnet to /Users/hugo/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [2]:
to_lemmatize = ['The', 'striped', 'bats', 'are', 'hanging', 'on', 'their', 'feet', 'for', 'best']

In [3]:
%%time
lemmatize_english_tokens(to_lemmatize, module='spacy')

CPU times: user 27.2 ms, sys: 4.4 ms, total: 31.6 ms
Wall time: 31.3 ms


['the', 'strip', 'bat', 'be', 'hang', 'on', '-PRON-', 'foot', 'for', 'good']

In [4]:
%%time
lemmatize_english_tokens(to_lemmatize, module='nltk')

CPU times: user 3.07 s, sys: 217 ms, total: 3.28 s
Wall time: 3.45 s


['The', 'strip', 'bat', 'be', 'hang', 'on', 'their', 'foot', 'for', 'best']

# Remove stop words

In [1]:
from nautilus_nlp.utils.preprocess import remove_stopwords
from nautilus_nlp.utils.tokenizer import tokenize
from nautilus_nlp.utils.constants import get_stopwords

[nltk_data] Downloading package punkt to /Users/hugo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
FRENCH_SW = get_stopwords('fr')

In [3]:
text = "J'ai un beau cheval"

In [4]:
remove_stopwords(text, FRENCH_SW)

["J'ai", 'beau', 'cheval']

In [6]:
remove_stopwords(tokenize(text, lang_module="fr_spacy"),FRENCH_SW)

["J'", 'beau', 'cheval']

# Fix bad encoding

Sometimes you messed up you encoding saving files, and you don't know how to fix this.

In [2]:
from nautilus_nlp.utils.preprocess import fix_bad_unicode
from nautilus_nlp.utils import file_loader

In [3]:
bad_unicode=file_loader.open_textfile('./bad_encoding.txt')

In [8]:
bad_unicode[0:1000]

"Les augmentations de rÃ©munÃ©rations\nrÃ©nover l'enquÃªte publique pour en faire un vrai outil  d'amÃ©nagement du territoire et de dialogue social\nLimitations de vitesse et sÃ©curitÃ© routiÃ¨re\nPour un nouveau contrat citoyen\nDÃ©velopper les dÃ©marches de budget participatif dans les collectivitÃ©s et associer les citoyens dans la rÃ©alisation des projets\nproportienelle\nPour plus de dÃ©mocratie participative\nTransparence de la vie public\n18 mois de trop....ca suffit macron\nEgalitÃ© devant les infractions routiÃ¨res\nMesures d'urgence pour une dÃ©mocratie rÃ©gÃ©nÃ©rÃ©e\nSORTIR DU GRAND EST ! REOUR A LA REGION ALSACE\nPour plus de transparence\nEcoutez enfin le  peuple.\nVote obligatoire\nAvis d'un citoyen ordinaire et socialiste - vive le RIC\nsuppression du 80 km/h\nproportionelle et immigration\nRevoir les plafonds des aides sociales\nProposition de Refondation du Capitalisme et d'Instauration d'un Dividende Universel FinancÃ©es par l'Ã‰pargne.\nSuppression du sÃ©nat\nLimitat

In [9]:
fix_bad_unicode(bad_unicode)[0:1000]

"Les augmentations de rémunérations\nrénover l'enquête publique pour en faire un vrai outil  d'aménagement du territoire et de dialogue social\nLimitations de vitesse et sécurité routière\nPour un nouveau contrat citoyen\nDévelopper les démarches de budget participatif dans les collectivités et associer les citoyens dans la réalisation des projets\nproportienelle\nPour plus de démocratie participative\nTransparence de la vie public\n18 mois de trop....ca suffit macron\nEgalité devant les infractions routières\nMesures d'urgence pour une démocratie régénérée\nSORTIR DU GRAND EST ! REOUR A LA REGION ALSACE\nPour plus de transparence\nEcoutez enfin le  peuple.\nVote obligatoire\nAvis d'un citoyen ordinaire et socialiste - vive le RIC\nsuppression du 80 km/h\nproportionelle et immigration\nRevoir les plafonds des aides sociales\nProposition de Refondation du Capitalisme et d'Instauration d'un Dividende Universel Financées par l'Épargne.\nSuppression du sénat\nLimitation de vitesse à 80km/h