# Tokenizers exploration

## Description:
Basic **pipeline** for tokenization: initialization & application. Also includes **execution time** labels.

## Contents:
* imports & dataset initialization
* `nltk.tokenize.TreebankWordTokenizer` example
* `razdel` example
* `rutokenizer` example

In [43]:
%cd ../..
from nltk.tokenize import TreebankWordTokenizer
import razdel
import rutokenizer

from datasets.getters import load_reviews_Review_Label

data = load_reviews_Review_Label()
data

C:\Users\Yaroslav Pristalov\Documents\Programming\nlp-coursework


Unnamed: 0,review,label
0,«Зеленую милю» я смотрела два раза: 10 лет наз...,NEUTRAL
1,Период конца девяностых годов-начало двухтысяч...,POSITIVE
2,"Очень сложно писать рецензию на этот фильм, та...",POSITIVE
3,Любимая многими миллионами ценителями киноиску...,POSITIVE
4,В нашем мире существует много разных фильмов. ...,POSITIVE
...,...,...
90641,"Конечно, этот фильм - не лучший представитель ...",POSITIVE
90642,Фильм «Ламборгини: Человек-легенда» снят в 202...,NEGATIVE
90643,"Эй, рагацци, вы это серьёзно, ТАК показывать и...",NEGATIVE
90644,"Вообще, говоря о байопиках, стоит отметить, чт...",NEGATIVE


#### Tokenization time test (`razdel.tokenize()`)

In [3]:
%%time

data.review.apply(lambda review: [token.text for token in list(razdel.tokenize(review))])

Wall time: 4min 38s


0        [«, Зеленую, милю, », я, смотрела, два, раза, ...
1        [Период, конца, девяностых, годов-начало, двух...
2        [Очень, сложно, писать, рецензию, на, этот, фи...
3        [Любимая, многими, миллионами, ценителями, кин...
4        [В, нашем, мире, существует, много, разных, фи...
                               ...                        
90641    [Конечно, ,, этот, фильм, -, не, лучший, предс...
90642    [Фильм, «, Ламборгини, :, Человек-легенда, », ...
90643    [Эй, ,, рагацци, ,, вы, это, серьёзно, ,, ТАК,...
90644    [Вообще, ,, говоря, о, байопиках, ,, стоит, от...
90645    [Визуальное, качество, ,, впрочем, ,, также, н...
Name: review, Length: 90646, dtype: object

#### Tokenization time test (`TreebankWordTokenizer()`)

In [4]:
%%time

data.review.apply(TreebankWordTokenizer().tokenize)

Wall time: 1min 26s


0        [«Зеленую, милю», я, смотрела, два, раза, :, 1...
1        [Период, конца, девяностых, годов-начало, двух...
2        [Очень, сложно, писать, рецензию, на, этот, фи...
3        [Любимая, многими, миллионами, ценителями, кин...
4        [В, нашем, мире, существует, много, разных, фи...
                               ...                        
90641    [Конечно, ,, этот, фильм, -, не, лучший, предс...
90642    [Фильм, «Ламборгини, :, Человек-легенда», снят...
90643    [Эй, ,, рагацци, ,, вы, это, серьёзно, ,, ТАК,...
90644    [Вообще, ,, говоря, о, байопиках, ,, стоит, от...
90645    [Визуальное, качество, ,, впрочем, ,, также, н...
Name: review, Length: 90646, dtype: object

#### Tokenization time test (`rutokenizer`)

In [7]:
%%time

data.review.apply(t.tokenize)

Wall time: 51.4 s


0        [«, Зеленую, милю, », я, смотрела, два, раза, ...
1        [Период, конца, девяностых, годов, -, начало, ...
2        [Очень, сложно, писать, рецензию, на, этот, фи...
3        [Любимая, многими, миллионами, ценителями, кин...
4        [В, нашем, мире, существует, много, разных, фи...
                               ...                        
90641    [Конечно, ,, этот, фильм, -, не, лучший, предс...
90642    [Фильм, «, Ламборгини, :, Человек, -, легенда,...
90643    [Эй, ,, рагацци, ,, вы, это, серьёзно, ,, ТАК,...
90644    [Вообще, ,, говоря, о, байопиках, ,, стоит, от...
90645    [Визуальное, качество, ,, впрочем, ,, также, н...
Name: review, Length: 90646, dtype: object

#### Tokenization time test (`spacy_russian_tokenizer`): [source](https://github.com/aatimofeev/spacy_russian_tokenizer)
*Unsuccessful attempt*

In [37]:
# No_rules

from spacy.tokenizer import Tokenizer
from spacy.lang.en import English
py_nlp = English ()
py_tokenizer = Tokenizer (py_nlp.vocab)
py_tokens = py_tokenizer ("Python spacy tokenizer isn't N.A.")
print ("Blank tokenizer", end=" : ")
for py_tokens in py_tokens:
    print (py_tokens, end=', ')

Blank tokenizer : Python, spacy, tokenizer, isn't, N.A., 

In [41]:
from spacy.lang.ru import Russian
from spacy_russian_tokenizer import RussianTokenizer, MERGE_PATTERNS
text = "Не ветер, а какой-то ураган!"
nlp = Russian()
doc = nlp(text)
russian_tokenizer = RussianTokenizer(nlp, MERGE_PATTERNS)
nlp.add_pipe(russian_tokenizer, name='russian_tokenizer')
doc = nlp(text)
print([token.text for token in doc])
# ['Не', 'ветер', ',', 'а', 'какой-то', 'ураган', '!']
# Notice that word "какой-то" remains a single token. 

error: bad escape \p at position 28632

#### The difference between `razdel` and `TreebankWordTokenizer`

In [44]:
[token.text for token in list(razdel.tokenize('Я уважаю музыку П.И. Чайковского. А Баха тоже уважаю.'))]

['Я',
 'уважаю',
 'музыку',
 'П',
 '.',
 'И',
 '.',
 'Чайковского',
 '.',
 'А',
 'Баха',
 'тоже',
 'уважаю',
 '.']

In [45]:
TreebankWordTokenizer().tokenize('Я уважаю музыку П.И. Чайковского. А Баха тоже уважаю.')

['Я',
 'уважаю',
 'музыку',
 'П.И.',
 'Чайковского.',
 'А',
 'Баха',
 'тоже',
 'уважаю',
 '.']