# Токенизация

Как разделить текст на предложения?

In [1]:
text = "Mr. Smith bought ticket to San Francisco. He was very happy."
text.split('.')

['Mr', ' Smith bought ticket to San Francisco', ' He was very happy', '']

In [None]:
#!pip install nltk

In [None]:
#nltk.download('punkt')

In [2]:
import nltk

In [3]:
nltk.sent_tokenize(text)

['Mr. Smith bought ticket to San Francisco.', 'He was very happy.']

## По пробелам

In [4]:
en_sentence = nltk.sent_tokenize(text)[0]
en_sentence.split()

['Mr.', 'Smith', 'bought', 'ticket', 'to', 'San', 'Francisco.']

In [5]:
ru_sentence = "Мистер Смит купил билет до Сан-Франциско."
ru_sentence.split()

['Мистер', 'Смит', 'купил', 'билет', 'до', 'Сан-Франциско.']

## NLTK

In [6]:
nltk.word_tokenize(en_sentence)

['Mr.', 'Smith', 'bought', 'ticket', 'to', 'San', 'Francisco', '.']

In [7]:
nltk.word_tokenize(ru_sentence)

['Мистер', 'Смит', 'купил', 'билет', 'до', 'Сан-Франциско', '.']

## pymorphy2

In [9]:
import pymorphy2
m = pymorphy2.MorphAnalyzer()
for t in nltk.word_tokenize(ru_sentence):
    print(m.parse(t)[0].normal_form)

мистер
смит
купить
билет
до
сан-франциско
.


In [10]:
for t, p in nltk.pos_tag(nltk.word_tokenize(en_sentence)):
    print(t, p)

Mr. NNP
Smith NNP
bought VBD
ticket NN
to TO
San NNP
Francisco NNP
. .


## Вопрос на подумать
А что делать с языками без пробелов?

...

# BPE / Subword segmentation

subword-nmt
sentence-piece

In [None]:
#!pip3 install subword-nmt

Посмотрим по шагам на обучение BPE-токенизации:

увеличивая количество операций (`-s`), получаем новые токены в _словаре_.

In [14]:
!subword-nmt learn-bpe -s 5 < train.txt > bpe_result.txt

  0%|                                                     | 0/5 [00:00<?, ?it/s]100%|###########################################| 5/5 [00:00<00:00, 7397.36it/s]


In [12]:
!echo "newer lower" | subword-nmt apply-bpe -c bpe_result.txt

n@@ e@@ w@@ er l@@ o@@ w@@ er


# Toy language model
Научимся быстро считать частоты токенов/n-грамм в корпусе:

In [15]:
from collections import Counter

In [16]:
corpus = """
Лингви́стика (от лат. lingua «язык»), языкозна́ние, языкове́дение — наука, изучающая языки.
Это наука о естественном человеческом языке вообще и обо всех языках мира как его индивидуализированных представителях.
В широком смысле слова лингвистика подразделяется на научную и практическую. Чаще всего под лингвистикой подразумевается именно научная лингвистика. Является частью семиотики как науки о знаках.
"""

In [17]:
tokenized_corpus = nltk.word_tokenize(corpus)

Как получить биграммы и триграммы

In [18]:
# Приводим к списку, потому что nltk возвращает генератор
list(nltk.bigrams(tokenized_corpus))

[('Лингви́стика', '('),
 ('(', 'от'),
 ('от', 'лат'),
 ('лат', '.'),
 ('.', 'lingua'),
 ('lingua', '«'),
 ('«', 'язык'),
 ('язык', '»'),
 ('»', ')'),
 (')', ','),
 (',', 'языкозна́ние'),
 ('языкозна́ние', ','),
 (',', 'языкове́дение'),
 ('языкове́дение', '—'),
 ('—', 'наука'),
 ('наука', ','),
 (',', 'изучающая'),
 ('изучающая', 'языки'),
 ('языки', '.'),
 ('.', 'Это'),
 ('Это', 'наука'),
 ('наука', 'о'),
 ('о', 'естественном'),
 ('естественном', 'человеческом'),
 ('человеческом', 'языке'),
 ('языке', 'вообще'),
 ('вообще', 'и'),
 ('и', 'обо'),
 ('обо', 'всех'),
 ('всех', 'языках'),
 ('языках', 'мира'),
 ('мира', 'как'),
 ('как', 'его'),
 ('его', 'индивидуализированных'),
 ('индивидуализированных', 'представителях'),
 ('представителях', '.'),
 ('.', 'В'),
 ('В', 'широком'),
 ('широком', 'смысле'),
 ('смысле', 'слова'),
 ('слова', 'лингвистика'),
 ('лингвистика', 'подразделяется'),
 ('подразделяется', 'на'),
 ('на', 'научную'),
 ('научную', 'и'),
 ('и', 'практическую'),
 ('практическую'

In [19]:
list(nltk.trigrams(tokenized_corpus))

[('Лингви́стика', '(', 'от'),
 ('(', 'от', 'лат'),
 ('от', 'лат', '.'),
 ('лат', '.', 'lingua'),
 ('.', 'lingua', '«'),
 ('lingua', '«', 'язык'),
 ('«', 'язык', '»'),
 ('язык', '»', ')'),
 ('»', ')', ','),
 (')', ',', 'языкозна́ние'),
 (',', 'языкозна́ние', ','),
 ('языкозна́ние', ',', 'языкове́дение'),
 (',', 'языкове́дение', '—'),
 ('языкове́дение', '—', 'наука'),
 ('—', 'наука', ','),
 ('наука', ',', 'изучающая'),
 (',', 'изучающая', 'языки'),
 ('изучающая', 'языки', '.'),
 ('языки', '.', 'Это'),
 ('.', 'Это', 'наука'),
 ('Это', 'наука', 'о'),
 ('наука', 'о', 'естественном'),
 ('о', 'естественном', 'человеческом'),
 ('естественном', 'человеческом', 'языке'),
 ('человеческом', 'языке', 'вообще'),
 ('языке', 'вообще', 'и'),
 ('вообще', 'и', 'обо'),
 ('и', 'обо', 'всех'),
 ('обо', 'всех', 'языках'),
 ('всех', 'языках', 'мира'),
 ('языках', 'мира', 'как'),
 ('мира', 'как', 'его'),
 ('как', 'его', 'индивидуализированных'),
 ('его', 'индивидуализированных', 'представителях'),
 ('индивидуа

Посчитать количество каждого элемента в списке - Counter

In [20]:
unigrams = Counter(tokenized_corpus)

In [21]:
unigrams

Counter({'Лингви́стика': 1,
         '(': 1,
         'от': 1,
         'лат': 1,
         '.': 6,
         'lingua': 1,
         '«': 1,
         'язык': 1,
         '»': 1,
         ')': 1,
         ',': 3,
         'языкозна́ние': 1,
         'языкове́дение': 1,
         '—': 1,
         'наука': 2,
         'изучающая': 1,
         'языки': 1,
         'Это': 1,
         'о': 2,
         'естественном': 1,
         'человеческом': 1,
         'языке': 1,
         'вообще': 1,
         'и': 2,
         'обо': 1,
         'всех': 1,
         'языках': 1,
         'мира': 1,
         'как': 2,
         'его': 1,
         'индивидуализированных': 1,
         'представителях': 1,
         'В': 1,
         'широком': 1,
         'смысле': 1,
         'слова': 1,
         'лингвистика': 2,
         'подразделяется': 1,
         'на': 1,
         'научную': 1,
         'практическую': 1,
         'Чаще': 1,
         'всего': 1,
         'под': 1,
         'лингвистикой': 1,
         'подра

Выведем топ по частоте

In [22]:
unigrams.most_common(10)

[('.', 6),
 (',', 3),
 ('наука', 2),
 ('о', 2),
 ('и', 2),
 ('как', 2),
 ('лингвистика', 2),
 ('Лингви́стика', 1),
 ('(', 1),
 ('от', 1)]

## Нормализуем частоты
Чтобы получить вероятности униграмм

In [23]:
n = len(tokenized_corpus)
for k in unigrams:
    unigrams[k] /= n

In [24]:
unigrams.most_common(10)

[('.', 0.09230769230769231),
 (',', 0.046153846153846156),
 ('наука', 0.03076923076923077),
 ('о', 0.03076923076923077),
 ('и', 0.03076923076923077),
 ('как', 0.03076923076923077),
 ('лингвистика', 0.03076923076923077),
 ('Лингви́стика', 0.015384615384615385),
 ('(', 0.015384615384615385),
 ('от', 0.015384615384615385)]

Оценим вероятность тестового предложения:

In [25]:
test_sentence = nltk.word_tokenize("Лингвистика - это наука о языке.")

In [26]:
p = 1.
for token in test_sentence:
    p *= unigrams[token]
print(p)

0.0


!! Почему тут 0?

Применим простейшее сглаживание:

In [27]:
p = 1.
for token in test_sentence:
    if unigrams[token]:
        p *= unigrams[token]
    else:
        p *= 1 / n  # заменяем частоту=0 на 1
print(p)

4.895733233026051e-12


Приведем вероятность к более удобочитаемому виду:

In [None]:
from math import log
log(p)