# Токенизация

Как разделить текст на предложения?

In [None]:
text = "Mr. Smith bought ticket to San Francisco. He was very happy."
text.split('.')

In [None]:
#!pip install nltk

In [None]:
#nltk.download('punkt')

In [None]:
import nltk

In [None]:
nltk.sent_tokenize(text)

## По пробелам

In [None]:
en_sentence = nltk.sent_tokenize(text)[0]
en_sentence.split()

In [None]:
ru_sentence = "Мистер Смит купил билет до Сан-Франциско."
ru_sentence.split()

## NLTK

In [None]:
nltk.word_tokenize(en_sentence)

In [None]:
nltk.word_tokenize(ru_sentence)

## pymorphy2

In [None]:
import pymorphy2
m = pymorphy2.MorphAnalyzer()
for t in nltk.word_tokenize(ru_sentence):
    print(m.parse(t)[0])

In [None]:
for t, p in nltk.pos_tag(nltk.word_tokenize(en_sentence)):
    print(t, p)

## Вопрос на подумать
А что делать с языками без пробелов?

...

# BPE / Subword segmentation

In [None]:
!pip3 install subword-nmt

Посмотрим по шагам на обучение BPE-токенизации:

увеличивая количество операций (`-s`), получаем новые токены в _словаре_.

In [None]:
!subword-nmt learn-bpe -s 1 < train.txt > bpe_result.txt

In [None]:
!echo "newer lower" | subword-nmt apply-bpe -c bpe_result.txt

# Toy language model
Научимся быстро считать частоты токенов/n-грамм в корпусе:

In [None]:
from collections import Counter

In [None]:
corpus = """
Лингви́стика (от лат. lingua «язык»), языкозна́ние, языкове́дение — наука, изучающая языки.
Это наука о естественном человеческом языке вообще и обо всех языках мира как его индивидуализированных представителях.
В широком смысле слова лингвистика подразделяется на научную и практическую. Чаще всего под лингвистикой подразумевается именно научная лингвистика. Является частью семиотики как науки о знаках.
"""

In [None]:
tokenized_corpus = nltk.word_tokenize(corpus)

Как получить биграммы и триграммы

In [None]:
# Приводим к списку, потому что nltk возвращает генератор
list(nltk.bigrams(tokenized_corpus))

In [None]:
list(nltk.trigrams(tokenized_corpus))

Посчитать количество каждого элемента в списке - Counter

In [None]:
unigrams = Counter(tokenized_corpus)

In [None]:
unigrams

Выведем топ по частоте

In [None]:
unigrams.most_common(10)

## Нормализуем частоты
Чтобы получить вероятности униграмм

In [None]:
n = len(tokenized_corpus)
for k in unigrams:
    unigrams[k] /= n

In [None]:
unigrams.most_common(10)

Оценим вероятность тестового предложения:

In [None]:
test_sentence = nltk.word_tokenize("Лингвистика - это наука о языке.")

In [None]:
p = 1.
for token in test_sentence:
    p *= unigrams[token]
print(p)

!! Почему тут 0?

Применим простейшее сглаживание:

In [None]:
p = 1.
for token in test_sentence:
    if unigrams[token]:
        p *= unigrams[token]
    else:
        p *= 1 / n
print(p)

Приведем вероятность к более удобочитаемому виду:

In [None]:
from math import log
log(p)