In [1]:
import re
import nltk
import pymorphy2
from functools import lru_cache

In [2]:
#nltk.download('punkt')

С приходом python 3 стало гораздо проще работать со строками, т.к. кодировка по умолчанию стала 'UTF-8'

В python 2, при работе с неанглийскими строками, надо явно указывать кодировку

In [3]:
s = 'Он вернулся домой в Торбу-на-Круче 22 июня, на пятьдесят втором году жизни (в 1342 году по летоисчислению Удела).'

# Built-in функции

Некоторые полезные встроенные функции при работе со строками

In [4]:
word = 'пример'
print(word)
print('lower: %s' % word.lower())
print('upper: %s' % word.upper())
print('capitalize: %s' % word.capitalize())

пример
lower: пример
upper: ПРИМЕР
capitalize: Пример


In [5]:
sentence = '\tПредложение из нескольких слов.  '
print(sentence)
print('strip: %s' % sentence.strip())
sentence = sentence.strip()
print('split: %s' % sentence.split(' '))

	Предложение из нескольких слов.  
strip: Предложение из нескольких слов.
split: ['Предложение', 'из', 'нескольких', 'слов.']


# Регулярные выражения

Как правило, нас не интересуют небуквенные символы (цифры, скобки и т.п)

Самый простой и быстрый способ избавиться от ненужных символов - использование регулярных выражений.

In [6]:
print(re.sub('[^\w\s]', '', s))
# \w matches Unicode word characters; this includes most characters that can be part of a word in any language,
# as well as numbers and the underscore

print(re.sub('[^а-яёА-ЯЁ\s]', '', s))

Он вернулся домой в ТорбунаКруче 22 июня на пятьдесят втором году жизни в 1342 году по летоисчислению Удела
Он вернулся домой в ТорбунаКруче  июня на пятьдесят втором году жизни в  году по летоисчислению Удела


# Нормализация слов

Два метода приведения слова к нормальной форме:
- лемматизация ("начальная" форма)
- стеммирование (отбрасывание окончаний слов)

In [7]:
ru_lemmatizer = pymorphy2.MorphAnalyzer()
ru_stemmer = nltk.stem.SnowballStemmer('russian')

In [8]:
print('Лемматизация: %s' % ru_lemmatizer.parse('летоисчислению')[0].normal_form)
print('Стеммирование: %s' % ru_stemmer.stem('летоисчислению'))

Лемматизация: летоисчисление
Стеммирование: летоисчислен


In [9]:
ru_lemmatizer.parse('стали')

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

Pymorphy2 не использует контекста при нормализации (лемматизации слова), отсюда - несколько нормальных форм

Score - условная вероятность $p(tag|word)$, собранная по корпусу OpenCorpora.

In [10]:
# самый "правдоподобный разбор"
print(ru_lemmatizer.parse('стали')[0].normal_form)

стать


# Токенизация

Часто, текст надо разделить на отдельные части (токены) - предложения или слова.

Так сложилось, что чаще всего под токенами понимают именно слова.

In [11]:
with open('./data/ru_example.txt', 'r') as f:
    ru_text = f.read()

In [14]:
example_paragraph = ru_text[11062:11643]
print(example_paragraph)

Хоббиты - маленький народ, они меньше гномов: во всяком случае менее крепкие и приземистые, хотя ненамного меньше ростом. Их рост разнится от двух до четырех футов по нашим меркам. Теперь они редко достигают трех футов: но они утверждают, что становятся ниже и что в прошлые времена они были выше. В соответствии с "Алой книгой", Бандобрас Крол (по прозвищу Бычий Рык), сын Изенгрима Второго, был ростом в четыре фута пять дюймов, и мог ездить верхом на лошади. По преданием хоббитов его превосходят только два известных в древности хоббита, но об этом будет идти речь в этой книге


Проще всего пользоваться инструментами токенизации NLTK:
- RegexpTokenizer
- BlanklineTokenizer
- и куча других

In [15]:
# стандартный sent_tokenize разделяет предложения по знакам препинания (согласно правилам языка)
nltk.sent_tokenize(example_paragraph, language='russian')

['Хоббиты - маленький народ, они меньше гномов: во всяком случае менее крепкие и приземистые, хотя ненамного меньше ростом.',
 'Их рост разнится от двух до четырех футов по нашим меркам.',
 'Теперь они редко достигают трех футов: но они утверждают, что становятся ниже и что в прошлые времена они были выше.',
 'В соответствии с "Алой книгой", Бандобрас Крол (по прозвищу Бычий Рык), сын Изенгрима Второго, был ростом в четыре фута пять дюймов, и мог ездить верхом на лошади.',
 'По преданием хоббитов его превосходят только два известных в древности хоббита, но об этом будет идти речь в этой книге']

In [16]:
print(nltk.word_tokenize(example_paragraph, language='russian'))

['Хоббиты', '-', 'маленький', 'народ', ',', 'они', 'меньше', 'гномов', ':', 'во', 'всяком', 'случае', 'менее', 'крепкие', 'и', 'приземистые', ',', 'хотя', 'ненамного', 'меньше', 'ростом', '.', 'Их', 'рост', 'разнится', 'от', 'двух', 'до', 'четырех', 'футов', 'по', 'нашим', 'меркам', '.', 'Теперь', 'они', 'редко', 'достигают', 'трех', 'футов', ':', 'но', 'они', 'утверждают', ',', 'что', 'становятся', 'ниже', 'и', 'что', 'в', 'прошлые', 'времена', 'они', 'были', 'выше', '.', 'В', 'соответствии', 'с', '``', 'Алой', 'книгой', "''", ',', 'Бандобрас', 'Крол', '(', 'по', 'прозвищу', 'Бычий', 'Рык', ')', ',', 'сын', 'Изенгрима', 'Второго', ',', 'был', 'ростом', 'в', 'четыре', 'фута', 'пять', 'дюймов', ',', 'и', 'мог', 'ездить', 'верхом', 'на', 'лошади', '.', 'По', 'преданием', 'хоббитов', 'его', 'превосходят', 'только', 'два', 'известных', 'в', 'древности', 'хоббита', ',', 'но', 'об', 'этом', 'будет', 'идти', 'речь', 'в', 'этой', 'книге']


### Один из возможных пайплайнов обработки текста

In [17]:
def preprocess_sentence(sent):
    sent = sent.lower()
    sent = re.sub('[^а-яёa-z\s]', '', sent)
    sent_words = nltk.word_tokenize(sent)
    lemma_words = [ru_lemmatizer.parse(word)[0].normal_form for word in sent_words]
    processed_sent = ' '.join(lemma_words)
    return processed_sent

In [18]:
example_text = ru_text[:100000]

In [19]:
sentences = nltk.sent_tokenize(example_text)[500: 505]
processed_sents = [preprocess_sentence(sent) for sent in sentences]

for proc_sent, src_sent in zip(processed_sents, sentences):
    print(src_sent)
    print(proc_sent)
    print()

Со времени прибытия Гэндальфа он никому не показывался на глаза.
с время прибытие гэндальф он никто не показываться на глаз

Однажды утром хоббиты обнаружили, что большое поле к югу от входной двери Бильбо покрыто мотками веревки и столбами навесов и павильонов.
однажды утром хоббит обнаружить что большой пол к юг от входной дверь бильбо покрыть мотка верёвка и столб навес и павильон

В насыпи, выходящей на дорогу, был проделан особый проход, вырублены широкие ступени и построены большие белые ворота.
в насыпь выходить на дорога быть проделать особый проход вырубить широкий ступень и построить большой белые ворот

Три семейства хоббитов на Бэгшот-Роу, жившие по соседству с домом были особенно заинтересованы и чрезвычайно завидовали.
три семейство хоббит на бэгшотроу жить по соседство с дом быть особенно заинтересовать и чрезвычайно завидовать

Почтенный старик Скромби перестал даже делать вид, что работает в своем огороде.
почтенный старик скромбить перестать даже делать вид что работа

### Сравним скорости работы стеммирования и лемматизации, а также лемматизации с кешированием

In [20]:
@lru_cache(maxsize=int(10e5))

def lru_lemmatize(word):
    return ru_lemmatizer.parse(word)[0].normal_form

In [21]:
text_part = ru_text[:100000]
text_part = text_part.lower()
text_part = re.sub('[^а-яёa-z\s]', '', text_part)
words = nltk.word_tokenize(text_part)

In [22]:
%%time
stem_words = [ru_stemmer.stem(word) for word in words]

CPU times: user 813 ms, sys: 0 ns, total: 813 ms
Wall time: 813 ms


In [23]:
%%time
lemm_words = [ru_lemmatizer.parse(word)[0].normal_form for word in words]

CPU times: user 366 ms, sys: 0 ns, total: 366 ms
Wall time: 366 ms


In [24]:
%%time
cache_lemm_words = [lru_lemmatize(word) for word in words]

CPU times: user 122 ms, sys: 0 ns, total: 122 ms
Wall time: 121 ms


# Векторизация

Две "количественные" модели векторизации текста:
- bag of words (мешок слов)
- tf-idf

Пусть есть корпус текстов:
$$ D=\{d_1, \dots, d_{|D|}\}, $$
где каждый текст есть набор токенов (слов):
$$ d_i = (w_1, \dots, w_{n_i}), \quad n_i - \text{кол-во слов в тексте } d_i$$

$tf(w, d)$ - term frequency, то, как часто слово $w$ встречалось в документе $d$.

$idf(w)$ - inverted document frequency, то, насколько часто слово встречалось во всем корпусе документов

Есть разные реализации, например:
$$tf(w, d) = \sum\limits_{w'\in d} \mathbb{I}[w=w'] = n_{wd}$$
$$tf(w, d) = \mathbb{I}[w \in d]$$
$$tf(w, d) = \frac{n_{wd}}{n_d}$$

Для idf в sklearn используется:
$$idf(w) = \log \left( \frac{N}{\sum_{i=1}^N \mathbb{I}[w \in d_i]}\right) + 1$$

In [25]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [26]:
corpus = ['он вернулся домой', 'Бильбо вернулся домой Бильбо', 'Бильбо оказался дома']

In [27]:
corpus_vocab = nltk.word_tokenize(' '.join(corpus))
corpus_vocab = set(corpus_vocab)
print(corpus_vocab)

{'он', 'Бильбо', 'дома', 'домой', 'вернулся', 'оказался'}


In [28]:
count_vec = CountVectorizer()
print(count_vec.fit_transform(corpus).toarray())

[[0 1 0 1 0 1]
 [2 1 0 1 0 0]
 [1 0 1 0 1 0]]


In [29]:
tf_idf_vec = TfidfVectorizer()
print(tf_idf_vec.fit_transform(corpus).toarray())

[[0.         0.51785612 0.         0.51785612 0.         0.68091856]
 [0.81649658 0.40824829 0.         0.40824829 0.         0.        ]
 [0.4736296  0.         0.62276601 0.         0.62276601 0.        ]]
