# Предобработка текста

В этом тюториале мы научимся решать задачи токенизации, стемминга и лемматизации текста.

Будем это делать с помощью трех популярных библиотек: _NLTK_, _spaCy_ и _pymorphy_.

Ссылки на документацию:
- _NLTK_: https://www.nltk.org/
- _spaCy_: https://spacy.io/
- _pymorphy_: https://github.com/no-plagiarism/pymorphy3 (см. также https://github.com/pymorphy2/pymorphy2 -- этот проект был заброшен автором и форкнут авторами _pymorphy3_)

Не будем подробно останавливаться на отличиях _NLTK_ от _spaCy_, заметим только что в большинстве других примеров в данном курсе мы используем библиотеку _NLTK_.

## Токенизация и стемминг с использованием библиотеки NLTK

Импортируем модули которые нам понадобятся впоследствии:

In [1]:
import nltk
from nltk import tokenize
from nltk import stem

Библиотека _NLTK_ будет использовать несколько дополнительных моделей, загрузим их:

In [2]:
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /home/andrei/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /home/andrei/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

Рассмотрим маленькую коллекцию из нескольких текстовых документов:

In [3]:
texts = [
    "George Washington lives in Washington.",
    "Thomas Jefferson lives in New York.",
    "Джордж Вашингтон живет в Вашингтоне.",
    "Томас Джефферсон живет в Нью-Йорке.",
    "The U.S. are a country. The U.N. is an organization.",
    "It's obvious!",
]
texts

['George Washington lives in Washington.',
 'Thomas Jefferson lives in New York.',
 'Джордж Вашингтон живет в Вашингтоне.',
 'Томас Джефферсон живет в Нью-Йорке.',
 'The U.S. are a country. The U.N. is an organization.',
 "It's obvious!"]

Попробуем их токенизировать.

Простейший способ это сделать -- воспользоваться функцией _word_tokenize_:

In [4]:
for text in texts:
    print(tokenize.word_tokenize(text))

['George', 'Washington', 'lives', 'in', 'Washington', '.']
['Thomas', 'Jefferson', 'lives', 'in', 'New', 'York', '.']
['Джордж', 'Вашингтон', 'живет', 'в', 'Вашингтоне', '.']
['Томас', 'Джефферсон', 'живет', 'в', 'Нью-Йорке', '.']
['The', 'U.S.', 'are', 'a', 'country', '.', 'The', 'U.N.', 'is', 'an', 'organization', '.']
['It', "'s", 'obvious', '!']


Мы видим, что _word_tokenize_ позволяет делать умную токенизацию, которая, например, понимает что U.S. -- это страна, которая должна быть представлены в виде одного токена.

На практике, нам, как правило, нужна не "умная" токенизация, а, скорее наоборот, что-то простое, и над чем мы имеем максимальный контроль. Для этого хорошо подходит класс _RegexpTokenizer_.

С его помощью можно, например, просто посплитить по пробелам и пунктуации:

In [5]:
tokenizer = tokenize.RegexpTokenizer(r'\w+')
for text in texts:
    print(tokenizer.tokenize(text))

['George', 'Washington', 'lives', 'in', 'Washington']
['Thomas', 'Jefferson', 'lives', 'in', 'New', 'York']
['Джордж', 'Вашингтон', 'живет', 'в', 'Вашингтоне']
['Томас', 'Джефферсон', 'живет', 'в', 'Нью', 'Йорке']
['The', 'U', 'S', 'are', 'a', 'country', 'The', 'U', 'N', 'is', 'an', 'organization']
['It', 's', 'obvious']


Чуть более сложный паттерн, который позволяет оставить только слова длиной 2 или более символов:

In [6]:
tokenizer = tokenize.RegexpTokenizer(r'\w\w+')
for text in texts:
    print(tokenizer.tokenize(text))

['George', 'Washington', 'lives', 'in', 'Washington']
['Thomas', 'Jefferson', 'lives', 'in', 'New', 'York']
['Джордж', 'Вашингтон', 'живет', 'Вашингтоне']
['Томас', 'Джефферсон', 'живет', 'Нью', 'Йорке']
['The', 'are', 'country', 'The', 'is', 'an', 'organization']
['It', 'obvious']


Далее почти во всех примерах и заданиях курса мы будем использовать именно _RegexpTokenizer_.

Теперь рассмотрим пример стемминга с использованием модуля _stem_ библиотеки _nltk_.

Будем делать это на примере следующего списка английских и русских слов:

In [7]:
words = [
            "program", "programs", "programmer", "programming", "programmers",           # en
            "программа", "программы", "программист", "программирование", "программисты", # ru
            ]
words

['program',
 'programs',
 'programmer',
 'programming',
 'programmers',
 'программа',
 'программы',
 'программист',
 'программирование',
 'программисты']

Простейший стеммер для английского языка это т.н. стеммер Портера: https://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B5%D0%BC%D0%BC%D0%B5%D1%80_%D0%9F%D0%BE%D1%80%D1%82%D0%B5%D1%80%D0%B0

Попробуем им воспользоваться:

In [8]:
stemmer = stem.PorterStemmer()
for word in words:
    term = stemmer.stem(word)
    print(f"STEMMED (porter): '{word}' -> '{term}'")

STEMMED (porter): 'program' -> 'program'
STEMMED (porter): 'programs' -> 'program'
STEMMED (porter): 'programmer' -> 'programm'
STEMMED (porter): 'programming' -> 'program'
STEMMED (porter): 'programmers' -> 'programm'
STEMMED (porter): 'программа' -> 'программа'
STEMMED (porter): 'программы' -> 'программы'
STEMMED (porter): 'программист' -> 'программист'
STEMMED (porter): 'программирование' -> 'программирование'
STEMMED (porter): 'программисты' -> 'программисты'


Мы видим, что стеммер хорошо отработал для английского языка, но, к сожалению, совсем не справился с русским.

Для работы с не-англоязычными текстами обычно рекомендуют стеммер Snowball: https://snowballstem.org/

Он поддерживает несколько языков, в т.ч. русский:

In [9]:
stem.SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

Попробуем воспользоваться русскоязычным вариантом:

In [10]:
stemmer = stem.SnowballStemmer('russian')
for word in words:
    term = stemmer.stem(word)
    print(f"STEMMED (snowball/russian): '{word}' -> '{term}'")

STEMMED (snowball/russian): 'program' -> 'program'
STEMMED (snowball/russian): 'programs' -> 'programs'
STEMMED (snowball/russian): 'programmer' -> 'programmer'
STEMMED (snowball/russian): 'programming' -> 'programming'
STEMMED (snowball/russian): 'programmers' -> 'programmers'
STEMMED (snowball/russian): 'программа' -> 'программ'
STEMMED (snowball/russian): 'программы' -> 'программ'
STEMMED (snowball/russian): 'программист' -> 'программист'
STEMMED (snowball/russian): 'программирование' -> 'программирован'
STEMMED (snowball/russian): 'программисты' -> 'программист'


Видим, что теперь с русским языком все хорошо, но зато сломался стемминг английских слов -- чтобы его починить, придется воспользоваться создать объект _SnowballStemmer('english')_.

К сожалению, это типичная ситуация, и на практике вам как правило надо сначала каким-то образом определить язык документа, с которым вы работаете, и только потом применить к нему соответствующий стеммер или лемматизатор.

## Токенизация и лемматизация с использованием библиотеки spaCy

Библиотека _NLTK_ хорошо справляется со стеммингом но, если мы хотим пойти дальше и лемматизировать наши термины, нам придется воспользоваться библиотекой _spaCy_, т.к. в _NLTK_ нет встроенного лемматизатора для русского языка (есть только для английского).

Начнем с того что импортируем модули:

In [11]:
import spacy

И скачаем модель для русского языка:

In [12]:
model_name = "ru_core_news_md"

# Is already downloaded?
if not spacy.util.is_package(model_name):
    spacy.cli.download(model_name)
else:
    print(f"spaCy model {model_name} is already downloaded")

spaCy model ru_core_news_md is already downloaded


Загрузим эту модель:

In [13]:
nlp = spacy.load("ru_core_news_md")
print(nlp)

<spacy.lang.ru.Russian object at 0x7fb8f22d65a0>


И применим к нашим текстам:

In [15]:
# Iterate all text
for i, text in enumerate(texts):
    # Create spaCy document object
    doc = nlp(text)

    # Collect document tokens and lemmas
    tokens = []
    lemmas = []
    for token in doc:
        # Skip stop words, punctuation, etc.
        if token.is_stop or token.is_punct or token.is_space or token.is_digit:
            continue
        tokens.append(token)
        lemmas.append(token.lemma_)

    # Print doc tokens and lemmas
    print(f"doc = {i} tokens = {tokens} lemmas = {lemmas}")

doc = 0 tokens = [George, Washington, lives, in, Washington] lemmas = ['george', 'washington', 'lives', 'in', 'washington']
doc = 1 tokens = [Thomas, Jefferson, lives, in, New, York] lemmas = ['thomas', 'jefferson', 'lives', 'in', 'new', 'york']
doc = 2 tokens = [Джордж, Вашингтон, живет, Вашингтоне] lemmas = ['джордж', 'вашингтон', 'жить', 'вашингтон']
doc = 3 tokens = [Томас, Джефферсон, живет, Нью, Йорке] lemmas = ['томас', 'джефферсон', 'жить', 'нью', 'йорк']
doc = 4 tokens = [The, U.S., are, a, country, The, U.N., is, an, organization] lemmas = ['the', 'u.s.', 'are', 'a', 'country', 'the', 'u.n.', 'is', 'an', 'organization']
doc = 5 tokens = [It, 's, obvious] lemmas = ['it', "'s", 'obvious']


Мы видим, что для русского языка _spaCy_ прекрасно справилось как с токенизацией, так и с лемматизацией!

## Лемматизация с использованием библиотеки pymorphy

В тех случаях, когда нам нужно лемматизировать русскоязычный текст, но нет желания иметь в зависимостях такую большую и сложную библиотеку как _spaCy_, лучше всего подойдет библиотека _pymorphy_.

Импортируем ее:

In [16]:
import pymorphy3 as pymorphy

Обратите внимание, что мы тут используем именно _pymorphy3_ -- это новая реинкарнация библиотеки _pymorphy_, которая пришла на смену заброшенной авторами _pymorphy2_.

Будем лемматизировать набор русскоязычных слов:

In [17]:
words = [
            "программа", "программы", "программист", "программирование", "программисты", "программистами", # simple cases
            "стали", "люди", "гулял", "гранит", "стекло", "бутявковедами"                                  # more complex
            ]
words

['программа',
 'программы',
 'программист',
 'программирование',
 'программисты',
 'программистами',
 'стали',
 'люди',
 'гулял',
 'гранит',
 'стекло',
 'бутявковедами']

Создадим объект-анализатор и применим его к нашим словам:

In [18]:
morph = pymorphy.MorphAnalyzer(lang='ru')

for word in words:
    parsed = morph.parse(word)
    for i, form in enumerate(parsed):
        print(f"form #{i}: '{word}' -> '{form.normal_form}' (score: {form.score:.3f})")

form #0: 'программа' -> 'программа' (score: 1.000)
form #0: 'программы' -> 'программа' (score: 0.619)
form #1: 'программы' -> 'программа' (score: 0.233)
form #2: 'программы' -> 'программа' (score: 0.148)
form #0: 'программист' -> 'программист' (score: 1.000)
form #0: 'программирование' -> 'программирование' (score: 0.750)
form #1: 'программирование' -> 'программирование' (score: 0.250)
form #0: 'программисты' -> 'программист' (score: 1.000)
form #0: 'программистами' -> 'программист' (score: 1.000)
form #0: 'стали' -> 'стать' (score: 0.975)
form #1: 'стали' -> 'сталь' (score: 0.011)
form #2: 'стали' -> 'сталь' (score: 0.005)
form #3: 'стали' -> 'сталь' (score: 0.003)
form #4: 'стали' -> 'сталь' (score: 0.003)
form #5: 'стали' -> 'сталь' (score: 0.003)
form #0: 'люди' -> 'человек' (score: 1.000)
form #0: 'гулял' -> 'гулять' (score: 1.000)
form #0: 'гранит' -> 'гранит' (score: 0.200)
form #1: 'гранит' -> 'гранит' (score: 0.200)
form #2: 'гранит' -> 'гранита' (score: 0.200)
form #3: 'грани

Обратим внимание, что для каждого слова _pymorphy_ выдает несколько гипотез, упорядоченных по некоторому скору, который оценивает насколько вероятна та или иная гипотеза.

Также, видно что _pymorphy_ прекрасно справляется со сложными случаями, такими как ЛЮДИ, СТАЛЬ, СТЕКЛО, ГРАНИТ и т.п.