# Разбиение текста на токены
Токенизация – процесс разбиения текста на текстовые единицы, например, слова или предложения. В случае разбиений на предложения задача кажется тривиальной, нужно просто найти точку, вопросительный или восклицательный знак. Но в русском языке существует сокращения, в которых есть точка, например, к.т.н. — кандидат технических наук или т.е. — то есть. Поэтому такой путь может привести к ошибкам. К счастью, Python-библиотека NLTK позволяет избежать этой проблемы. Рассмотрим пример:

In [1]:
from nltk.tokenize import sent_tokenize
text = "Я - к.т.н, т.е. проучился долгое время. Имею образование."
sent_tokenize(text, language="russian")

['Я - к.т.н, т.е. проучился долгое время.', 'Имею образование.']

Как видим, функция sent_tokenize разбила исходное предложения на два, несмотря на присутствие слов к.т.н. и т.е.

Помимо разбиения на предложения в NLTK можно в качестве токенов использовать слова:

In [2]:
from nltk.tokenize import sent_tokenize, word_tokenize
text = "Я - к.т.н. Сижу на диван-кровати."
word_tokenize(text, language="russian")

['Я', '-', 'к.т.н.', 'Сижу', 'на', 'диван-кровати', '.']

Здесь к.т.н. и диван-кровать были определены как отдельные слова.

# Очистка текста от стоп-слов
Иногда одних слов в тексте больше, чем других, к тому же они встречаются почти в каждом предложении и не несут большой информативной нагрузки. Такие слова являются шумом для последующего глубокого обучения (Deep Learning) и называются стоп-словами. Библиотека NLTK также имеет список стоп-слов, который предварительно необходимо скачать. Это можно сделать следующим образом:

In [3]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [4]:
pip install pymorphy3 nltk -q

Note: you may need to restart the kernel to use updated packages.


После этого доступен список стоп-слов для русского языка:

In [5]:
from nltk.corpus import stopwords
stopwords.words("russian")

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

Всего их насчитывается в этом списке 151. Вот некоторые из них:
*и, в, во, не, что, он, на, я, с, со, как, а, то, все, чтоб, без, будто, впрочем, хорошо, свою, этой, перед, иногда, лучше, чуть, том, нельзя, такой, им, более, всегда, конечно, всю, между*

Поскольку это список, то к нему можно добавить дополнительные слова или, наоборот, удалить из него те, которые будут информативными для вашего случая. Для последующего исключения слов из токенизированного текста можно написать следующее:

for token in tokens:
    if token not in stop_words:
        filtered_tokens.append(token)

# Стемминг: удаляем окончания
Русский язык обладает богатой морфологической структурой. Слово хороший и хорошая имеют тот же смысл, но разную форму, например, хорошая мебель и хороший стул. Поэтому для машинного обучения (Machine Learning) лучше привести их к одной форме для уменьшения размерности. Одним из таких методов является стемминг (stemming). В частности, он опускает окончания слова. В Python-библиотеке NLTK для этого есть Snowball Stemmer, который поддерживает русский язык:

In [6]:
from nltk.stem import SnowballStemmer
...
snowball = SnowballStemmer(language="russian")
snowball.stem("Хороший")

'хорош'

In [7]:
snowball.stem("Хорошая")

'хорош'

Проблемы могут возникнуть со словами, которые значительно изменяются в зависимости от формы слова:

In [8]:
snowball.stem("Хочу")

'хоч'

In [9]:
snowball.stem("Хотеть")

'хотет'

Хотеть и хочу — грамматические формы одного и то же слова, но стемминг обрубает окончания согласно своему алгоритму. Поэтому возможно следует применить другой метод — лемматизацию.

# Приведение к начальной форме с лемматизацией
Над словом можно провести морфологический анализ и выявить его начальную форму. Например, хочу, хотят, хотели имеют начальную форму хотеть. Тогда можем воспользоваться pymorphy2 — инструмент для морфологического анализа русского и украинского языков.

Рассмотрим пример для слова “хочу”:

In [12]:
import pymorphy3
morph = pymorphy3.MorphAnalyzer()
morph.parse("хочу")

[Parse(word='хочу', tag=OpencorporaTag('VERB,impf,tran sing,1per,pres,indc'), normal_form='хотеть', score=1.0, methods_stack=((DictionaryAnalyzer(), 'хочу', 3136, 1),))]

Метод parse возвращает список объектов Parse, которые обозначают виды грамматических форм анализируемого слова. Такой объект обладает следующими атрибутами:

- tag обозначает набор граммем. В данном случае слово хочу — это глагол (VERB) несовершенного вида (impf), переходный (tran), единственного числа (sing), 1 лица (1per), настоящего времени (pres), изъявительного наклонения (indc);
- normal_form— нормального форма слова;
- score — оценка вероятности того, что данный разбор правильный;
- methods_stack — тип словаря распарсенного слова с его индексом.
Нас больше всего интересует нормальная форма слова. По умолчанию объекты Parse сортированы в порядке убывания значения score. Поэтому из списка лучше всего брать 1-й элемент:


In [None]:
morph.parse("хотеть")[0].normal_form

In [None]:
morph.parse("хочу")[0].normal_form

In [None]:
morph.parse("хотят")[0].normal_form

Таким образом, мы получили одно слово из разных его форм.

# Домашнее задание
- Разберитесь с приведенными примерами, поэкспериментируйте, меняя текст в примерах
- Разработайте программу, которая выполнит для русского текста в файле .txt подготовку текста - его лемматизацию и очистку от стоп-слов.

In [25]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import pymorphy3
import re

def process_text(text):
    """Обработка текста"""
    words = word_tokenize(text.lower(), language="russian")
    stop_words = set(stopwords.words("russian"))
    
    filtered = []
    for word in words:
        if not re.match(r'^[^\w\s-]+$', word):
            if word not in stop_words and len(word) > 2:
                filtered.append(word)
    snowball = SnowballStemmer(language="russian")
    morph = pymorphy3.MorphAnalyzer()
    lemmas = []
    
    for word in filtered:
        try:
            lemma = morph.parse(word)[0].normal_form
            lemma = snowball.stem(lemma)
            lemmas.append(lemma)
        except: 
            lemmas.append(word)
    
    return ' '.join(lemmas)

def process_file(input_file, output_file=None):
    """Обработка файла"""
    with open(input_file, 'r', encoding='utf-8') as f:
        text = f.read()
    
    result = process_text(text)
    
    if output_file:
        with open(output_file, 'w', encoding='utf-8') as f:
            f.write(result)
        print(f"Сохранено в {output_file}")
    
    return result

if __name__ == "__main__":
    import sys
    if len(sys.argv) > 1:
        result = process_file('Data/властелин_колец.txt', 'Data/властелин_колец2.txt' if len(sys.argv) > 2 else None)
        print(result)
    else:
        print("Использование: python text_processor.py входной_файл [выходной_файл]")

Сохранено в Data/властелин_колец2.txt
мистер бильб бэггинс бэг-энд объяв вскор празднова сво сто одиннадцат ден рожден вечеринк особ пышност хоббитон подня разговор волнен бильб очен богат очен своеобразн шестьдес год диковинк шир тот сам пор таинствен исчезнут неожида вернут богатств котор привезт сво странств стат местн легенд народ вер холм бэг-энд полн тоннел набит сокровищ говор старик недостаточн слав ещ неувяда бодрост вызыва удивлен врем идт мистер бэггинс он каза отража девян год так пятьдес исполн девян девя стат называ сохран неизмен близк истин некотор кача голов счита эт слишк каза несправедлив кто-т облада каза вечн юност вмест слух неисчерпа богатств эт прийт заплат говор эт ненормальн быт неприятн пок неприятн поскольк мистер бэггинс щедр трат сво деньг большинств охотн проща странност удач поддержива отношен родственник исключен сэквилль-бэггинс преда почитател сред хобб бедн незнатн сем близк друг пок некотор младш куз подраст старш любимец бильб юн фрод бэггинс бильб