#Предварительная обработка текстовых данных

Первым этапом решения любой задачи машинного обучения является предварительная обработка данных. Основной целью предварительной обработки данных в NLP является максимальное уменьшение размера используемого словаря.


Задачами предварительной обработки данных в NLP являются:
- приведение текстового документа к виду, удобному для применения алгоритмов векторизации
- удаление символов, которые не позволяют получить представление о содержании документа (html-теги и другие специальные символы)
- удаление часто употребляемых в языке слов, которые не характеризуют отдельные документы (союзы, предлоги, междометия и т. д.)

Как правило, предварительная обработка текстовых данных включает в себя:
- удаление специальных символов
- токенизацию
- нормализацию
- удаление стоп-слов

## Удаление специальных символов

Данные для решения задач NLP добываются из самых разных источников и зачастую помимо видимых нам букв, цифр и знаков препинания они содержат различные специальные символы. Очень часто такое возникает при парсинге web-сайтов. Возьмем для примера спаршенное с hh.ru описание вакансии:

In [None]:
text = '<p>Мы - классная команда, которая создает сервис, позволяющий людям решить сложную проблему ремонта квартиры. Наша молодая, но амбициозная компания создана профессиональными девелоперами с 25-летним опытом работы и экспертами IT- бизнеса.</p> <p><strong>Кого хотим</strong></p> <p>Не первый год в Angular? Смело откликайся! Мы создаем сервис, позволяющий людям решить сложную проблему — организовать процесс ремонт квартиры: от выбора дизайна спальни в 3D-редакторе до закупки строительных материалов, от выбора подходящей бригады мастеров до экспертной приемки работ, от точной сметы всего проекта до графика выполнения работ.</p> <p><strong>Немного о команде</strong></p> <p>— Все те, кто создают сервис, находятся в едином информационном пространстве, общаются и совместно решают задачи;</p> <p>— У нас можно ошибаться, обсуждать как можно сделать иначе, и легально заниматься рефакторингом :-)</p> <p>— Нет задач &quot;для галочки&quot; или &quot;заказчиков&quot;, мы ориентируемся только на потребности наших пользователей.</p> <p><strong>Задачи:</strong></p> <ul> <li>разрабатывать SPA-приложения на Angular;</li> <li>ревьюить код других участников команды;</li> <li>говорить, что можно улучшить в продукте или рабочих процессах и помогать это сделать;</li> <li>получать удовольствие от того, что ты делаешь.</li> </ul> <p><strong>Ожидания:</strong></p> <ul> <li>опыт веб-разработки от 1 года;</li> <li>опыт разработки приложений на Angular 2+;</li> <li>представление о процессах тестирования кода</li> </ul> <p><strong>Что мы предлагаем?</strong></p> <ul> <li>официальное оформление по ТК РФ;</li> <li>полностью «белая» зарплата;</li> <li>свобода в принятии технических решений;</li> <li>возможность выбрать работу из офиса или дома;</li> <li>комфортное тихое рабочее место и современное железо;</li> <li>дистанционная работа.</li> </ul>'
text

'<p>Мы - классная команда, которая создает сервис, позволяющий людям решить сложную проблему ремонта квартиры. Наша молодая, но амбициозная компания создана профессиональными девелоперами с 25-летним опытом работы и экспертами IT- бизнеса.</p> <p><strong>Кого хотим</strong></p> <p>Не первый год в Angular? Смело откликайся! Мы создаем сервис, позволяющий людям решить сложную проблему — организовать процесс ремонт квартиры: от выбора дизайна спальни в 3D-редакторе до закупки строительных материалов, от выбора подходящей бригады мастеров до экспертной приемки работ, от точной сметы всего проекта до графика выполнения работ.</p> <p><strong>Немного о команде</strong></p> <p>— Все те, кто создают сервис, находятся в едином информационном пространстве, общаются и совместно решают задачи;</p> <p>— У нас можно ошибаться, обсуждать как можно сделать иначе, и легально заниматься рефакторингом :-)</p> <p>— Нет задач &quot;для галочки&quot; или &quot;заказчиков&quot;, мы ориентируемся только на пот

Видим, что в тексте содержатся HTML-теги и другие специальные символы. Первым этапом предварительной обработки данных является очистка текста. Ее удобно производить с помощью такого инструмента как [регулярные выражения](https://habr.com/ru/articles/567106/).

Импортируем пакет для работы с регулярными выражениями в Python

In [None]:
import re

Напишем регулярное выражение, под которое подходят все числа (одна и более цифр). Скомпилируем регулярное выражение, чтобы не переписывать его в будущем

In [None]:
pattern = re.compile('\d+')

Найдем в тексте все числа с использованием регулярного выражения

In [None]:
pattern.findall(text)

['25', '3', '1', '2']

С помощью регулярных выражений мы легко можем находить в тексте такую информацию, как номера телефонов и адреса электронной почты

In [None]:
mail_pattern = re.compile('\S+@\S+\.\S+')
mobile_pattern = re.compile('\+?[1-9][0-9]{10}')

In [None]:
mobile_pattern.findall('Позвони мне по телефону +78585858585 и мы поговорим')

['+78585858585']

In [None]:
mail_pattern.findall('Лабораторные работы присылать на почту gnk.software1@gmail.com')

['gnk.software1@gmail.com']

Полезная возможность, связанная с регулярными выражениями - группировка

In [None]:
group_pattern = re.compile('class\s+([A-Z]\w+)\s+implements\s+([A-Z]\w+)')

In [None]:
group_pattern.findall('class MyClass implements  Base')

[('MyClass', 'Base')]

Регулярные выражения лежат в основе синтаксических анализаторов исходного кода и являются мощным инструментов обработки естественного языка. Инструменты для работы с регулярными выражениями являются частью стандартных библиотек языков программирования.

С помощью регулярных выражений удалим из текста все символы, которые не являются буквами, цифрами и пробелами

In [None]:
text_only_letters = re.sub('[^\s^\w]+', '', text)
text_only_letters

'pМы  классная команда которая создает сервис позволяющий людям решить сложную проблему ремонта квартиры Наша молодая но амбициозная компания создана профессиональными девелоперами с 25летним опытом работы и экспертами IT бизнесаp pstrongКого хотимstrongp pНе первый год в Angular Смело откликайся Мы создаем сервис позволяющий людям решить сложную проблему  организовать процесс ремонт квартиры от выбора дизайна спальни в 3Dредакторе до закупки строительных материалов от выбора подходящей бригады мастеров до экспертной приемки работ от точной сметы всего проекта до графика выполнения работp pstrongНемного о командеstrongp p Все те кто создают сервис находятся в едином информационном пространстве общаются и совместно решают задачиp p У нас можно ошибаться обсуждать как можно сделать иначе и легально заниматься рефакторингом p p Нет задач quotдля галочкиquot или quotзаказчиковquot мы ориентируемся только на потребности наших пользователейp pstrongЗадачиstrongp ul liразрабатывать SPAприложе

Получилось так себе, потому что в тексте были html-теги. Удалим их сначала

In [None]:
text_no_html = re.sub('<[^>]*>', '', text)
text_no_html

'Мы - классная команда, которая создает сервис, позволяющий людям решить сложную проблему ремонта квартиры. Наша молодая, но амбициозная компания создана профессиональными девелоперами с 25-летним опытом работы и экспертами IT- бизнеса. Кого хотим Не первый год в Angular? Смело откликайся! Мы создаем сервис, позволяющий людям решить сложную проблему — организовать процесс ремонт квартиры: от выбора дизайна спальни в 3D-редакторе до закупки строительных материалов, от выбора подходящей бригады мастеров до экспертной приемки работ, от точной сметы всего проекта до графика выполнения работ. Немного о команде — Все те, кто создают сервис, находятся в едином информационном пространстве, общаются и совместно решают задачи; — У нас можно ошибаться, обсуждать как можно сделать иначе, и легально заниматься рефакторингом :-) — Нет задач &quot;для галочки&quot; или &quot;заказчиков&quot;, мы ориентируемся только на потребности наших пользователей. Задачи:  разрабатывать SPA-приложения на Angular;

In [None]:
text_only_letters = re.sub('[^\s^\w^-]+', '', text_no_html)
text_only_letters

'Мы - классная команда которая создает сервис позволяющий людям решить сложную проблему ремонта квартиры Наша молодая но амбициозная компания создана профессиональными девелоперами с 25-летним опытом работы и экспертами IT- бизнеса Кого хотим Не первый год в Angular Смело откликайся Мы создаем сервис позволяющий людям решить сложную проблему  организовать процесс ремонт квартиры от выбора дизайна спальни в 3D-редакторе до закупки строительных материалов от выбора подходящей бригады мастеров до экспертной приемки работ от точной сметы всего проекта до графика выполнения работ Немного о команде  Все те кто создают сервис находятся в едином информационном пространстве общаются и совместно решают задачи  У нас можно ошибаться обсуждать как можно сделать иначе и легально заниматься рефакторингом -  Нет задач quotдля галочкиquot или quotзаказчиковquot мы ориентируемся только на потребности наших пользователей Задачи  разрабатывать SPA-приложения на Angular ревьюить код других участников кома

In [None]:
text_only_letters = re.sub('quot', '', text_only_letters)
text_only_letters

'Мы - классная команда которая создает сервис позволяющий людям решить сложную проблему ремонта квартиры Наша молодая но амбициозная компания создана профессиональными девелоперами с 25-летним опытом работы и экспертами IT- бизнеса Кого хотим Не первый год в Angular Смело откликайся Мы создаем сервис позволяющий людям решить сложную проблему  организовать процесс ремонт квартиры от выбора дизайна спальни в 3D-редакторе до закупки строительных материалов от выбора подходящей бригады мастеров до экспертной приемки работ от точной сметы всего проекта до графика выполнения работ Немного о команде  Все те кто создают сервис находятся в едином информационном пространстве общаются и совместно решают задачи  У нас можно ошибаться обсуждать как можно сделать иначе и легально заниматься рефакторингом -  Нет задач для галочки или заказчиков мы ориентируемся только на потребности наших пользователей Задачи  разрабатывать SPA-приложения на Angular ревьюить код других участников команды говорить что

На данном этапе мы имеем текст без специальных символов, а значит можем приступать к токенизации

## Токенизация

Токенизацией называется разделение текстового документа на неделимые единицы (токены). В качестве токенов в NLP могут выступать:
- предложения
- слова
- символы

В простых случаях токенизацию можно произвести методом split

In [None]:
a = 'Привет как дела'

In [None]:
a.split()

['Привет', 'как', 'дела']

Но для более сложных кейсов уже не прокатит

In [None]:
a = 'Привет, как дела'
a.split()

['Привет,', 'как', 'дела']

Тогда на помощь приходят умные токенизаторы. Классическими представителями являются токенизаторы из библиотеки [Natural Language Toolkit (NLTK)](https://www.nltk.org/)

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize

In [None]:
sentences = sent_tokenize(text_no_html)
sentences

['Мы - классная команда, которая создает сервис, позволяющий людям решить сложную проблему ремонта квартиры.',
 'Наша молодая, но амбициозная компания создана профессиональными девелоперами с 25-летним опытом работы и экспертами IT- бизнеса.',
 'Кого хотим Не первый год в Angular?',
 'Смело откликайся!',
 'Мы создаем сервис, позволяющий людям решить сложную проблему — организовать процесс ремонт квартиры: от выбора дизайна спальни в 3D-редакторе до закупки строительных материалов, от выбора подходящей бригады мастеров до экспертной приемки работ, от точной сметы всего проекта до графика выполнения работ.',
 'Немного о команде — Все те, кто создают сервис, находятся в едином информационном пространстве, общаются и совместно решают задачи; — У нас можно ошибаться, обсуждать как можно сделать иначе, и легально заниматься рефакторингом :-) — Нет задач &quot;для галочки&quot; или &quot;заказчиков&quot;, мы ориентируемся только на потребности наших пользователей.',
 'Задачи:  разрабатывать S

In [None]:
words = word_tokenize(text_only_letters)
words

['Мы',
 '-',
 'классная',
 'команда',
 'которая',
 'создает',
 'сервис',
 'позволяющий',
 'людям',
 'решить',
 'сложную',
 'проблему',
 'ремонта',
 'квартиры',
 'Наша',
 'молодая',
 'но',
 'амбициозная',
 'компания',
 'создана',
 'профессиональными',
 'девелоперами',
 'с',
 '25-летним',
 'опытом',
 'работы',
 'и',
 'экспертами',
 'IT-',
 'бизнеса',
 'Кого',
 'хотим',
 'Не',
 'первый',
 'год',
 'в',
 'Angular',
 'Смело',
 'откликайся',
 'Мы',
 'создаем',
 'сервис',
 'позволяющий',
 'людям',
 'решить',
 'сложную',
 'проблему',
 'организовать',
 'процесс',
 'ремонт',
 'квартиры',
 'от',
 'выбора',
 'дизайна',
 'спальни',
 'в',
 '3D-редакторе',
 'до',
 'закупки',
 'строительных',
 'материалов',
 'от',
 'выбора',
 'подходящей',
 'бригады',
 'мастеров',
 'до',
 'экспертной',
 'приемки',
 'работ',
 'от',
 'точной',
 'сметы',
 'всего',
 'проекта',
 'до',
 'графика',
 'выполнения',
 'работ',
 'Немного',
 'о',
 'команде',
 'Все',
 'те',
 'кто',
 'создают',
 'сервис',
 'находятся',
 'в',
 'едином

In [None]:
chars = list(text_only_letters)
chars[:10]

['М', 'ы', ' ', '-', ' ', 'к', 'л', 'а', 'с', 'с']

В некоторых задачах NLP (например, в тематическом моделировании) полезно рассматривать не только отдельные токены, но также их сочетания - так называемые n-граммы. С помощью библиотеки nltk мы легко можем их получить

In [None]:
from nltk.util import ngrams
list(ngrams(words, 2))[:10]

[('Мы', '-'),
 ('-', 'классная'),
 ('классная', 'команда'),
 ('команда', 'которая'),
 ('которая', 'создает'),
 ('создает', 'сервис'),
 ('сервис', 'позволяющий'),
 ('позволяющий', 'людям'),
 ('людям', 'решить'),
 ('решить', 'сложную')]

Получение n-грамм целесообразно выполнять после завершения следующего этапа - нормализации данных

Инструменты для токенизации входят в состав других библиотек NLP, например Spacy. Но эту библиотеку мы рассмотрим на отдельном практическом занятии, посвященном предварительно обученным моделям векторизации текстов.

## Нормализация данных

Слова в естественных языках часто употребляются в различных видах и формах, при этом семантика слова не изменяется (слова 'красивый', 'красивая', 'красивое' с точки зрения семантики одинаковы). Нормализация данных предполагает, что все семантически одинаковые слова мы заменяем одним словом - нормальной формой. Существует два подхода к нормализации:
- стемминг
- лемматизация

Стемминг работает очень просто - мы обрубаем окончания слов. При этом теряется информация о части речи

In [None]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('russian')

In [None]:
stems = [stemmer.stem(w) for w in words]
stems

['мы',
 '-',
 'классн',
 'команд',
 'котор',
 'созда',
 'сервис',
 'позволя',
 'люд',
 'реш',
 'сложн',
 'пробл',
 'ремонт',
 'квартир',
 'наш',
 'молод',
 'но',
 'амбициозн',
 'компан',
 'созда',
 'профессиональн',
 'девелопер',
 'с',
 '25-летн',
 'опыт',
 'работ',
 'и',
 'эксперт',
 'IT-',
 'бизнес',
 'ког',
 'хот',
 'не',
 'перв',
 'год',
 'в',
 'Angular',
 'смел',
 'отклика',
 'мы',
 'созда',
 'сервис',
 'позволя',
 'люд',
 'реш',
 'сложн',
 'пробл',
 'организова',
 'процесс',
 'ремонт',
 'квартир',
 'от',
 'выбор',
 'дизайн',
 'спальн',
 'в',
 '3D-редактор',
 'до',
 'закупк',
 'строительн',
 'материал',
 'от',
 'выбор',
 'подходя',
 'бригад',
 'мастер',
 'до',
 'экспертн',
 'приемк',
 'работ',
 'от',
 'точн',
 'смет',
 'всег',
 'проект',
 'до',
 'график',
 'выполнен',
 'работ',
 'немн',
 'о',
 'команд',
 'все',
 'те',
 'кто',
 'созда',
 'сервис',
 'наход',
 'в',
 'един',
 'информацион',
 'пространств',
 'обща',
 'и',
 'совместн',
 'реша',
 'задач',
 'у',
 'нас',
 'можн',
 'ошиба',

Библиотека NLTK не содержит инструмента лемматизации для русского языка. Используем другую библиотеку

In [None]:
! pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-1.2.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.4/55.4 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy3)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting docopt-ng>=0.6 (from pymorphy3)
  Downloading docopt_ng-0.9.0-py3-none-any.whl (16 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m56.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymorphy3-dicts-ru, dawg-python, docopt-ng, pymorphy3
Successfully installed dawg-python-0.7.2 docopt-ng-0.9.0 pymorphy3-1.2.1 pymorphy3-dicts-ru-2.4.417150.4580142


In [None]:
from pymorphy3 import MorphAnalyzer
morph = MorphAnalyzer()

In [None]:
 morph.normal_forms('красивая')

['красивый']

Библиотека PyMorphy использует данные из открытого корпуса для русского языка [OpenCorpora ](https://opencorpora.org/)

Интеграция с данным корпусом позволяет получать и другую полезную информацию о словах

In [None]:
 morph.tag('красивая')

[OpencorporaTag('ADJF,Qual femn,sing,nomn')]

Более подробно ознакомиться с информацией о тегах можно в [документации](https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html)

Давайте сделаем лемматизацию нашего документа

In [None]:
lemmas = [morph.normal_forms(w)[0] for w in words]
lemmas

['мы',
 '-',
 'классный',
 'команда',
 'который',
 'создавать',
 'сервис',
 'позволять',
 'человек',
 'решить',
 'сложный',
 'проблема',
 'ремонт',
 'квартира',
 'наш',
 'молодой',
 'но',
 'амбициозный',
 'компания',
 'создать',
 'профессиональный',
 'девелопер',
 'с',
 '25-летний',
 'опыт',
 'работа',
 'и',
 'эксперт',
 'it-',
 'бизнес',
 'кто',
 'хотеть',
 'не',
 'первый',
 'год',
 'в',
 'angular',
 'смело',
 'откликаться',
 'мы',
 'создавать',
 'сервис',
 'позволять',
 'человек',
 'решить',
 'сложный',
 'проблема',
 'организовать',
 'процесс',
 'ремонт',
 'квартира',
 'от',
 'выбор',
 'дизайн',
 'спальня',
 'в',
 '3d-редактор',
 'до',
 'закупка',
 'строительный',
 'материал',
 'от',
 'выбор',
 'подходящий',
 'бригада',
 'мастер',
 'до',
 'экспертный',
 'приёмка',
 'работа',
 'от',
 'точный',
 'смета',
 'весь',
 'проект',
 'до',
 'графика',
 'выполнение',
 'работа',
 'немного',
 'о',
 'команда',
 'всё',
 'тот',
 'кто',
 'создавать',
 'сервис',
 'находиться',
 'в',
 'единый',
 'информ

Также теперь можно удалить тире - здесь можно не использовать регулярные выражения, а применить стандартную библиотеку Python

In [None]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [None]:
prepared = [w for w in lemmas if w not in string.punctuation]
prepared

['мы',
 'классный',
 'команда',
 'который',
 'создавать',
 'сервис',
 'позволять',
 'человек',
 'решить',
 'сложный',
 'проблема',
 'ремонт',
 'квартира',
 'наш',
 'молодой',
 'но',
 'амбициозный',
 'компания',
 'создать',
 'профессиональный',
 'девелопер',
 'с',
 '25-летний',
 'опыт',
 'работа',
 'и',
 'эксперт',
 'it-',
 'бизнес',
 'кто',
 'хотеть',
 'не',
 'первый',
 'год',
 'в',
 'angular',
 'смело',
 'откликаться',
 'мы',
 'создавать',
 'сервис',
 'позволять',
 'человек',
 'решить',
 'сложный',
 'проблема',
 'организовать',
 'процесс',
 'ремонт',
 'квартира',
 'от',
 'выбор',
 'дизайн',
 'спальня',
 'в',
 '3d-редактор',
 'до',
 'закупка',
 'строительный',
 'материал',
 'от',
 'выбор',
 'подходящий',
 'бригада',
 'мастер',
 'до',
 'экспертный',
 'приёмка',
 'работа',
 'от',
 'точный',
 'смета',
 'весь',
 'проект',
 'до',
 'графика',
 'выполнение',
 'работа',
 'немного',
 'о',
 'команда',
 'всё',
 'тот',
 'кто',
 'создавать',
 'сервис',
 'находиться',
 'в',
 'единый',
 'информационн

## Удаление стоп-слов

Уже на данном этапе можно сказать, что наш документ предварительно обработан - уже можно выполнять векторизацию и решать такие задачи NLP как классификация, регрессия и тематическое моделирование. Однако как правило, необходимо дополнительно произвести очистку документа от так называемых стоп-слов

В общем случае стоп-слова определяются индивидуально для каждой задачи, однако следующие вещи принято всегда относить к стоп-словам:
- знаки препинания и специальные символы
- предлоги, союзы
- часто употребляемые слова в языке
- артикли

In [None]:
nltk.download('stopwords')
from nltk.corpus import stopwords
stopwords = stopwords.words('russian')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
stopwords

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [None]:
prepared = [w for w in prepared if w not in stopwords]
prepared

['классный',
 'команда',
 'который',
 'создавать',
 'сервис',
 'позволять',
 'человек',
 'решить',
 'сложный',
 'проблема',
 'ремонт',
 'квартира',
 'наш',
 'молодой',
 'амбициозный',
 'компания',
 'создать',
 'профессиональный',
 'девелопер',
 '25-летний',
 'опыт',
 'работа',
 'эксперт',
 'it-',
 'бизнес',
 'хотеть',
 'первый',
 'год',
 'angular',
 'смело',
 'откликаться',
 'создавать',
 'сервис',
 'позволять',
 'человек',
 'решить',
 'сложный',
 'проблема',
 'организовать',
 'процесс',
 'ремонт',
 'квартира',
 'выбор',
 'дизайн',
 'спальня',
 '3d-редактор',
 'закупка',
 'строительный',
 'материал',
 'выбор',
 'подходящий',
 'бригада',
 'мастер',
 'экспертный',
 'приёмка',
 'работа',
 'точный',
 'смета',
 'весь',
 'проект',
 'графика',
 'выполнение',
 'работа',
 'немного',
 'команда',
 'всё',
 'создавать',
 'сервис',
 'находиться',
 'единый',
 'информационный',
 'пространство',
 'общаться',
 'совместно',
 'решать',
 'задача',
 'ошибаться',
 'обсуждать',
 'сделать',
 'иначе',
 'легальн

Предварительная обработка документа завершена.

Библиотека Spacy включает в себя богатый функционал для осуществления предварительной обработки, однако используемые предварительно обученные модели не всегда работают быстро и занимают определенное место в оперативной памяти. Поэтому далеко не всегда целесообразно использовать Spacy для решения задачи предварительной обработки текстов (особенно, если вы не используете векторизацию текста с помощью Spacy)

Хотя и векторизацию, которую делают модели в Spacy, можно сделать и без Spacy :D Да, именно так. Заинтриговал? Побдробнее об этом на одной из предстоящих практик.