# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [42]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [13]:
import nltk

# Убедимся, что NLTK ресурсы загружены
nltk.download('punkt')

# Прочитаем данные из файла с правильной кодировкой
with open('litw-win.txt', 'r', encoding='windows-1251') as f:
    lines = f.readlines()

# Объединим строки в один текст
text = ' '.join(line.split()[1] for line in lines if len(line.split()) > 1)

# Токенизируем текст
words = nltk.word_tokenize(text)

# Получим уникальные слова
unique_words = set(words)

# Выведем количество уникальных слов и сами слова
print('Уникальные слова:', unique_words)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Cersei\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Уникальные слова: {'дослушивает', 'ратники', 'чихнула', 'убежденная', 'повернусь', 'заблудилось', 'порядо', 'приготовленной', 'свинку', 'волочится', 'брезговали', 'интересовала', 'раздавался', 'искусственно', 'подозрительных', 'просторным', 'антипатии', 'шляпная', 'сообразиться', 'иллюстраций', 'описали', 'безош', 'малявочка', 'простонародно', 'стремитс', 'напомнил', 'этакими', 'фирма', 'проминки', 'беззвучным', 'переходившие', 'обходительным', 'наеди', 'воспитаешь', 'расползались', 'образцами', 'свиной', 'похмелье', 'диванов', 'распознавая', 'горизонтально', 'битва', 'слушают', 'секрету', 'самуила', 'повыцар', 'понапрас', 'производителя', 'велосипед', 'нуждаешься', 'святаго', 'адаме', 'секретных', 'дряблы', 'вращалось', 'наиблагороднейшая', 'покопавшись', 'дурачина', 'глу', 'понесла', 'откупориваться', 'водам', 'глазам', 'совокупление', 'иностранцы', 'просвечивающий', 'выгребая', 'безрукого', 'процентщик', 'умолкавших', 'академию', 'сводчатой', 'оставлять', 'угрою', 'меткими', 'мопсам

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).