# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [2]:
import pymorphy2
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\alexm\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [6]:

import nltk
from nltk.metrics import edit_distance

text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''
# Считываем слова из файла litw-win.txt и записываем их в список words
with open('data/litw-win.txt', 'r') as file:
    words = [word.strip() for word in file.readlines()]


# Разбиваем предложение на слова
words_in_sentence = nltk.word_tokenize(text)

# Заменяем опечатки на ближайшие слова из списка words
corrected_sentence = []
for word in words_in_sentence:
    if word not in words:
        # Ищем ближайшее слово из списка words по расстоянию Левенштейна
        closest_word = min(words, key=lambda w: edit_distance(word, w))
        corrected_sentence.append(closest_word)
    else:
        corrected_sentence.append(word)

# Собираем исправленное предложение
corrected_sentence = ' '.join(corrected_sentence)

print("Исходное предложение:", text)
print("Исправленное предложение:", corrected_sentence)

KeyboardInterrupt: 

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [4]:
import pandas as pd
file_path = 'data/preprocessed_descriptions.csv'  # Убедитесь, что путь к файлу корректен
data = pd.read_csv(file_path)

# Объединяем все описания в один текст
all_descriptions = ' '.join(data['description'])

# Токенизируем текст
tokens = word_tokenize(all_descriptions)

# Получаем уникальные слова
unique_words = set(tokens)

# Выводим количество уникальных слов и несколько примеров
print(f"Количество уникальных слов: {len(unique_words)}")
print(f"Примеры уникальных слов: {list(unique_words)[:10]}")

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


FileNotFoundError: [Errno 2] No such file or directory: 'data/preprocessed_descriptions.csv'

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).