# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [42]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [2]:
import csv
import nltk
from nltk.tokenize import word_tokenize

k = []
with open('preprocessed_descriptions.csv', 'r') as f:
    data = csv.reader(f)
    for row in data:
        k += row

string = ' '.join(k)
tokens = word_tokenize(string)
words_list = list(set(tokens))
unique_words = len(set(tokens))
unique_words
words_list

['persistance',
 'keftaides',
 'compatible',
 'minister',
 'nashab',
 'lucks',
 'challahs',
 'roja',
 'carciofi',
 'tonys',
 'squares',
 'stufate',
 'divorced',
 'sbusykitchen',
 'blackie',
 'win',
 'tomotoes',
 'fanciful',
 'ching',
 'panel',
 'kow',
 'oaties',
 'puter',
 'fifteenth',
 'ladera',
 'realty',
 'littlejapanmama',
 'especial',
 'fanatic',
 'puffier',
 'kitchener',
 '316592',
 '27833',
 'cyclades',
 'leaf',
 'miniature',
 'unmodestly',
 'streusal',
 'koa',
 'fleshy',
 'weinies',
 'verge',
 'marnating',
 'dianna',
 'unmilled',
 'machines',
 'luck',
 'shingle',
 'cacio',
 'outside',
 'correlle',
 'sorghum',
 'ships',
 'fankhauser',
 'spare',
 'negro',
 'compartments',
 'emaw',
 'kwwl',
 'taleggio',
 'gook',
 'seller',
 'bakehouse',
 'marula',
 'wowza',
 'fulfilled',
 'webtender',
 'overabundant',
 'pe',
 'ties',
 'miss',
 'zatarin',
 'saladooha',
 'waitress',
 'turvy',
 'gusto',
 '911',
 'chance',
 'rose',
 'upcoming',
 'preferential',
 'applescotch',
 'garbo',
 'ropa',
 'bes

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [3]:
import random
import Levenshtein

random_pairs = [(random.choice(tokens), random.choice(tokens)) for _ in range(5)]

# Вычисление расстояния редактирования для каждой пары
edit_distances = [(pair, Levenshtein.distance(pair[0], pair[1])) for pair in random_pairs]

# Вывод результатов
for pair, distance in edit_distances:
    print(f"Пара: {pair}, Расстояние редактирования: {distance}")

Пара: ('macaroni', 'in'), Расстояние редактирования: 7
Пара: ('or', 've'), Расстояние редактирования: 2
Пара: ('thank', 'bottles'), Расстояние редактирования: 6
Пара: ('flavor', 'raw'), Расстояние редактирования: 5
Пара: ('can', 'outback'), Расстояние редактирования: 6


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [4]:
import Levenshtein

def find_k_closest_words(word, words, k):
    """
    Находит k ближайших слов к заданному слову на основе расстояния Левенштейна.
    
    Параметры:
    word : str
        Заданное слово, к которому ищем ближайшие слова.
    words : list
        Список слов, из которого выбираем ближайшие слова.
    k : int
        Количество ближайших слов, которые нужно вернуть.
    
    Возвращает:
    list
        Список k ближайших слов.
    """
    # Вычисляем расстояние Левенштейна для каждого слова из списка
    distances = [(w, Levenshtein.distance(word, w)) for w in words]
    
    # Сортируем слова по расстоянию
    distances.sort(key=lambda x: x[1])
    
    # Возвращаем k ближайших слов
    closest_words = [w for w, d in distances[:k]]
    return closest_words

# Количество ближайших слов
k = 10

word = 'these'

# Получаем k ближайших слов
closest_words = find_k_closest_words(word, words_list ,k )

# Вывод результатов
print(f"Заданное слово: {word}")
print(f"{k} ближайших слов: {closest_words}")


Заданное слово: these
10 ближайших слов: ['these', 'those', 'thease', 'hese', 'theses', 'theme', 'there', 'thee', 'ties', 'hes']


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [15]:
from nltk.stem import SnowballStemmer
arr = ['мячика', 'телефона']
snd_stemmer_ru = SnowballStemmer('russian')
result = [snd_stemmer_ru.stem(i) for i in arr]
result


['мячик', 'телефон']

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).