# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [2]:
!pip install pymorphy2



In [3]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [4]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [5]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize

# Чтение файла с предобработанными описаниями рецептов
preprocessed_descriptions = pd.read_csv("preprocessed_descriptions.csv")

# Создание пустых переменных для множества уникальных слов и списка всех слов
words_set = set()
words_list = []

# Обработка каждого описания рецепта
for desc in preprocessed_descriptions['preprocessed_descriptions']:
    # Проверка, что описание является строкой
    if isinstance(desc, str):
        # Токенизация описания на отдельные слова
        desc_words = word_tokenize(desc)
        # Добавление уникальных слов в множество
        words_set.update(desc_words)
        # Добавление всех слов в список
        words_list.extend(desc_words)

# Вывод каждого слова в списке для проверки корректности обработки данных
print(words_set)   



1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [6]:
import random
from nltk.metrics.distance import edit_distance

# Создание списка слов
words_list = list(words_set)

# Генерация 5 случайных пар слов
for i in range(5):
    word1, word2 = random.sample(words_list, 2)
    # Вычисление расстояния редактирования между словами и вывод результата
    print(f"Расстояние между '{word1}' и '{word2}': {edit_distance(word1, word2)}")

Расстояние между '309199' и 'skewers': 7
Расстояние между 'themwhen' и 'oaty': 8
Расстояние между 'crinkles' и 'pittsburgh': 10
Расстояние между 'input' и 'squasha': 7
Расстояние между 'vorous' и 'ricea': 6


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [7]:
def closest_words(words, word, k):
    # Сортируем слова по расстоянию Левенштейна до заданного слова
    sorted_words = sorted(words, key=lambda x: edit_distance(x, word))
    # Возвращаем первые k ближайших слов
    return sorted_words[:k]

closest_words(words_set, "offically", 11)

['offically',
 'officially',
 'magically',
 'typically',
 'radically',
 'basically',
 'optimally',
 'official',
 'finally',
 'orginally',
 'icarly']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [8]:
from nltk.stem import WordNetLemmatizer, SnowballStemmer

# Создание объектов для лемматизации и стемминга
lemmatizer = WordNetLemmatizer()
stemmer = SnowballStemmer('english')

# Создание DataFrame со столбцами 'word', 'stemmed_word' и 'normalized_word'
words_df = pd.DataFrame(words_set, columns=['word'])
words_df['stemmed_word'] = words_df['word'].apply(stemmer.stem)
words_df['normalized_word'] = words_df['word'].apply(lambda x: lemmatizer.lemmatize(x, pos='v'))

# Фильтрация DataFrame по словам, отличающимся после стемминга и лемматизации
filtered_df = words_df[(words_df['word'] != words_df['normalized_word']) & (words_df['stemmed_word'] != words_df['normalized_word'])]

# Установка столбца 'word' как индекс DataFrame
filtered_df = filtered_df.set_index('word')

# Вывод DataFrame с отфильтрованными словами
filtered_df

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
tantalizes,tantal,tantalize
intervening,interven,intervene
duplicating,duplic,duplicate
invigorating,invigor,invigorate
gave,gave,give
...,...,...
carving,carv,carve
overheating,overh,overheat
concentrates,concentr,concentrate
enthused,enthus,enthuse


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [19]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from collections import Counter

# Загрузка данных
df = pd.read_csv('preprocessed_descriptions.csv')
df['preprocessed_descriptions'] = df['preprocessed_descriptions'].apply(str)

# Список всех слов
all_words = []
for i in df['preprocessed_descriptions']:
    words = nltk.word_tokenize(i)
    all_words += words

# Удаление стоп-слов
stop_words = set(stopwords.words('english'))
filtered_words = [word for word in all_words if word.lower() not in stop_words]

# Вычисление доли стоп-слов
stop_words_count = len(all_words) - len(filtered_words)
stop_words_fraction = stop_words_count / len(all_words)

print(f'Количество уникальных слов: {len(set(filtered_words))}')
print(f'Общее количество слов: {len(filtered_words)}')
print(f'Доля стоп-слов: {stop_words_fraction:.2%}')

# Топ-10 самых часто употребляемых слов до удаления стоп-слов
word_counts_before = Counter(all_words)
top_10_before = word_counts_before.most_common(10)
print('\nТоп-10 слов до удаления стоп-слов:')
for word, count in top_10_before:
    print(f'{word}: {count}')

# Топ-10 самых часто употребляемых слов после удаления стоп-слов
word_counts_after = Counter(filtered_words)
top_10_after = word_counts_after.most_common(10)
print('\nТоп-10 слов после удаления стоп-слов:')
for word, count in top_10_after:
    print(f'{word}: {count}')

Количество уникальных слов: 32732
Общее количество слов: 581520
Доля стоп-слов: 45.65%

Топ-10 слов до удаления стоп-слов:
the: 40072
a: 34951
and: 30245
this: 26859
i: 24836
to: 23471
is: 20285
it: 19756
of: 18364
for: 15939

Топ-10 слов после удаления стоп-слов:
recipe: 14871
make: 6326
time: 5137
use: 4620
great: 4430
like: 4167
easy: 4152
one: 3872
made: 3810
good: 3791


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer

# загрузка данных из файла
data = pd.read_csv('preprocessed_descriptions.csv')
data['preprocessed_descriptions'] = data['preprocessed_descriptions'].apply(str)

# выбор 5 случайных рецептов
random_recipes = data.sample(5)

# инициализация TfidfVectorizer
vectorizer = TfidfVectorizer()

# преобразование описаний в числовые вектора
recipe_vectors = vectorizer.fit_transform(random_recipes['preprocessed_descriptions'])

# вывод числовых векторов рецептов
for i, recipe in enumerate(random_recipes['preprocessed_descriptions']):
    print("Рецепт", i + 1, ":", recipe)
    print("Числовой вектор:")
    print(recipe_vectors[i])
    print()

Рецепт 1 : i make these pancakes at least once a week for my girls they love them they are simply to make and delicious if you like a little sweeter pancake add a bit more sugar have fun and enjoy ps variation 34 cups buttermilk and 12 cup milk for buttermilk pancakes
Числовой вектор:
  (0, 75)	0.1402425601630735
  (0, 27)	0.1402425601630735
  (0, 0)	0.1402425601630735
  (0, 18)	0.280485120326147
  (0, 28)	0.1402425601630735
  (0, 2)	0.1402425601630735
  (0, 132)	0.1402425601630735
  (0, 95)	0.1402425601630735
  (0, 37)	0.1131468145006029
  (0, 45)	0.1402425601630735
  (0, 50)	0.1402425601630735
  (0, 113)	0.1402425601630735
  (0, 77)	0.1402425601630735
  (0, 13)	0.1402425601630735
  (0, 4)	0.1131468145006029
  (0, 92)	0.1402425601630735
  (0, 115)	0.1402425601630735
  (0, 66)	0.1402425601630735
  (0, 65)	0.1402425601630735
  (0, 141)	0.1131468145006029
  (0, 54)	0.1402425601630735
  (0, 29)	0.1402425601630735
  (0, 7)	0.2817662310164785
  (0, 126)	0.09392207700549285
  (0, 104)	0.1402

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [26]:
from scipy.spatial.distance import cosine

# вычисление близости между парами рецептов
similarity_matrix = pd.DataFrame(index=random_recipes.index, columns=random_recipes.index)

for i in range(len(random_recipes)):
    for j in range(len(random_recipes)):
        similarity = 1 - cosine(recipe_vectors[i].toarray(), recipe_vectors[j].toarray())
        similarity_matrix.iloc[i, j] = similarity

# вывод таблицы с близостью между рецептами
similarity_matrix

Unnamed: 0,9079,8938,5335,4252,6985
9079,1.0,0.0,0.036861,0.159787,0.078196
8938,0.0,1.0,0.0,0.042347,0.023284
5335,0.036861,0.0,1.0,0.154475,0.01439
4252,0.159787,0.042347,0.154475,1.0,0.158027
6985,0.078196,0.023284,0.01439,0.158027,1.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [None]:
Рецепты 9079 и 4252 имеют наибольшую степень схожести, с близостью 0.159787

Рецепты 5335 и 4252 также имеют достаточно высокую степень схожести, с близостью 0.154475

Рецепты 9079 и 6985, а также 5335 и 6985, имеют наименьшую степень схожести, с близостью 0.078196 и 0.01439