# Введение в обработку текста на естественном языке

Материалы:

* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Разминка

In [74]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
import Levenshtein
import pymorphy2
import nltk
from nltk.stem.snowball import SnowballStemmer

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.

In [77]:
# Читаем содержимое файла и разбиваем на слова
with open('litw-win.txt', 'r', encoding='utf-8') as file:
    words = file.read().split()

In [78]:
words

['101167',
 'и',
 '53913',
 'в',
 '35629',
 'я',
 '31815',
 'с',
 '21715',
 'а',
 '13436',
 'к',
 '11426',
 'у',
 '8517',
 'о',
 '2947',
 'н',
 '2707',
 'п',
 '2564',
 'ж',
 '2248',
 'б',
 '1747',
 'т',
 '1372',
 'д',
 '1135',
 'м',
 '931',
 'ч',
 '795',
 'з',
 '789',
 'г',
 '717',
 'е',
 '714',
 'р',
 '636',
 'э',
 '445',
 'л',
 '272',
 'х',
 '156',
 'ш',
 '128',
 'ф',
 '85',
 'ц',
 '83',
 'щ',
 '59',
 'й',
 '35',
 'ю',
 '15',
 'ы',
 '4',
 'ъ',
 '3',
 'ь',
 '50305',
 'не',
 '32191',
 'на',
 '27913',
 'он',
 '21003',
 'то',
 '15183',
 'но',
 '12620',
 'же',
 '11339',
 'вы',
 '11304',
 'по',
 '11077',
 'да',
 '11071',
 'за',
 '9261',
 'бы',
 '8839',
 'ты',
 '8178',
 'от',
 '8136',
 'из',
 '7906',
 'ее',
 '5297',
 'до',
 '5168',
 'ну',
 '4996',
 'ни',
 '4964',
 'ли',
 '4244',
 'уж',
 '3685',
 'во',
 '3680',
 'их',
 '3596',
 'мы',
 '3090',
 'со',
 '2711',
 'ей',
 '1934',
 'об',
 '1536',
 'ко',
 '1391',
 'ах',
 '1385',
 'им',
 '997',
 'ка',
 '915',
 'та',
 '881',
 'пр',
 '812',
 'те',
 '60

In [79]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [80]:
# Разбиваем текст на отдельные слова по пробелам
text_words = text.split()

In [81]:
# Создаем пустой список для исправленных слов
corrected_text_words = []

# Проходим по каждому слову в исходном тексте
for word in text_words:
    if word in words: # Если слово есть в списке 'words'
        corrected_text_words.append(word) # Добавляем его без изменений
    else:
        # Находим слово из 'words', ближайшее по расстоянию Левенштейна
        closest_word = min(words, key=lambda w: Levenshtein.distance(word, w))
        corrected_text_words.append(closest_word) # Добавляем найденное слово в список
        print(f"Слово '{word}' заменено на '{closest_word}'")  # Сообщаем о замене слова

Слово 'велечайшим' заменено на 'величайшим'
Слово 'Кутузов' заменено на 'кутузов'
Слово 'уменьшевшейся' заменено на 'уменьшившейся'


In [84]:
# Объединяем исправленные слова обратно в строку
corrected_text = ' '.join(corrected_text_words)
print(corrected_text) # Выводим исправленный текст

с величайшим усилием выбравшись из потока убегающих людей кутузов со свитой уменьшившейся вдвое поехал на звуки выстрелов русских орудий


2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [86]:
# Инициализируем морфологический анализатор
morph = pymorphy2.MorphAnalyzer()

# Применяем лемматизацию к каждому исправленному слову
lemmatized_words = [morph.parse(word)[0].normal_form for word in corrected_text_words]
print(lemmatized_words) # Выводим список лемматизированных слов

['с', 'великий', 'усилие', 'выбраться', 'из', 'поток', 'убегать', 'человек', 'кутузов', 'с', 'свита', 'уменьшиться', 'вдвое', 'поехать', 'на', 'звук', 'выстрел', 'русский', 'орудие']


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [88]:
# Инициализируем стеммер SnowballStemmer для русского языка
stemmer = SnowballStemmer("russian")

# Применяем стемминг к каждому исправленному слову
stemmed_words = [stemmer.stem(word) for word in corrected_text_words]

print(stemmed_words) # Выводим список стеммированных слов


Стеммированные слова:
['с', 'величайш', 'усил', 'выбра', 'из', 'поток', 'убега', 'люд', 'кутуз', 'со', 'свит', 'уменьш', 'вдво', 'поеха', 'на', 'звук', 'выстрел', 'русск', 'оруд']


## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`).

In [95]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
import random
import Levenshtein

In [92]:
# Загрузка необходимого ресурса для токенизации
nltk.download('punkt')
# Чтение данных из CSV файла
df = pd.read_csv('preprocessed_descriptions.csv')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [93]:
df

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,preprocessed_description
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,my children and their friends ask for my homem...
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,these were so go it surprised even me
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,my sisterinlaw made these for us at a family g...
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,i think a fondue is a very romantic casual din...
...,...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,this is a traditional fresh plum cake thought ...
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,this is a traditional late summer early fall s...
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,this is a delicious soup that i originally fou...


In [94]:
# Объединение всех описаний в один текст
all_descriptions = ' '.join(df['description'].astype(str))

# Токенизация текста
tokens = word_tokenize(all_descriptions.lower())

# Получение набора уникальных слов
words = set(tokens)
print(f"Количество уникальных слов: {len(words)}") # Подсчет слов

Количество уникальных слов: 29768


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [96]:
# Преобразуем набор в список для удобства
words_list = list(words)

# Генерация 5 пар случайных слов
random_pairs = [random.sample(words_list, 2) for _ in range(5)]

# Вычисление расстояния Левенштейна для каждой пары
for idx, (word1, word2) in enumerate(random_pairs, 1):
    distance = Levenshtein.distance(word1, word2)
    print(f"Пара {idx}: '{word1}' и '{word2}' - расстояние Левенштейна: {distance}")

Пара 1: 'lending' и '1982' - расстояние Левенштейна: 7
Пара 2: 'ft.' и 'houten' - расстояние Левенштейна: 5
Пара 3: 'marked' и 'strands' - расстояние Левенштейна: 5
Пара 4: 'watergate' и 'calculated' - расстояние Левенштейна: 6
Пара 5: 'sturdy.they' и 'makeup' - расстояние Левенштейна: 11


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [97]:
def find_k_nearest_words(word, words_list, k):
    # Вычисляем расстояние до каждого слова
    distances = []
    for w in words_list:
        if w != word:
            dist = Levenshtein.distance(word, w)
            distances.append((w, dist))
    # Сортируем слова по возрастанию расстояния
    sorted_words = sorted(distances, key=lambda x: x[1])
    # Возвращаем k ближайших слов
    nearest_words = [w for w, d in sorted_words[:k]]
    return nearest_words

# Пример использования функции
target_word = input("Введите слово: ").lower()
k = int(input("Введите количество ближайших слов k: "))
nearest_words = find_k_nearest_words(target_word, words_list, k)
print(f"{k} ближайших слов к '{target_word}': {nearest_words}")

Введите слово: makeup
Введите количество ближайших слов k: 7
7 ближайших слов к 'makeup': ['maker', 'mashup', 'make.i', 'wake-up', 'makers', 'make', 'make-']


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами:
    * word
    * stemmed_word
    * normalized_word

Столбец `word` укажите в качестве индекса.

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [105]:
import pandas as pd
import nltk
from nltk.stem import SnowballStemmer, WordNetLemmatizer
from nltk.corpus import stopwords
from collections import Counter

In [99]:
# Загружены необходимые ресурсы, загружаем их
nltk.download('wordnet')
nltk.download('omw-1.4')  # Для получения дополнительных словарей для лемматизации

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [100]:
# Инициализируем стеммер и лемматизатор
stemmer = SnowballStemmer("english")
lemmatizer = WordNetLemmatizer()

# Создаем списки для стеммированных и лемматизированных слов
stemmed_words = [stemmer.stem(word) for word in words]
normalized_words = [lemmatizer.lemmatize(word) for word in words]

# Создаем DataFrame
df_words = pd.DataFrame({
    'word': list(words),
    'stemmed_word': stemmed_words,
    'normalized_word': normalized_words
})

# Устанавливаем 'word' в качестве индекса
df_words.set_index('word', inplace=True)

# Выводим первые несколько строк DataFrame
print(df_words.head())

                                  stemmed_word         normalized_word
word                                                                  
iraq                                      iraq                    iraq
www.theveggietable.com  www.theveggietable.com  www.theveggietable.com
multiples                              multipl                multiple
minister                                minist                minister
lasagna-                              lasagna-                lasagna-


In [101]:
# Сравнение первых 10 слов
print(df_words.head(10))

                                                                                         stemmed_word  \
word                                                                                                    
iraq                                                                                             iraq   
www.theveggietable.com                                                         www.theveggietable.com   
multiples                                                                                     multipl   
minister                                                                                       minist   
lasagna-                                                                                     lasagna-   
www.expandexglutenfree.com                                                 www.expandexglutenfree.com   
radicchio—raging                                                                        radicchio—rag   
//www.littlejapanmama.com/2011/08/japanese-crea...  //w

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [103]:
# Загружаем список стоп-слов для английского языка
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

# Токенизируем все описания (как в 1.1)
tokens = word_tokenize(all_descriptions.lower())

# Общее количество слов
total_words_count = len(tokens)

# Удаляем стоп-слова
tokens_without_stopwords = [word for word in tokens if word not in stop_words]

# Количество слов после удаления стоп-слов
words_count_without_stopwords = len(tokens_without_stopwords)

# Доля стоп-слов
stopwords_ratio = (total_words_count - words_count_without_stopwords) / total_words_count
print(f"Доля стоп-слов от общего количества слов: {stopwords_ratio:.2%}")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Доля стоп-слов от общего количества слов: 40.26%


In [106]:
# Топ-10 слов до удаления стоп-слов
word_counts_before = Counter(tokens)
top_10_before = word_counts_before.most_common(10)
print("Топ-10 слов до удаления стоп-слов:")
for word, count in top_10_before:
    print(f"{word}: {count}")

# Топ-10 слов после удаления стоп-слов
word_counts_after = Counter(tokens_without_stopwords)
top_10_after = word_counts_after.most_common(10)
print("\nТоп-10 слов после удаления стоп-слов:")
for word, count in top_10_after:
    print(f"{word}: {count}")

Топ-10 слов до удаления стоп-слов:
.: 65782
the: 40257
,: 38544
a: 35030
and: 30425
i: 27796
this: 27132
to: 23508
it: 23212
is: 20501

Топ-10 слов после удаления стоп-слов:
.: 65782
,: 38544
!: 16054
recipe: 15122
's: 7688
make: 6367
time: 5198
n't: 4798
use: 4645
): 4587


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [107]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.spatial.distance import cosine

In [108]:
# Удаляем строки с пустыми описаниями
data = data.dropna(subset=['description'])

# Выбираем случайным образом 5 рецептов
sample_recipes = data.sample(n=5, random_state=42).reset_index(drop=True)

# Выводим выбранные рецепты
print("Выбранные рецепты:")
for idx, row in sample_recipes.iterrows():
    print(f"{idx+1}. {row['name']}")

Выбранные рецепты:
1. spicy and savory chocolate chip cookies  aka sierra nuggets
2. james s taco chili
3. sugar snap pea and radish salad
4. chive french toast
5. hawaiian chicky for the crockpot


In [109]:
# Извлекаем описания выбранных рецептов
descriptions = sample_recipes['description'].tolist()

# Инициализируем TfidfVectorizer
vectorizer = TfidfVectorizer()

# Преобразуем описания в TF-IDF векторы
tfidf_matrix = vectorizer.fit_transform(descriptions)

# Преобразуем полученную матрицу в плотный формат
tfidf_vectors = tfidf_matrix.toarray()

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [110]:
# Получаем имена рецептов для использования в качестве меток строк и столбцов
recipe_names = sample_recipes['name'].tolist()

# Инициализируем пустой DataFrame для хранения расстояний
distance_df = pd.DataFrame(index=recipe_names, columns=recipe_names)

In [111]:
# Проходим по каждой паре рецептов
for i in range(len(tfidf_vectors)):
    for j in range(len(tfidf_vectors)):
        if i == j:
            # Расстояние между одинаковыми рецептами равно 0
            distance = 0.0
        else:
            # Вычисляем косинусное расстояние
            distance = cosine(tfidf_vectors[i], tfidf_vectors[j])
        # Записываем результат в таблицу
        distance_df.iloc[i, j] = distance

# Преобразуем все значения в числовой формат
distance_df = distance_df.astype(float)

In [115]:
print("\nТаблица косинусных расстояний между рецептами")
distance_df


Таблица косинусных расстояний между рецептами


Unnamed: 0,spicy and savory chocolate chip cookies aka sierra nuggets,james s taco chili,sugar snap pea and radish salad,chive french toast,hawaiian chicky for the crockpot
spicy and savory chocolate chip cookies aka sierra nuggets,0.0,0.955672,0.961844,0.936691,0.838799
james s taco chili,0.955672,0.0,0.978243,0.919042,0.680169
sugar snap pea and radish salad,0.961844,0.978243,0.0,0.967457,0.879843
chive french toast,0.936691,0.919042,0.967457,0.0,0.815515
hawaiian chicky for the crockpot,0.838799,0.680169,0.879843,0.815515,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [116]:
# Создаем копию таблицы для поиска минимального ненулевого расстояния
distance_df_no_diag = distance_df.copy()

# Заменяем диагональные элементы на NaN, чтобы не учитывать их при поиске минимального значения
np.fill_diagonal(distance_df_no_diag.values, np.nan)

# Находим минимальное расстояние и соответствующие рецепты
min_distance = distance_df_no_diag.min().min()
min_pair = distance_df_no_diag.stack().idxmin()

print(f"\nНаиболее похожие рецепты:")
print(f"Рецепты: '{min_pair[0]}' и '{min_pair[1]}'")
print(f"Косинусное расстояние: {min_distance:.4f}")


Наиболее похожие рецепты:
Рецепты: 'james s taco chili' и 'hawaiian chicky for the crockpot'
Косинусное расстояние: 0.6802


In [117]:
# Просмотр описаний наиболее похожих рецептов
recipe1 = sample_recipes[sample_recipes['name'] == min_pair[0]].iloc[0]
recipe2 = sample_recipes[sample_recipes['name'] == min_pair[1]].iloc[0]

print(f"\nОписание рецепта '{recipe1['name']}':\n{recipe1['description']}\n")
print(f"Описание рецепта '{recipe2['name']}':\n{recipe2['description']}\n")


Описание рецепта 'james s taco chili':
my youngest  son came up with this recipe  and really likes it  he says dont chop up the olives you can use recipe #39280 if you  cant find where you live

Описание рецепта 'hawaiian chicky for the crockpot':
this recipe is for a crockpot. it's sweet and smokey, inexpensive and really easy! i keep lots of the ingrediants in the house, b/c in a pinch, it works great! my husband loves this recipe and he can be hard to please b/c he gets really sick of chicken.
i load this up in the am before i leave for work and come home at 6 to a house smelling amazing!!! i hope you try this one...and if you cook extra chicken, it tastes amazing on a nice salad for the lunch the next day!



#Результаты
В результате вычислений косинусных расстояний между описаниями выбранных рецептов, наиболее похожими оказались:

Рецепты: 'james s taco chili' и 'hawaiian chicky for the crockpot'

Косинусное расстояние: 0.6802

##Анализ причин сходства:
####Лексическое пересечение:

    Личные местоимения: оба автора используют "my", "I".
    Положительные отзывы: авторы рекомендуют рецепт другим.
    Простота и удобство: подчеркивается простота рецептов и даются советы по приготовлению.

####Структура описания:

    Личный тон и рекомендации: описания написаны в личном стиле с упором на личный опыт.
    Советы и альтернативы: предлагаются альтернативы и дополнительные советы по использованию рецепта.

####Отсутствие специфических ингредиентов:

    Оба описания не содержат специфических кулинарных терминов, фокусируясь на личном опыте и эмоциях.