# Введение в обработку текста на естественном языке

## Задачи для совместного разбора

In [None]:
!pip install pymorphy2

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
pip install python-Levenshtein

In [5]:
text = '''с велИчайшим усилеем выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [8]:
import Levenshtein

# cчитываем слова из файла
with open("07_nlp/data/litw-win.txt", "r") as f:
    words = [line.split()[1] for line in f]

# исправление опечаток
def correct_word(word, words):
    if word in words:  # если слово в words, значит исправлять не надо, просто возвращаем слово
        return word
    else:
        # находим ближайшее слово по расстоянию Левенштейна
        min_distance = float('inf')
        corrected_word = None
        for w in words:
            distance = Levenshtein.distance(word, w)
            if distance < min_distance:
                min_distance = distance
                corrected_word = w
        return corrected_word

corrected_sentence = " ".join([correct_word(word, words) for word in text.split()])

print(corrected_sentence)

с величайшим усилием выбравшись из потока убегающих людей кутузов со свитой уменьшившейся вдвое поехал на звуки выстрелов русских орудий


2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

стемминг удаляет суффиксы и префиксы из слов

лемматизация приводит слова к их основной форме.

In [9]:
#Разбиение текста на слова:
import nltk

words = nltk.word_tokenize(corrected_sentence)
print(words)

['с', 'величайшим', 'усилием', 'выбравшись', 'из', 'потока', 'убегающих', 'людей', 'кутузов', 'со', 'свитой', 'уменьшившейся', 'вдвое', 'поехал', 'на', 'звуки', 'выстрелов', 'русских', 'орудий']


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [10]:
text = 'Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import sent_tokenize

# Токенизировать текст на предложения на русском языке
texti = sent_tokenize(text, language="russian")

# Создать корпус из токенизированных предложений
corpus = [i for i in texti]

# Создать экземпляр CountVectorizer
vectorizer1 = CountVectorizer()

# Создать экземпляр CountVectorizer с анализатором уровня слова и диапазоном n-грамм (2, 2)
vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(2, 2))

# Преобразовать корпус в матрицу признаков с помощью CountVectorizer
X = vectorizer1.fit_transform(corpus)

# Получить имена признаков из CountVectorizer
vectorizer1.get_feature_names_out()

# Вывести матрицу признаков
print(X.toarray())
print(" ")

# Преобразовать корпус в матрицу признаков с помощью CountVectorizer
X = vectorizer2.fit_transform(corpus)

# Получить имена признаков из CountVectorizer
vectorizer2.get_feature_names_out()

# Вывести матрицу признаков
print(X.toarray())

[[1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 0]
 [0 0 0 1 1 1 0 0 0 1 1 0 1 1 0 1 1 0 1 0 1 1 1 1 2 0 0 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 1 0 1 0 1 0 1 0 1]]
 
[[1 1 1 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1
  0]
 [0 0 0 1 1 0 0 0 1 1 0 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 0 0 1 0 1 0 0 0 0 0
  0]
 [0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 1 0 1 0 1 0 0 1 0
  1]]


## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [1]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize

In [6]:
f = '07_nlp/preprocessed_descriptions.csv'
fil = pd.read_csv(f)
fil

Unnamed: 0,name,preprocessed_descriptions
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,these were so go it surprised even me
3,italian gut busters,my sister in law made these for us at a family...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought...
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,zydeco soup,this is a delicious soup that i originally fou...


In [4]:
file_path = '07_nlp/preprocessed_descriptions.csv'  # Укажите правильный путь к вашему файлу
data = pd.read_csv(file_path)

descriptions = data['preprocessed_descriptions'].astype(str)

unique_words = set()

for description in descriptions:
    tokens = word_tokenize(description)
    unique_words.update(tokens)

print(f'Количество уникальных слов: {len(unique_words)}')
print(f'Первые 10 уникальных слов: {list(unique_words)[:10]}')

Количество уникальных слов: 24485
Первые 10 уникальных слов: ['domesticgoddess', 'athens', 'ruined', 'overpowrer', 'patient', 'strayed', 'lynched', 'restrained', 'bakeries', 'nane']


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [9]:
import random
import Levenshtein

# Сгенерировать 5 пар случайных слов
pairs = [(random.choice(list(unique_words)), random.choice(list(unique_words))) for i in range(5)]

# Посчитать расстояние редактирования для каждой пары
distances = [Levenshtein.distance(pair[0], pair[1]) for pair in pairs]

# Вывести пары слов и расстояния редактирования
for pair, distance in zip(pairs, distances):
    print(f"{pair[0]} -> {pair[1]}: {distance}")

scared -> airtight: 8
effortlessly -> twisted: 10
river -> confit: 6
corpse -> 429436: 6
derink -> riddled: 7


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [13]:
import Levenshtein

def find_k_nearest_neighbors(word, words, k):
    # Посчитать расстояния Левенштейна между заданным словом и всеми словами из списка
    distances = [Levenshtein.distance(word, w) for w in words]

    # Отсортировать слова по расстоянию Левенштейна
    sorted_words = sorted(zip(distances, words), key=lambda x: x[0])

    # Вернуть k ближайших соседей
    return [w for d, w in sorted_words[:5]]

find_k_nearest_neighbors('солнце', list(unique_words), 5)

['athens', 'ruined', 'nane', '14g', '148498']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [17]:
df_ = pd.DataFrame()

In [19]:
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer

# Убедитесь, что вы скачали необходимые ресурсы для nltk
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\nasty\AppData\Roaming\nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\nasty\AppData\Roaming\nltk_data...


True

In [22]:
# Инициализация стеммера и лемматизатора
stemmer = SnowballStemmer("english")
lemmatizer = WordNetLemmatizer()

# Стемминг и лемматизация
stemmed_words = [stemmer.stem(word) for word in list(unique_words)]
normalized_words = [lemmatizer.lemmatize(word) for word in list(unique_words)]  # English words will be lemmatized correctly

# Создание DataFrame
df = pd.DataFrame({
    'word': list(unique_words),
    'stemmed_word': stemmed_words,
    'normalized_word': normalized_words
})

# Установка столбца 'word' в качестве индекса
df.set_index('word', inplace=True)

print(df)


                    stemmed_word  normalized_word
word                                             
domesticgoddess  domesticgoddess  domesticgoddess
athens                     athen           athens
ruined                      ruin           ruined
overpowrer              overpowr       overpowrer
patient                  patient          patient
...                          ...              ...
000                          000              000
ram                          ram              ram
squashed                  squash         squashed
jello                      jello            jello
emerges                    emerg          emerges

[24485 rows x 2 columns]


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [26]:
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nasty\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [27]:
all_words = []

for description in descriptions:
    tokens = word_tokenize(description.lower())  # Преобразование в нижний регистр для унификации
    all_words.extend(tokens)

total_words_count = len(all_words)
print(f'Общее количество слов: {total_words_count}')

stop_words = set(stopwords.words('english'))

filtered_words = [word for word in all_words if word not in stop_words]

# Подсчет количества стоп-слов
stop_words_count = total_words_count - len(filtered_words)
stop_words_fraction = stop_words_count / total_words_count

print(f'Количество стоп-слов: {stop_words_count}')
print(f'Доля стоп-слов: {stop_words_fraction:.2%}')


Общее количество слов: 1104518
Количество стоп-слов: 520201
Доля стоп-слов: 47.10%


In [28]:
from collections import Counter
# Подсчет частотности слов
original_counter = Counter(all_words)
filtered_counter = Counter(filtered_words)

# Топ-10 самых часто употребляемых слов до удаления стоп-слов
top_10_original = original_counter.most_common(10)
print('Топ-10 слов до удаления стоп-слов:')
print(top_10_original)

# Топ-10 самых часто употребляемых слов после удаления стоп-слов
top_10_filtered = filtered_counter.most_common(10)
print('Топ-10 слов после удаления стоп-слов:')
print(top_10_filtered)


Топ-10 слов до удаления стоп-слов:
[('the', 40413), ('a', 35131), ('and', 30585), ('i', 27945), ('this', 27181), ('to', 23598), ('it', 23300), ('is', 20306), ('of', 18405), ('for', 16023)]
Топ-10 слов после удаления стоп-слов:
[('recipe', 15198), ('make', 6438), ('time', 5287), ('use', 4652), ('great', 4522), ('like', 4276), ('easy', 4263), ('one', 4018), ('good', 3887), ('made', 3874)]


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [34]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import random

random.seed(42)  # Установка зерна для воспроизводимости
random_indices = random.sample(range(len(descriptions)), 5)
random_descriptions = descriptions.iloc[random_indices]

print("Выбранные случайные рецепты:")
print('---------------------------------------------------------------------------------')
print(random_descriptions)

vectorizer = TfidfVectorizer()

# Преобразование описаний в числовые векторы
tfidf_matrix = vectorizer.fit_transform(random_descriptions)

# Преобразование матрицы в DataFrame для наглядности
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), index=random_indices, columns=vectorizer.get_feature_names_out())

print('---------------------------------------------------------------------------------')
print("Числовые векторы для выбранных рецептов:")
print('---------------------------------------------------------------------------------')
print(tfidf_df)



Выбранные случайные рецепты:
---------------------------------------------------------------------------------
20952    great for the kids  hamburger meat makes the c...
3648     picked up this recipe from womansday  the perf...
819                              from the magnolia bakery 
24299                poor man s saffron rice   still good 
9012                        requires 1 hour chilling time 
Name: preprocessed_descriptions, dtype: object
---------------------------------------------------------------------------------
Числовые векторы для выбранных рецептов:
---------------------------------------------------------------------------------
             12        16  absolutely   amazing       and    bakery      book  \
20952  0.000000  0.000000    0.000000  0.000000  0.000000  0.000000  0.188525   
3648   0.116932  0.116932    0.116932  0.116932  0.350797  0.000000  0.000000   
819    0.000000  0.000000    0.000000  0.000000  0.000000  0.587521  0.000000   
24299  0.000000  0

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [44]:
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.spatial.distance import cosine

# Получение имен рецептов для использования в качестве меток
recipe_names = data.iloc[random_indices]['preprocessed_descriptions']

print("Числовые векторы для выбранных рецептов:")
print('---------------------------------------------------------------------------------')
print(tfidf_df)

# Инициализация DataFrame для хранения косинусных расстояний
cosine_distances = pd.DataFrame(index=recipe_names, columns=recipe_names)

# Вычисление косинусного расстояния между каждой парой рецептов
for i in range(len(recipe_names)):
    for j in range(len(recipe_names)):
        if i == j:
            cosine_distances.iloc[i, j] = 0.0
        else:
            cosine_distances.iloc[i, j] = cosine(tfidf_matrix[i].toarray()[0], tfidf_matrix[j].toarray()[0])

print('---------------------------------------------------------------------------------')
print("Таблица косинусных расстояний:")
print('---------------------------------------------------------------------------------')
print(cosine_distances)


Числовые векторы для выбранных рецептов:
---------------------------------------------------------------------------------
             12        16  absolutely   amazing       and    bakery      book  \
20952  0.000000  0.000000    0.000000  0.000000  0.000000  0.000000  0.188525   
3648   0.116932  0.116932    0.116932  0.116932  0.350797  0.000000  0.000000   
819    0.000000  0.000000    0.000000  0.000000  0.000000  0.587521  0.000000   
24299  0.000000  0.000000    0.000000  0.000000  0.000000  0.000000  0.000000   
9012   0.000000  0.000000    0.000000  0.000000  0.000000  0.000000  0.000000   

        chicken  chilling  complete  ...  together  toppings        up  \
20952  0.000000       0.0  0.188525  ...  0.188525  0.188525  0.000000   
3648   0.116932       0.0  0.000000  ...  0.000000  0.000000  0.116932   
819    0.000000       0.0  0.000000  ...  0.000000  0.000000  0.000000   
24299  0.000000       0.0  0.000000  ...  0.000000  0.000000  0.000000   
9012   0.000000     

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [48]:
recipe_names = data.iloc[random_indices]['preprocessed_descriptions'].values

min_distance = float('inf')
min_pair = (None, None)
for i in range(len(recipe_names)):
    for j in range(i + 1, len(recipe_names)):
        distance = cosine_distances.iloc[i, j]
        if distance < min_distance:
            min_distance = distance
            min_pair = (recipe_names[i], recipe_names[j])

print(f"Наиболее похожие рецепты:\n{min_pair[0]}\n и \n{min_pair[1]}\n с косинусным расстоянием {min_distance}")

Наиболее похожие рецепты:
great for the kids  hamburger meat makes the crust that is then filled with yummy pizza toppings  quick to put together  taken from  the complete family cook book  
 и 
from the magnolia bakery 
 с косинусным расстоянием 0.8012862971727952
