# Введение в обработку текста на естественном языке

## Задачи для совместного разбора

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [2]:
pip install python-Levenshtein




In [1]:
text = '''с велИчайшим усилеем выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [3]:
import Levenshtein

# cчитываем слова из файла
with open("litw-win.txt", "r") as f:
    words = [line.split()[1] for line in f]

    
# исправление опечаток
def correct_word(word, words):
    if word in words:  # если слово в words, значит исправлять не надо, просто возвращаем слово
        return word
    else:
        # находим ближайшее слово по расстоянию Левенштейна
        min_distance = float('inf')
        corrected_word = None
        for w in words:
            distance = Levenshtein.distance(word, w)
            if distance < min_distance:
                min_distance = distance
                corrected_word = w
        return corrected_word

corrected_sentence = " ".join([correct_word(word, words) for word in text.split()])

print(corrected_sentence)

с величайшим усилием выбравшись из потока убегающих людей кутузов со свитой уменьшившейся вдвое поехал на звуки выстрелов русских орудий


2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [4]:
text = "Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words."

In [9]:
import pymorphy3
from nltk.stem.snowball import SnowballStemmer
import nltk

# Разбиваем текст на слова
words = nltk.word_tokenize(text)

# Создаем экземпляры MorphAnalyzer и SnowballStemmer
morph = pymorphy3.MorphAnalyzer()
stemmer = SnowballStemmer("russian")

# Функции для стемминга и лемматизации
def lemmatize_word(word):
    return morph.parse(word)[0].normal_form

def stem_word(word):
    return stemmer.stem(word)

# Применяем лемматизацию и стемминг к каждому слову
lemmatized_words = [lemmatize_word(word) for word in words]
stemmed_words = [stem_word(word) for word in words]

# Вывод результатов
print("Оригинальные слова:")
print(words)
print("\nЛемматизированные слова:")
print(lemmatized_words)
print("\nСтеммированные слова:")
print(stemmed_words)

Оригинальные слова:
['Считайте', 'слова', 'из', 'файла', 'litw-win.txt', 'и', 'запишите', 'их', 'в', 'список', 'words', '.', 'В', 'заданном', 'предложении', 'исправьте', 'все', 'опечатки', ',', 'заменив', 'слова', 'с', 'опечатками', 'на', 'ближайшие', '(', 'в', 'смысле', 'расстояния', 'Левенштейна', ')', 'к', 'ним', 'слова', 'из', 'списка', 'words', '.', 'Считайте', ',', 'что', 'в', 'слове', 'есть', 'опечатка', ',', 'если', 'данное', 'слово', 'не', 'содержится', 'в', 'списке', 'words', '.']

Лемматизированные слова:
['считать', 'слово', 'из', 'файл', 'litw-win.txt', 'и', 'записать', 'они', 'в', 'список', 'words', '.', 'в', 'задать', 'предложение', 'исправить', 'всё', 'опечатка', ',', 'заменить', 'слово', 'с', 'опечатка', 'на', 'близкий', '(', 'в', 'смысл', 'расстояние', 'левенштейн', ')', 'к', 'они', 'слово', 'из', 'список', 'words', '.', 'считать', ',', 'что', 'в', 'слово', 'есть', 'опечатка', ',', 'если', 'данный', 'слово', 'не', 'содержаться', 'в', 'список', 'words', '.']

Стеммиров

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

# Предложения из задания 1
sentences = [
    "Считайте слова из файла litw-win.txt и запишите их в список words.",
    "В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words.",
    "Считайте, что в слове есть опечатка, если данное слово не содержится в списке words."
]

# Инициализируем CountVectorizer
vectorizer = CountVectorizer()

# Преобразуем предложения в векторы
sentence_vectors = vectorizer.fit_transform(sentences)

# Получаем список уникальных слов в предложениях (функция get_feature_names)
feature_names = vectorizer.get_feature_names_out()

# Выводим предложения и соответствующие векторы
for i, sentence in enumerate(sentences):
    print(f"Предложение {i + 1}: {sentence}")
    print("Вектор:")
    print(sentence_vectors[i].toarray())
    print()

Предложение 1: Считайте слова из файла litw-win.txt и запишите их в список words.
Вектор:
[[1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 0]]

Предложение 2: В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words.
Вектор:
[[0 0 0 1 1 1 0 0 0 1 1 0 1 1 0 1 1 0 1 0 1 1 1 1 2 0 0 1 0 1 0 0 0 0 0]]

Предложение 3: Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.
Вектор:
[[0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 1 0 1 0 1 0 1 0 1]]



## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [5]:
import pandas as pd
from nltk.tokenize import word_tokenize
import nltk

# Загрузим файл preprocessed_descriptions.csv
file_path = 'preprocessed_descriptions.csv'
data = pd.read_csv(file_path)


# Объединим все описания в один текст
all_descriptions = ' '.join(data['preprocessed_descriptions'].astype(str))

# Токенизация текста
tokens = word_tokenize(all_descriptions)

# Преобразование в набор уникальных слов
unique_words = set(tokens)

# Вывод уникальных слов
unique_words

{'bahamian',
 'struck',
 'cordial',
 'available',
 'streamline',
 'coffees',
 'mozzerella',
 'didnt',
 'vibrancy',
 'fries',
 'revecca',
 'franskbrod',
 'omission',
 'mario',
 'squishiness',
 'heavenly',
 'qualities',
 'jay',
 'chinn',
 'bennigan',
 'bell',
 'waterman',
 'dulce',
 'reserved',
 'rubel',
 'flora',
 'savoury',
 'caribbeanchoice',
 'dressed',
 'roquefort',
 'slits',
 'kuzbara',
 'mountain',
 'quarterbacks',
 'broths',
 'peas',
 'perkins',
 'caloric',
 'acompaniment',
 'singapore',
 'bitburg',
 'sees',
 'freepasta',
 'powering',
 'tower',
 'mainland',
 'deceiving',
 'husks',
 'earthly',
 'mille',
 'clothing',
 'bologna',
 'squeeze',
 'susiequsie',
 'frostings',
 'undervalued',
 'lure',
 'disease',
 'fantabulous',
 'optimum',
 'contast',
 'raison',
 'hodgon',
 'liver',
 'carafe',
 'karma',
 'overpowrer',
 'scrap',
 'thinned',
 'brunches',
 'informed',
 '96th',
 'demonstrating',
 '56',
 'caserra',
 'snugly',
 'tossing',
 'herbal',
 'kimble',
 'alarmed',
 'coffe',
 'celsoup',


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [32]:
import random
import Levenshtein

# Сгенерировать 5 пар случайных слов
pairs = [(random.choice(words), random.choice(words)) for i in range(5)]

# Посчитать расстояние редактирования для каждой пары
distances = [Levenshtein.distance(pair[0], pair[1]) for pair in pairs]

# Вывести пары слов и расстояния редактирования
for pair, distance in zip(pairs, distances):
    print(f"{pair[0]} -> {pair[1]}: {distance}")

пар -> между: 5
Сгенерируйте -> пар: 11
редактирования -> посчитайте: 12
и -> выбранных: 9
расстояние -> ними: 9


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [5]:
import Levenshtein

def find_k_nearest_neighbors(word, words, k):
    # Посчитать расстояния Левенштейна между заданным словом и всеми словами из списка
    distances = [Levenshtein.distance(word, w) for w in words]

    # Отсортировать слова по расстоянию Левенштейна
    sorted_words = sorted(zip(distances, words), key=lambda x: x[0])

    # Вернуть k ближайших соседей
    return [w for d, w in sorted_words[:k]]

find_k_nearest_neighbors('солнце', words, 10)

['солнце',
 'солнц',
 'солне',
 'сонце',
 'солнца',
 'солнцу',
 'солнцы',
 'солнцем',
 'соне',
 'солн']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [12]:
import pandas as pd
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
import nltk

# Загрузим необходимые компоненты NLTK
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')

df = pd.DataFrame(list(unique_words), columns=['word'])

# Инициализация SnowballStemmer и WordNetLemmatizer
stemmer = SnowballStemmer("english")
lemmatizer = WordNetLemmatizer()

# Функции для стемминга и лемматизации
df['stemmed_word'] = df['word'].apply(lambda x: stemmer.stem(x))
df['normalized_word'] = df['word'].apply(lambda x: lemmatizer.lemmatize(x))

# Указываем столбец word в качестве индекса
df.set_index('word', inplace=True)

# Вывод первых строк DataFrame для проверки
df.head()

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\shubs\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\shubs\AppData\Roaming\nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\shubs\AppData\Roaming\nltk_data...


Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
bahamian,bahamian,bahamian
struck,struck,struck
cordial,cordial,cordial
available,avail,available
streamline,streamlin,streamline


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [14]:
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk
from collections import Counter
nltk.download('stopwords')


file_path = 'preprocessed_descriptions.csv'
data = pd.read_csv(file_path)

# Объединим все описания в один текст
all_descriptions = ' '.join(data['preprocessed_descriptions'].astype(str))

# Токенизация текста
tokens = word_tokenize(all_descriptions)

# Получим список стоп-слов для английского языка
stop_words = set(stopwords.words('english'))

# Подсчет частоты слов до удаления стоп-слов
word_freq_before = Counter(tokens)

# Удаление стоп-слов
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]

# Подсчет частоты слов после удаления стоп-слов
word_freq_after = Counter(filtered_tokens)

# Доля стоп-слов от общего количества слов
total_words = len(tokens)
stop_words_count = total_words - len(filtered_tokens)
stop_words_ratio = stop_words_count / total_words

# Топ-10 самых часто употребляемых слов до и после удаления стоп-слов
top_10_before = word_freq_before.most_common(10)
top_10_after = word_freq_after.most_common(10)

stop_words_ratio, top_10_before, top_10_after

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\shubs\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


(0.4709755748661407,
 [('the', 40413),
  ('a', 35131),
  ('and', 30585),
  ('i', 27945),
  ('this', 27181),
  ('to', 23598),
  ('it', 23300),
  ('is', 20306),
  ('of', 18405),
  ('for', 16023)],
 [('recipe', 15198),
  ('make', 6438),
  ('time', 5287),
  ('use', 4652),
  ('great', 4522),
  ('like', 4276),
  ('easy', 4263),
  ('one', 4018),
  ('good', 3887),
  ('made', 3874)])

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [20]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# Загрузка данных
file_path = 'preprocessed_descriptions.csv'
data = pd.read_csv(file_path)

# Выбор случайных 5 рецептов
random_recipes = data.sample(n=5, random_state=42)

# Получение описаний выбранных рецептов
descriptions = random_recipes['preprocessed_descriptions'].astype(str).tolist()

# Инициализация TfidfVectorizer
vectorizer = TfidfVectorizer()

# Применение TfidfVectorizer к описаниям рецептов
tfidf_matrix = vectorizer.fit_transform(descriptions)

# Преобразование результата в DataFrame для удобства
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), index=random_recipes.index, columns=vectorizer.get_feature_names_out())

# Вывод результатов
display(random_recipes)
tfidf_df

Unnamed: 0,name,preprocessed_descriptions
2308,barbecued potatoes,this is a delicious side that s great for pot ...
22404,reena s pickled beets,these are my mom s beets she taught me to ma...
23397,saucy mocha pots of cream microwave easy fix,w ea pg i have turned i have fallen more in l...
25058,spaghetti salad,great salad no bottled dressings or odd ingre...
2664,beef steaks with capsicum relish,this is a really easy way to prepare steak for...


Unnamed: 0,ago,ahead,also,amounts,and,another,any,are,as,australian,...,weekly,what,who,will,with,womens,work,years,you,young
2308,0.111007,0.0,0.0,0.0,0.155031,0.111007,0.0,0.0,0.0,0.0,...,0.0,0.0,0.13759,0.0,0.0,0.0,0.0,0.111007,0.0,0.0
22404,0.097391,0.0,0.0,0.0,0.204023,0.0,0.0,0.120713,0.120713,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.120713,0.097391,0.161686,0.120713
23397,0.0,0.0,0.0,0.0,0.0,0.149673,0.0,0.0,0.0,0.185516,...,0.185516,0.0,0.0,0.185516,0.0,0.185516,0.0,0.0,0.124242,0.0
25058,0.0,0.0,0.0,0.0,0.187091,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2664,0.0,0.107195,0.107195,0.107195,0.060392,0.0,0.107195,0.0,0.0,0.0,...,0.0,0.107195,0.0,0.0,0.321586,0.0,0.0,0.0,0.07179,0.0


3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [23]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.spatial.distance import cosine

titles = random_recipes['name'].tolist()

# Применим TfidfVectorizer
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(descriptions).toarray()

# Вычисление косинусного расстояния между каждой парой рецептов
distances = pd.DataFrame(index=titles, columns=titles)

for i in range(len(titles)):
    for j in range(len(titles)):
        if i == j:
            distances.iloc[i, j] = 0.0
        else:
            distances.iloc[i, j] = cosine(tfidf_matrix[i], tfidf_matrix[j])

# Преобразование результатов в числовой формат
distances = distances.astype(float)

# Вывод таблицы с косинусными расстояниями
distances

Unnamed: 0,barbecued potatoes,reena s pickled beets,saucy mocha pots of cream microwave easy fix,spaghetti salad,beef steaks with capsicum relish
barbecued potatoes,0.0,0.694352,0.915225,0.891019,0.809012
reena s pickled beets,0.694352,0.0,0.923048,0.961829,0.818986
saucy mocha pots of cream microwave easy fix,0.915225,0.923048,0.0,1.0,0.886841
spaghetti salad,0.891019,0.961829,1.0,0.0,0.972735
beef steaks with capsicum relish,0.809012,0.818986,0.886841,0.972735,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

Наиболее похожие - те, которые ближе к 0